Papers·2일 전
REVES: 중간 단계 오답을 활용한 LLM 추론 개선 — LiveCodeBench +6.5점

Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다. 기존 다중 턴 RL 대비 LiveCodeBench에서 +6.5점, 다중 턴 학습 대비 +4.0점 개선되었으며, 4B 모델로 circle packing에서 SOTA를 달성했습니다. 코드는 GitHub에 공개되었습니다.
Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다.
핵심 결론
- 벤치 — LiveCodeBench에서 기존 RL 대비 +6.5점, 다중 턴 학습 대비 +4.0점 개선.
- 일반화 — Circle packing에서 4B 모델로 SOTA 달성 (훨씬 큰 진화 탐색 시스템보다 적은 rollout).
- 수학 추론 및 out-of-distribution 퍼즐(n_queens, mini_sudoku)에서도 개선 확인.
방법
- 핵심 아이디어 — 성공적인 복구 궤적에서 중간 단계의 'near-miss' 오답을 분리해 revision 및 verification 프롬프트로 변환.
- 이를 통해 오프-폴리시 데이터 생성이 가능해져 장기 샘플링 비용을 줄임.
- 2단계 반복: 온라인 데이터/프롬프트 증강과 정책 최적화를 번갈아 수행.
한계·조건
- 피드백 — LiveCodeBench는 공개 테스트 케이스, 수학은 ground-truth 검증 필요.
- 스케일 — 4B 모델 기준 실험 — 더 큰 모델에서의 효과는 추가 검증 필요.
- 코드 — GitHub 공개 (https://github.com/yxliu02/REVES.git).
편집자 한 줄
중간 단계 오답을 적극 활용해 학습 효율을 높인 점이 인상적입니다. 다만 피드백 신호가 명확한 코드/수학 도메인에 국한되어 있어, 일반 텍스트 추론으로의 확장은 추가 연구가 필요해 보입니다.
- #reinforcement-learning
- #reasoning
- #llm
- #code-generation
Yuanxin Liu