Papers·1개월 전

REVES: 중간 단계 오답을 활용한 LLM 추론 개선 — LiveCodeBench +6.5점

Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다. 기존 다중 턴 RL 대비 LiveCodeBench에서 +6.5점, 다중 턴 학습 대비 +4.0점 개선되었으며, 4B 모델로 circle packing에서 SOTA를 달성했습니다. 코드는 GitHub에 공개되었습니다.

Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다.

핵심 결론

벤치 — LiveCodeBench에서 기존 RL 대비 +6.5점, 다중 턴 학습 대비 +4.0점 개선.
일반화 — Circle packing에서 4B 모델로 SOTA 달성 (훨씬 큰 진화 탐색 시스템보다 적은 rollout).
수학 추론 및 out-of-distribution 퍼즐(n_queens, mini_sudoku)에서도 개선 확인.

방법

핵심 아이디어 — 성공적인 복구 궤적에서 중간 단계의 'near-miss' 오답을 분리해 revision 및 verification 프롬프트로 변환.
이를 통해 오프-폴리시 데이터 생성이 가능해져 장기 샘플링 비용을 줄임.
2단계 반복: 온라인 데이터/프롬프트 증강과 정책 최적화를 번갈아 수행.

한계·조건

피드백 — LiveCodeBench는 공개 테스트 케이스, 수학은 ground-truth 검증 필요.
스케일 — 4B 모델 기준 실험 — 더 큰 모델에서의 효과는 추가 검증 필요.
코드 — GitHub 공개 (https://github.com/yxliu02/REVES.git).

편집자 한 줄

중간 단계 오답을 적극 활용해 학습 효율을 높인 점이 인상적입니다. 다만 피드백 신호가 명확한 코드/수학 도메인에 국한되어 있어, 일반 텍스트 추론으로의 확장은 추가 연구가 필요해 보입니다.

#reinforcement-learning
#reasoning
#llm
#code-generation

Yuanxin Liu

원문 보기 →

REVES: 중간 단계 오답을 활용한 LLM 추론 개선 — LiveCodeBench +6.5점

핵심 결론

방법

한계·조건

Comments