← Back to feed
Papers·2일 전

REVES: 중간 단계 오답을 활용한 LLM 추론 개선 — LiveCodeBench +6.5점

REVES: 중간 단계 오답을 활용한 LLM 추론 개선 — LiveCodeBench +6.5점

Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다. 기존 다중 턴 RL 대비 LiveCodeBench에서 +6.5점, 다중 턴 학습 대비 +4.0점 개선되었으며, 4B 모델로 circle packing에서 SOTA를 달성했습니다. 코드는 GitHub에 공개되었습니다.

Yuanxin Liu 팀이 LLM 추론에서 중간 단계의 'near-miss' 오답을 별도 프롬프트로 변환해 학습하는 2단계 반복 프레임워크 REVES를 제안했습니다.

핵심 결론

  • 벤치LiveCodeBench에서 기존 RL 대비 +6.5점, 다중 턴 학습 대비 +4.0점 개선.
  • 일반화Circle packing에서 4B 모델로 SOTA 달성 (훨씬 큰 진화 탐색 시스템보다 적은 rollout).
  • 수학 추론 및 out-of-distribution 퍼즐(n_queens, mini_sudoku)에서도 개선 확인.

방법

  • 핵심 아이디어성공적인 복구 궤적에서 중간 단계의 'near-miss' 오답을 분리해 revision 및 verification 프롬프트로 변환.
  • 이를 통해 오프-폴리시 데이터 생성이 가능해져 장기 샘플링 비용을 줄임.
  • 2단계 반복: 온라인 데이터/프롬프트 증강과 정책 최적화를 번갈아 수행.

한계·조건

  • 피드백LiveCodeBench는 공개 테스트 케이스, 수학은 ground-truth 검증 필요.
  • 스케일4B 모델 기준 실험 — 더 큰 모델에서의 효과는 추가 검증 필요.
  • 코드GitHub 공개 (https://github.com/yxliu02/REVES.git).

편집자 한 줄

중간 단계 오답을 적극 활용해 학습 효율을 높인 점이 인상적입니다. 다만 피드백 신호가 명확한 코드/수학 도메인에 국한되어 있어, 일반 텍스트 추론으로의 확장은 추가 연구가 필요해 보입니다.

  • #reinforcement-learning
  • #reasoning
  • #llm
  • #code-generation
Yuanxin Liu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —