Papers·1개월 전

LongTraceRL — RLVR 로 장문 추론 강화, 엔티티 단위 보상으로 4B-30B 모델 5개 벤치 평균 12% 향상

Tsinghua KEG 팀이 장문 추론을 위한 RLVR 프레임워크 LongTraceRL 을 공개했습니다. 검색 에이전트 궤적을 활용해 혼동도가 높은 방해 문서를 구성하고, 정답 체인 상의 엔티티를 단위로 하는 세분화된 rubric reward 를 도입해 올바른 응답 간 추론 품질을 차별화한 점이 핵심입니다. 4B-30B 규모의 세 가지 LLM 을 5개 long-context 벤치마크에서 평가한 결과, 기존 RLVR 대비 평균 12% 개선을 보였습니다. 단, 코드·데이터·모델은 공개되어 있으나 compute 요구량이 상당할 것으로 보입니다.

Tsinghua KEG 팀이 장문 추론을 위한 RLVR 프레임워크 LongTraceRL 을 공개했습니다.

핵심 결론

태스크 — 장문 맥락 내 다중 홉 추론 — 방해 문서가 많은 환경에서 정답 체인 추적.
성능 — 4B-30B LLM 5개 벤치마크 평균 12% 정확도 향상 (기존 RLVR 대비).
모델 — Qwen2.5-7B, Llama-3.1-8B, Qwen2.5-30B 등에서 일관된 개선.

방법

데이터 구성 — 지식 그래프 랜덤 워크로 다중 홉 질문 생성 후, 검색 에이전트 궤적을 활용해 '읽었지만 인용 안 한 문서'(고혼동)와 '검색 결과에만 있었던 문서'(저혼동)를 계층적 방해물로 배치.
보상 설계 — 정답 체인 상의 골드 엔티티를 단위로 한 rubric reward — 정답 응답 중에서만 적용(positive-only)해 보상 해킹 방지.
차별점 — 기존 RLVR 은 최종 답변만 보상하는 반면, LongTraceRL 은 추론 중간 단계의 엔티티 사용 여부를 감독.

한계·조건

리소스 — 30B 모델 학습에는 상당한 GPU 시간이 필요할 것으로 예상 — 논문에 구체적인 compute 명시 없음.
벤치 범위 — 평가된 벤치마크 5개는 모두 합성 데이터 기반 QA — 실제 문서 검색 환경에서의 일반화는 추가 검증 필요.
코드 — GitHub 공개 완료 — 데이터셋 및 학습 코드 포함.

편집자 한 줄

엔티티 단위 과정 보상은 RLVR 의 outcome-only 한계를 잘 짚었네요. 다만 positive-only 전략이 오답의 추론 과정을 완전히 무시하는 점이 trade-off 로 남습니다.

#long-context
#rlvr
#reasoning
#tsinghua

Knowledge Engineer Group @ Tsinghua University

원문 보기 →

LongTraceRL — RLVR 로 장문 추론 강화, 엔티티 단위 보상으로 4B-30B 모델 5개 벤치 평균 12% 향상

핵심 결론

방법

한계·조건

Comments