← Back to feed
Papers·3일 전

LongTraceRL — RLVR 로 장문 추론 강화, 엔티티 단위 보상으로 4B-30B 모델 5개 벤치 평균 12% 향상

LongTraceRL — RLVR 로 장문 추론 강화, 엔티티 단위 보상으로 4B-30B 모델 5개 벤치 평균 12% 향상

Tsinghua KEG 팀이 장문 추론을 위한 RLVR 프레임워크 LongTraceRL 을 공개했습니다. 검색 에이전트 궤적을 활용해 혼동도가 높은 방해 문서를 구성하고, 정답 체인 상의 엔티티를 단위로 하는 세분화된 rubric reward 를 도입해 올바른 응답 간 추론 품질을 차별화한 점이 핵심입니다. 4B-30B 규모의 세 가지 LLM 을 5개 long-context 벤치마크에서 평가한 결과, 기존 RLVR 대비 평균 12% 개선을 보였습니다. 단, 코드·데이터·모델은 공개되어 있으나 compute 요구량이 상당할 것으로 보입니다.

Tsinghua KEG 팀이 장문 추론을 위한 RLVR 프레임워크 LongTraceRL 을 공개했습니다.

핵심 결론

  • 태스크장문 맥락 내 다중 홉 추론 — 방해 문서가 많은 환경에서 정답 체인 추적.
  • 성능4B-30B LLM 5개 벤치마크 평균 12% 정확도 향상 (기존 RLVR 대비).
  • 모델Qwen2.5-7B, Llama-3.1-8B, Qwen2.5-30B 등에서 일관된 개선.

방법

  • 데이터 구성지식 그래프 랜덤 워크로 다중 홉 질문 생성 후, 검색 에이전트 궤적을 활용해 '읽었지만 인용 안 한 문서'(고혼동)와 '검색 결과에만 있었던 문서'(저혼동)를 계층적 방해물로 배치.
  • 보상 설계정답 체인 상의 골드 엔티티를 단위로 한 rubric reward — 정답 응답 중에서만 적용(positive-only)해 보상 해킹 방지.
  • 차별점기존 RLVR 은 최종 답변만 보상하는 반면, LongTraceRL 은 추론 중간 단계의 엔티티 사용 여부를 감독.

한계·조건

  • 리소스30B 모델 학습에는 상당한 GPU 시간이 필요할 것으로 예상 — 논문에 구체적인 compute 명시 없음.
  • 벤치 범위평가된 벤치마크 5개는 모두 합성 데이터 기반 QA — 실제 문서 검색 환경에서의 일반화는 추가 검증 필요.
  • 코드GitHub 공개 완료 — 데이터셋 및 학습 코드 포함.

편집자 한 줄

엔티티 단위 과정 보상은 RLVR 의 outcome-only 한계를 잘 짚었네요. 다만 positive-only 전략이 오답의 추론 과정을 완전히 무시하는 점이 trade-off 로 남습니다.

  • #long-context
  • #rlvr
  • #reasoning
  • #tsinghua
Knowledge Engineer Group @ Tsinghua University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —