Papers·1개월 전

중과기대, 에이전트 궤적으로 장문 맥락 추론 학습 — ACC, Qwen3-30B에서 MRCR +18.1

중과기대 연구팀이 에이전트가 문제 해결 과정에서 생성하는 궤적(trajectory)을 장문 맥락 QA 쌍으로 변환해 LLM의 장문 추론 능력을 학습시키는 Agent Context Compilation (ACC)을 제안했습니다. 기존 SFT가 턴 단위 도구 선택만 학습해 분산된 증거 신호를 놓치는 문제를 해결하며, 질문과 증거 간 의존성을 명시적으로 만들어 추가 주석 없이 장문 추론을 지도합니다. Qwen3-30B-A3B에 ACC를 적용해 MRCR에서 68.3(+18.1), GraphWalks에서 77.5(+7.6)를 달성, Qwen3-235B-A22B에 준하는 성능을 보이면서도 일반 능력은 유지했습니다. 다만 이 방법은 에이전트 궤적 데이터가 필요하며, 실험은 특정 벤치마크에 국한되어 있습니다.

#long-context
#agents
#supervised-fine-tuning
#ustc
#qwen

University of Science and Technology of China

원문 보기 →

중과기대, 에이전트 궤적으로 장문 맥락 추론 학습 — ACC, Qwen3-30B에서 MRCR +18.1

Comments