Papers·2일 전
TRACE: 강화 학습 샘플 효율을 높이는 트리 구조 롤아웃 할당 — Qwen3-14B Multi-Hop QA 정확도 2.8p 향상

Tencent 팀이 다중 턴 에이전트 강화 학습에서 샘플 예산을 효율적으로 배분하는 TRACE 프레임워크를 제안했습니다. ReAct 스타일의 각 턴을 노드로 보고, 프리픽스 수준에서 조건부 성공 확률을 예측해 혼합 보상이 예상되는 지점에 롤아웃을 집중합니다. Qwen3-14B 기반 Multi-Hop QA에서 동일 샘플 비용 대비 평균 정확도 2.8p 향상을 보였으나, 벤치마크 특화 가능성과 복잡한 환경에서의 일반화는 추가 검증이 필요합니다.
Tencent 연구진이 다중 턴 에이전트 RL의 샘플 효율을 높이기 위해 트리 구조 롤아웃 할당 프레임워크 TRACE를 공개했습니다.
핵심 결론
- 성능 — Qwen3-14B Multi-Hop QA 평균 정확도 2.8p 향상, 동일 샘플 비용 대비.
- 효율 — 고정 예산 내에서 보상 대비를 높여 정책 업데이트 신호를 증폭합니다.
방법
- 트리 구조 — ReAct 각 턴을 노드로 보고, 프리픽스 수준에서 추가 롤아웃을 할당해 트리 형태 확장.
- 예측기 — 공유 가능한 일반화 예측기가 프리픽스 히스토리로 조건부 성공 확률을 추정해 할당을 가이드.
- 기존 프롬프트 수준 할당을 넘어 턴 내 프리픽스 변동성까지 활용한 점이 핵심입니다.
한계·조건
- 벤치 — Multi-Hop QA 등 특정 에이전트 태스크에 국한되어 일반화 검증 필요.
- 복잡도 — 트리 구조 관리 및 예측기 학습에 추가 오버헤드가 발생할 수 있습니다.
- 코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
프리픽스 수준의 보상 대비를 포착한 점은 기존 방법 대비 세분화된 통찰을 제공하지만, 실제 배포 환경에서의 안정성은 추가 실험이 필요해 보입니다.
- #reinforcement-learning
- #agentic
- #tencent
- #rollout-allocation
- #qwen
Tencent