Papers·1개월 전

TRACE: 강화 학습 샘플 효율을 높이는 트리 구조 롤아웃 할당 — Qwen3-14B Multi-Hop QA 정확도 2.8p 향상

Tencent 팀이 다중 턴 에이전트 강화 학습에서 샘플 예산을 효율적으로 배분하는 TRACE 프레임워크를 제안했습니다. ReAct 스타일의 각 턴을 노드로 보고, 프리픽스 수준에서 조건부 성공 확률을 예측해 혼합 보상이 예상되는 지점에 롤아웃을 집중합니다. Qwen3-14B 기반 Multi-Hop QA에서 동일 샘플 비용 대비 평균 정확도 2.8p 향상을 보였으나, 벤치마크 특화 가능성과 복잡한 환경에서의 일반화는 추가 검증이 필요합니다.

Tencent 연구진이 다중 턴 에이전트 RL의 샘플 효율을 높이기 위해 트리 구조 롤아웃 할당 프레임워크 TRACE를 공개했습니다.

핵심 결론

성능 — Qwen3-14B Multi-Hop QA 평균 정확도 2.8p 향상, 동일 샘플 비용 대비.
효율 — 고정 예산 내에서 보상 대비를 높여 정책 업데이트 신호를 증폭합니다.

방법

트리 구조 — ReAct 각 턴을 노드로 보고, 프리픽스 수준에서 추가 롤아웃을 할당해 트리 형태 확장.
예측기 — 공유 가능한 일반화 예측기가 프리픽스 히스토리로 조건부 성공 확률을 추정해 할당을 가이드.
기존 프롬프트 수준 할당을 넘어 턴 내 프리픽스 변동성까지 활용한 점이 핵심입니다.

한계·조건

벤치 — Multi-Hop QA 등 특정 에이전트 태스크에 국한되어 일반화 검증 필요.
복잡도 — 트리 구조 관리 및 예측기 학습에 추가 오버헤드가 발생할 수 있습니다.
코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

프리픽스 수준의 보상 대비를 포착한 점은 기존 방법 대비 세분화된 통찰을 제공하지만, 실제 배포 환경에서의 안정성은 추가 실험이 필요해 보입니다.

#reinforcement-learning
#agentic
#tencent
#rollout-allocation
#qwen

Tencent

원문 보기 →

TRACE: 강화 학습 샘플 효율을 높이는 트리 구조 롤아웃 할당 — Qwen3-14B Multi-Hop QA 정확도 2.8p 향상

핵심 결론

방법

한계·조건

Comments