Papers·3일 전
EnvFactory: 자동화된 도구 환경 구축 및 궤적 합성으로 Agentic RL 성능 향상 — Qwen3 BFCLv3 +15%

HKUST(GZ) LARK Lab이 제안한 EnvFactory는 LLM의 도구 사용 능력을 강화하기 위한 Agentic RL의 두 가지 병목(확장 가능한 실행 환경 부족, 현실적인 훈련 데이터 희소)을 해결하는 완전 자동화 프레임워크입니다. 웹 문서 등 실제 리소스에서 상태 기반의 실행 가능한 도구 환경을 자율적으로 탐색·검증하고, 위상 인식 샘플링과 정제 과정을 통해 암묵적 의도를 담은 자연스러운 다중 턴 궤적을 합성합니다. 7개 도메인에서 85개 환경만으로 2,575개의 SFT 및 RL 궤적을 생성했으며, Qwen3 시리즈 모델의 BFCLv3 성능을 최대 +15%, MCP-Atlas에서 +8.6%, τ²-Bench·VitaBench 등 대화형 벤치마크에서 +6% 향상시켰습니다. 기존 대비 5배 적은 환경 수로도 더 나은 훈련 효율과 성능을 달성했다는 점이 특이합니다.
- #agentic-rl
- #tool-use
- #qwen3
- #hkust
LARK Lab@HKUST (GZ)