← Back to feed
Papers·어제

T2PO: 불확실성 기반 탐색 제어로 다중 턴 RL 안정화 — WebShop, ALFWorld, Search QA에서 성능 개선

T2PO: 불확실성 기반 탐색 제어로 다중 턴 RL 안정화 — WebShop, ALFWorld, Search QA에서 성능 개선

다중 턴 RL의 불안정성이 탐색 비효율에서 비롯된다는 분석을 바탕으로, 토큰 수준과 턴 수준에서 불확실성을 모니터링하며 탐색을 제어하는 T2PO 프레임워크를 제안합니다. 토큰 수준에서는 한계 불확실성 변화가 임계값 이하일 때 thinking intervention을, 턴 수준에서는 탐색 진전이 없는 턴을 동적으로 재샘플링합니다. WebShop, ALFWorld, Search QA 환경에서 훈련 안정성과 성능이 개선되었으며, 코드가 공개되었습니다.

Haixin Wang

Comments

— 첫 댓글을 남겨보세요 —