Papers·5일 전
의료 AI 멀티턴 RL 훈련 안정화: TT-OPD로 10개 벤치마크 평균 +3.9%p 개선

의료 임상 추론을 위한 멀티턴 에이전트 RL 훈련에서 발생하는 '단일턴 붕괴'(응답 길이 폭발, 도구 사용 감소) 문제를 분석하고, Turn-level Truncated On-Policy Distillation (TT-OPD)이라는 자기 증류 프레임워크를 제안했습니다. TT-OPD는 gradient-free EMA 교사가 각 턴마다 outcome-aware KL 정규화를 제공하여 훈련 안정성과 수렴 속도를 개선하며, 18개 벤치마크 중 10개에서 최고 성능을 달성하고 비RL 기준선 대비 평균 +3.9%p 향상되었습니다. 단, 환경은 10개 임상 도메인, 3.6K+ 태스크, 135개 도구, 828K 의학 지식 베이스로 구성된 gymnasium 호환 환경에서 실험되었습니다.
- #reinforcement-learning
- #medical-ai
- #clinical-reasoning
- #distillation
- #multi-turn
Minbyul Jeong