Papers·어제

SDAR: RL 에 OPSD 보조 목표를 게이트로 결합 — ALFWorld +9.4%, WebShop +10.2%

Zhengxi Lu 팀이 제안한 SDAR(Self-Distilled Agentic Reinforcement Learning)는 multi-turn LLM agent 학습에서 RL을 주 최적화로 유지하면서, OPSD(On-Policy Self-Distillation)의 토큰 수준 신호를 sigmoid 게이트로 조건부로 받아들입니다. OPSD가 teacher 거절을 부드럽게 약화시켜 불안정성을 해결했고, Qwen2.5/Qwen3 계열에서 GRPO 대비 ALFWorld +9.4%, Search-QA +7.0%, WebShop-Acc +10.2% 향상되었습니다. 단, 이 방법은 teacher branch에 privileged context가 필요해 실제 환경에서는 적용이 까다로울 수 있습니다.

#reinforcement-learning
#self-distillation
#llm-agent
#multi-turn
#qwen

Zhengxi Lu

원문 보기 →

SDAR: RL 에 OPSD 보조 목표를 게이트로 결합 — ALFWorld +9.4%, WebShop +10.2%

Comments