← Back to feed
Papers·어제

SDAR: RL 에 OPSD 보조 목표를 게이트로 결합 — ALFWorld +9.4%, WebShop +10.2%

SDAR: RL 에 OPSD 보조 목표를 게이트로 결합 — ALFWorld +9.4%, WebShop +10.2%

Zhengxi Lu 팀이 제안한 SDAR(Self-Distilled Agentic Reinforcement Learning)는 multi-turn LLM agent 학습에서 RL을 주 최적화로 유지하면서, OPSD(On-Policy Self-Distillation)의 토큰 수준 신호를 sigmoid 게이트로 조건부로 받아들입니다. OPSD가 teacher 거절을 부드럽게 약화시켜 불안정성을 해결했고, Qwen2.5/Qwen3 계열에서 GRPO 대비 ALFWorld +9.4%, Search-QA +7.0%, WebShop-Acc +10.2% 향상되었습니다. 단, 이 방법은 teacher branch에 privileged context가 필요해 실제 환경에서는 적용이 까다로울 수 있습니다.

  • #reinforcement-learning
  • #self-distillation
  • #llm-agent
  • #multi-turn
  • #qwen
Zhengxi Lu

Comments

— 첫 댓글을 남겨보세요 —