Papers·1개월 전

Salesforce, 언어 피드백으로 추론 학습을 개선하는 Variational Policy Distillation 제안

복잡한 추론 태스크에서 보상 신호가 희소한 RLVR의 탐색 문제를 해결하기 위해, Salesforce AI Research가 Variational Policy Distillation(VPD)을 제안했습니다. VPD는 언어 피드백을 variational EM 문제로 공식화하여 teacher와 student 정책을 공진화시키며, 과학적 추론과 코드 생성에서 기존 RLVR 및 self-distillation baseline을 일관되게 능가했습니다. 다만, 순수 환경 기반 RL에 비해 피드백 기반 증류의 근본적 한계가 존재함을 실험적으로 밝혔습니다.

#reinforcement-learning
#self-distillation
#reasoning
#salesforce

Salesforce AI Research

원문 보기 →

Salesforce, 언어 피드백으로 추론 학습을 개선하는 Variational Policy Distillation 제안

Comments