Papers·2일 전
UCLA, 자기증류 기반 정책경사 SDPG — RLVR 대비 안정성·성능 개선

UCLA 팀이 희소 보상 RL에서 밀집 감독을 제공하는 온-폴리시 자기증류(self-distillation)를 정책경사에 통합한 SDPG 프레임워크를 제안했습니다. 그룹 상대적 검증자 이점(group-relative verifier advantage), 정규화된 표준편차, 정확한 전체 어휘 온-폴리시 자기증류(정방향 KL 발산), 참조 정책 KL 정규화를 결합해 RLVR 및 기존 자기증류 대비 안정성과 성능을 높였습니다. 코드는 공개되었습니다.
UCLA 팀이 희소 보상 RL을 위한 자기증류 기반 정책경사 프레임워크 SDPG를 공개했습니다.
핵심 결론
- 성능 — RLVR 및 자기증류 베이스라인 대비 보상 및 안정성에서 일관된 개선을 보였습니다.
- 기여 — 온-폴리시 자기증류를 정책경사에 자연스럽게 통합한 점이 핵심입니다.
방법
- 자기증류 — 모델이 특권 맥락(privileged context)을 조건으로 자신의 생성물을 감독하는 온-폴리시 자기증류를 사용합니다.
- 손실 — 이는 학생→교사 역방향 KL 발산의 전체 어휘 버전으로 구현되며, 정책경사에 보조 손실로 추가됩니다.
- 구성 — 그룹 상대적 검증자 이점(GROUP RELATIVE VERIFIER ADVANTAGES), 정규화된 표준편차, 참조 정책 KL 정규화를 함께 사용합니다.
한계·조건
- 환경 — 특권 맥락이 필요하므로, 모든 RL 설정에 적용 가능한 것은 아닙니다.
- 코드 — GitHub에 코드가 공개되어 재현 가능합니다.
편집자 한 줄
자기증류를 정책경사에 통합한 아이디어는 깔끔하지만, 특권 맥락의 가용성이 실제 적용 범위를 제한할 수 있겠네요.
- #self-distillation
- #reinforcement-learning
- #policy-gradient
- #ucla
University of California, Los Angeles