← Back to feed
Papers·2일 전

UCLA, 자기증류 기반 정책경사 SDPG — RLVR 대비 안정성·성능 개선

UCLA, 자기증류 기반 정책경사 SDPG — RLVR 대비 안정성·성능 개선

UCLA 팀이 희소 보상 RL에서 밀집 감독을 제공하는 온-폴리시 자기증류(self-distillation)를 정책경사에 통합한 SDPG 프레임워크를 제안했습니다. 그룹 상대적 검증자 이점(group-relative verifier advantage), 정규화된 표준편차, 정확한 전체 어휘 온-폴리시 자기증류(정방향 KL 발산), 참조 정책 KL 정규화를 결합해 RLVR 및 기존 자기증류 대비 안정성과 성능을 높였습니다. 코드는 공개되었습니다.

UCLA 팀이 희소 보상 RL을 위한 자기증류 기반 정책경사 프레임워크 SDPG를 공개했습니다.

핵심 결론

  • 성능RLVR 및 자기증류 베이스라인 대비 보상 및 안정성에서 일관된 개선을 보였습니다.
  • 기여온-폴리시 자기증류를 정책경사에 자연스럽게 통합한 점이 핵심입니다.

방법

  • 자기증류모델이 특권 맥락(privileged context)을 조건으로 자신의 생성물을 감독하는 온-폴리시 자기증류를 사용합니다.
  • 손실이는 학생→교사 역방향 KL 발산의 전체 어휘 버전으로 구현되며, 정책경사에 보조 손실로 추가됩니다.
  • 구성그룹 상대적 검증자 이점(GROUP RELATIVE VERIFIER ADVANTAGES), 정규화된 표준편차, 참조 정책 KL 정규화를 함께 사용합니다.

한계·조건

  • 환경특권 맥락이 필요하므로, 모든 RL 설정에 적용 가능한 것은 아닙니다.
  • 코드GitHub에 코드가 공개되어 재현 가능합니다.

편집자 한 줄

자기증류를 정책경사에 통합한 아이디어는 깔끔하지만, 특권 맥락의 가용성이 실제 적용 범위를 제한할 수 있겠네요.

  • #self-distillation
  • #reinforcement-learning
  • #policy-gradient
  • #ucla
University of California, Los Angeles
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —