Papers·1개월 전

OPD의 파라미터 공간 업데이트 기하학 — SFT·RLVR와 다른 고유한 궤적

홍콩과기대 연구팀이 on-policy distillation(OPD)의 학습 동역학을 파라미터 공간에서 분석했습니다. OPD 업데이트는 SFT보다 더 적은 가중치에 영향을 주고 주성분 방향을 더 강하게 회피하며, RLVR보다는 덜 제약된 상태를 유지합니다. 또한 OPD는 누적 업데이트가 빠르게 좁은 저차원 채널에 갇히는 subspace locking 현상을 보이는데, 이 부분 공간만으로도 OPD 성능이 유지되지만 SFT는 크게 저하됩니다. OPD가 단순히 SFT와 RLVR의 중간점이 아니라 고유한 업데이트 기하학을 가진다는 점이 핵심입니다.

홍콩과기대 연구팀이 OPD의 파라미터 공간 업데이트 기하학을 SFT 및 RLVR과 비교 분석했습니다.

핵심 결론

비교 — OPD는 SFT보다 더 적은 가중치에 영향을 주고 주성분 방향을 더 강하게 회피하는 반면, RLVR보다는 덜 제약된 상태를 유지합니다.
subspace locking — OPD의 누적 업데이트는 빠르게 좁은 저차원 채널에 진입하며, 이 부분 공간만으로도 OPD 성능이 유지되지만 SFT는 크게 저하됩니다.

방법

진단 도구 — 파라미터 공간 진단을 통해 OPD가 SFT와 RLVR 사이의 중간이 아니라 고유한 relaxed off-principal regime에 있음을 보였습니다.
통제 실험 — 업데이트 토큰을 희소화하거나 rollout을 off-policy로 바꿔도 rank 동역학이 유지되지만, OPD 목적함수를 RLVR과 섞으면 변화가 생깁니다.

한계·조건

범위 — 분석은 특정 모델 크기와 벤치마크에 국한될 수 있으며, subspace locking의 일반화 가능성은 추가 검증이 필요합니다.
코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.

편집자 한 줄

OPD의 독특한 업데이트 기하학을 밝힌 점이 흥미롭지만, 실제 학습 효율 개선으로 이어질지는 추가 연구가 필요해 보입니다.

#on-policy-distillation
#training-dynamics
#parameter-space
#hkust

香港科技大学

원문 보기 →

OPD의 파라미터 공간 업데이트 기하학 — SFT·RLVR와 다른 고유한 궤적

핵심 결론

방법

한계·조건

Comments