Papers·1개월 전

자기-증류에서 피드백 구조 정렬이 핵심 — 단계별 비평이 GRPO 대비 16점 향상

Gensyn 연구팀이 자기-증류(self-distillation)에서 피드백의 구조적 정렬이 성능에 미치는 영향을 분석했습니다. 단계별 비평(step-aligned critique)이 GRPO보다 Avg@12에서 16.11점, 참조 해답 조건보다 5.27점 높은 성능을 보였습니다. 핵심은 피드백이 오류 토큰에만 집중해 올바른 행동을 보존하는 반면, 참조 해답은 모든 토큰에 변화를 강요해 오히려 방해가 된다는 점입니다.

Gensyn 연구팀이 자기-증류에서 피드백의 구조적 정렬이 성능을 좌우함을 실험으로 입증했습니다.

핵심 결론

성능 — 단계별 비평 조건이 GRPO 대비 Avg@12에서 16.11점, 참조 해답 조건 대비 5.27점 높았습니다.
분석 — 토큰 단위 이점 분석 결과, 단계별 비평은 오류 토큰에만 집중해 올바른 행동을 보존합니다.

방법

구조 — 고정된 비평가로부터 피드백을 받아 solver를 학습하며, 세 가지 조건을 비교: (i) 이진 보상(GRPO), (ii) 참조 해답, (iii) solver의 추론 과정에 정렬된 단계별 비평.
자기-증류는 질문만 보는 학생과 추가 맥락을 보는 자기-교사의 분포를 일치시키는 방식으로 작동합니다.

한계·조건

범위 — 비평가는 frozen critic으로, 학습되지 않았습니다. 비평가의 품질에 따라 결과가 달라질 수 있습니다.
재현성 — 코드 공개 여부는 명시되지 않았으며, 실험은 특정 태스크(수학 추론 등)에 국한될 가능성이 있습니다.

편집자 한 줄

단계별 비평의 효과가 명확히 드러난 점이 흥미롭지만, 비평가 자체를 학습하는 경우와의 비교가 빠져 있어 추가 연구가 필요해 보입니다.

#self-distillation
#feedback
#reasoning
#gensyn

Gensyn

원문 보기 →

자기-증류에서 피드백 구조 정렬이 핵심 — 단계별 비평이 GRPO 대비 16점 향상

핵심 결론

방법

한계·조건

Comments