Papers·3일 전
FiRe-OPD: 토큰·궤적 이중 수준으로 정제하는 온-폴리시 증류

Tsinghua 팀이 온-폴리시 증류(OPD)에서 궤적 필터링과 토큰 소프트 리웨이팅을 결합한 FiRe-OPD를 제안했습니다. 저품질 롤아웃을 제거한 후 남은 궤적 내에서 정보량이 많은 토큰에 가중치를 부여하는 방식으로, 강→약 증류에서 AIME 2024 +6.25, 다중 교사 설정에서 Miner +18.81의 성능 향상을 보였습니다. 단, 실험은 주로 수학·추론 벤치마크에 집중되어 있어 일반화 가능성은 추가 검증이 필요합니다.
Tsinghua 팀이 OPD 최적화 단위를 궤적과 토큰 두 수준으로 세분화한 FiRe-OPD를 공개했습니다.
핵심 결론
- 성능 — 강→약 증류에서 AIME 2024 +6.25, 다중 교사 설정에서 Miner +18.81로 기존 토큰 수준 OPD 대비 우위.
- 설정 — 강→약, 단일 교사, 다중 교사 세 가지 시나리오 모두에서 일관된 개선을 확인했습니다.
방법
- 필터링 — 먼저 롤아웃 궤적 전체를 평가해 저품질 샘플을 제거합니다.
- 소프트 리웨이팅 — 남은 궤적 내에서 각 토큰의 정보량에 따라 연속적인 가중치를 부여합니다. 하드 선택 대비 정보 손실을 줄이고 최적화 안정성을 높인 점이 특징입니다.
한계·조건
- 벤치 — 주로 수학·추론(AIME, Miner, GSM8K) 위주로 평가되어 일반 NLP 태스크에서의 효과는 추가 실험이 필요합니다.
- 코드 — GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
궤적 필터링과 토큰 리웨이팅을 단순히 결합한 게 아니라, 소프트 가중치로 정보 손실을 완화한 설계가 인상적입니다. 다만 실험 범위가 좁아 확장성은 좀 더 지켜봐야겠네요.
- #on-policy-distillation
- #token-reweighting
- #llm
- #tsinghua
Tsinghua University