Papers·1주 전
물리 추론 평가 파이프라인 3가지 오염 — 데이터 누수·번역 드리프트·객관식 포화, Physics-R1로 8B→26.3%

Shan Yang 팀이 물리 추론 평가 파이프라인에서 세 가지 미탐지 오염(학습-평가 데이터 누수, 번역 드리프트, 객관식 포화)을 체계적으로 감사했습니다. 3단계 감사로 SciInstruct에서 134건의 근접 중복과 4,846건의 패러프레이즈 후보를 발견했고, 에스토니아어-영어 이중 언어 문제에서 Sonnet 4.5가 17%p 차이를 보였으며, 동일 가중치로 객관식(79.7%)과 주관식(33.4%) 평가 간 46%p 격차를 확인했습니다. 이를 해결하기 위해 감사된 코퍼스 PhysCorp-A, 폐쇄형 RL 풀 PhysR1Corp, 신규 출처의 평가셋 PhysOlym-A, 그리고 Qwen3-VL-8B-Thinking에서 시작한 GSPO+DAPO 레시피 Physics-R1을 공개했습니다. Physics-R1은 8B 대비 PhysOlym-A에서 +18.3%p(8.0→26.3%), PhysReason에서 +15.7%p(23.9→39.6%) 향상되었으나, Sonnet 4.5에는 7.1%p 뒤집니다. 한계로는 3 시드 실험과 8B 기반이라는 점이 있습니다.
- #physics
- #evaluation
- #contamination
- #rl
- #qwen
Shan Yang