Papers·1주 전
JHU, 약한 교사 신뢰도 필터링으로 강한 학생 학습 — 지식·추론·게임에서 ground-truth 수준

JHU 연구팀이 약한 교사의 레이블 중 신뢰할 수 있는 것만 골라 강한 학생을 학습시키는 trust function 기반 데이터 선택 방법을 제안했습니다. 세계 지식, 정량 추론, 전략 게임 등 여러 도메인에서 ground-truth 감독과 동등하거나 더 나은 성능을 달성했으며, 반복적인 weak-to-strong chain을 통해 이득을 증폭할 수 있습니다. 단, trust function의 설계가 도메인에 따라 달라질 필요가 있어 일반화에는 추가 연구가 필요합니다.
약한 교사의 신뢰도 점수로 데이터를 걸러내는 trust function이 강한 학생의 성능을 ground-truth 수준으로 끌어올립니다.
핵심 결론
- 성능 — Trust filtering으로 학습한 학생이 ground-truth 감독과 동등하거나 일부 도메인에서 더 나은 결과를 냈습니다.
- 도메인 — 세계 지식, 정량 추론, 전략 게임 등 다양한 태스크에서 검증되었습니다.
방법
- Trust function — 각 약한 레이블에 scalar 신뢰도 점수를 할당하고, 임계값 이하의 레이블은 학습에서 제외합니다.
- 반복 체인 — 학습된 학생을 다음 교사로 재사용하는 weak-to-strong chain으로 성능을 증폭할 수 있습니다.
한계·조건
- 설계 의존성 — Trust function의 설계가 도메인 특성에 따라 달라져야 하므로 일반화에 추가 연구가 필요합니다.
- 코드 — 논문에는 코드 공개 여부가 명시되지 않았습니다.
편집자 한 줄
약한 교사가 아주 나쁜 경우에도 trust filtering이 효과적일지는 추가 실험이 필요해 보입니다.
- #weak-to-strong
- #data-selection
- #jhu
- #generalization
Center for Language and Speech Processing @ JHU