Papers·1개월 전

JHU, 약한 교사 신뢰도 필터링으로 강한 학생 학습 — 지식·추론·게임에서 ground-truth 수준

JHU 연구팀이 약한 교사의 레이블 중 신뢰할 수 있는 것만 골라 강한 학생을 학습시키는 trust function 기반 데이터 선택 방법을 제안했습니다. 세계 지식, 정량 추론, 전략 게임 등 여러 도메인에서 ground-truth 감독과 동등하거나 더 나은 성능을 달성했으며, 반복적인 weak-to-strong chain을 통해 이득을 증폭할 수 있습니다. 단, trust function의 설계가 도메인에 따라 달라질 필요가 있어 일반화에는 추가 연구가 필요합니다.

약한 교사의 신뢰도 점수로 데이터를 걸러내는 trust function이 강한 학생의 성능을 ground-truth 수준으로 끌어올립니다.

핵심 결론

성능 — Trust filtering으로 학습한 학생이 ground-truth 감독과 동등하거나 일부 도메인에서 더 나은 결과를 냈습니다.
도메인 — 세계 지식, 정량 추론, 전략 게임 등 다양한 태스크에서 검증되었습니다.

방법

Trust function — 각 약한 레이블에 scalar 신뢰도 점수를 할당하고, 임계값 이하의 레이블은 학습에서 제외합니다.
반복 체인 — 학습된 학생을 다음 교사로 재사용하는 weak-to-strong chain으로 성능을 증폭할 수 있습니다.

한계·조건

설계 의존성 — Trust function의 설계가 도메인 특성에 따라 달라져야 하므로 일반화에 추가 연구가 필요합니다.
코드 — 논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

약한 교사가 아주 나쁜 경우에도 trust filtering이 효과적일지는 추가 실험이 필요해 보입니다.

#weak-to-strong
#data-selection
#jhu
#generalization

Center for Language and Speech Processing @ JHU

원문 보기 →

JHU, 약한 교사 신뢰도 필터링으로 강한 학생 학습 — 지식·추론·게임에서 ground-truth 수준

핵심 결론

방법

한계·조건

Comments