← Back to feed
Papers·1주 전

JHU, 약한 교사 신뢰도 필터링으로 강한 학생 학습 — 지식·추론·게임에서 ground-truth 수준

JHU, 약한 교사 신뢰도 필터링으로 강한 학생 학습 — 지식·추론·게임에서 ground-truth 수준

JHU 연구팀이 약한 교사의 레이블 중 신뢰할 수 있는 것만 골라 강한 학생을 학습시키는 trust function 기반 데이터 선택 방법을 제안했습니다. 세계 지식, 정량 추론, 전략 게임 등 여러 도메인에서 ground-truth 감독과 동등하거나 더 나은 성능을 달성했으며, 반복적인 weak-to-strong chain을 통해 이득을 증폭할 수 있습니다. 단, trust function의 설계가 도메인에 따라 달라질 필요가 있어 일반화에는 추가 연구가 필요합니다.

약한 교사의 신뢰도 점수로 데이터를 걸러내는 trust function이 강한 학생의 성능을 ground-truth 수준으로 끌어올립니다.

핵심 결론

  • 성능Trust filtering으로 학습한 학생이 ground-truth 감독과 동등하거나 일부 도메인에서 더 나은 결과를 냈습니다.
  • 도메인세계 지식, 정량 추론, 전략 게임 등 다양한 태스크에서 검증되었습니다.

방법

  • Trust function각 약한 레이블에 scalar 신뢰도 점수를 할당하고, 임계값 이하의 레이블은 학습에서 제외합니다.
  • 반복 체인학습된 학생을 다음 교사로 재사용하는 weak-to-strong chain으로 성능을 증폭할 수 있습니다.

한계·조건

  • 설계 의존성Trust function의 설계가 도메인 특성에 따라 달라져야 하므로 일반화에 추가 연구가 필요합니다.
  • 코드논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

약한 교사가 아주 나쁜 경우에도 trust filtering이 효과적일지는 추가 실험이 필요해 보입니다.

  • #weak-to-strong
  • #data-selection
  • #jhu
  • #generalization
Center for Language and Speech Processing @ JHU
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —