Papers·4일 전
UBC, LLM 의도 이해 벤치마크 IntentGrasp 공개 — GPT-5.4도 60% 미만, IFT로 30+F1 개선

University of British Columbia 팀이 LLM의 의도 이해 능력을 평가하는 벤치마크 IntentGrasp를 공개했습니다. 49개 오픈 코퍼스에서 262,759개 훈련 샘플과 12,909개 테스트 케이스를 구축했으며, GPT-5.4, Gemini-3.1-Pro, Claude-Opus-4.7 등 최신 모델들도 All Set에서 60% 미만, Gem Set에서 25% 미만의 점수를 기록했습니다. 저자들은 Intentional Fine-Tuning (IFT)을 제안해 훈련 세트로 파인튜닝했을 때 All Set에서 30+ F1, Gem Set에서 20+ F1의 향상을 보였고, leave-one-domain-out 실험에서도 강한 교차 도메인 일반화를 확인했습니다. 다만 Gem Set에서는 20개 모델 중 17개가 랜덤 기준(15.2%)보다 낮아 아직 인간 수준(81.1%)과 큰 차이가 있습니다.
- #intent-understanding
- #benchmark
- #llm
- #ubc
- #fine-tuning
University of British Columbia