Papers·3일 전
LLM 창의적 도구 사용 평가 — CreativityBench, 4K 개체·150K+ 어포던스 KB 기반 14K 태스크에서 모델 한계 확인

UIUC 연구팀이 LLM의 창의적 도구 사용 능력을 평가하는 CreativityBench를 공개했습니다. 4K 개체와 150K+ 어포던스 주석을 포함한 지식 베이스에서 14K 개의 제약 기반 비직관적 문제를 생성했는데, 10개 최신 LLM 평가 결과 객체 선택은 가능하나 올바른 부위·어포던스·물리 메커니즘 식별에서 큰 성능 저하를 보였습니다. 모델 스케일링 효과는 빠르게 포화되고, 일반 추론 능력이 창의적 어포던스 발견으로 이어지지 않으며, Chain-of-Thought 전략도 제한적인 개선에 그쳐 창의적 도구 사용이 현 모델의 주요 과제임을 보여줍니다.
- #llm
- #creativity
- #tool-use
- #benchmark
- #uiuc
University of Illinois at Urbana-Champaign