Papers·1개월 전

USC, 객체 정체 없이 물리 속성만으로 행동 가능성 추론하는 Affordance20Q 벤치마크 공개 — LLM vs 인간 격차 20점

USC 팀이 객체의 정체를 숨긴 채 물리적 속성(모양·재질)만으로 행동 가능성(affordance)을 추론하는 20-Questions 게임 형식의 벤치마크 Affordance20Q를 제안했습니다. 15개 LLM 평가 결과 인간 대비 약 20점 낮은 성능을 보였고, KL 기반 정보 획득 분석에서 모델이 게임 후반에 변별력 있는 질문을 하지 못하는 한계를 발견했습니다. 이 격차를 줄이기 위해 지식 베이스 기반 규칙 유도 파이프라인 KARI를 개발해 오픈소스 LLM 성능을 최대 15.2점 개선했지만, KB의 제한된 커버리지가 추가 향상을 막고 있습니다.

USC 팀이 객체 정체를 감춘 채 물리 속성만으로 affordance를 추론하는 20-Questions 벤치마크 Affordance20Q를 제안했습니다.

핵심 결론

벤치마크 — 454개 객체, 59개 affordance, 1,009개 게임으로 구성 — 모두 수동 필터링 및 주석.
LLM vs 인간 — 15개 최신 LLM 평가 결과 인간 대비 약 20점 낮은 성능.
KARI 효과 — 지식 베이스 기반 규칙 유도 파이프라인으로 오픈소스 LLM 최대 15.2점 향상.

방법

게임 형식 — 모델은 객체 정체를 모른 채 물리 속성(모양, 재질, 크기 등)에 대한 예/아니오 질문을 던져 숨겨진 객체의 affordance를 맞춥니다.
KARI — 지식 베이스(ConceptNet, WordNet)에서 증거를 수집해 affordance 규칙을 귀납하는 파이프라인 — LLM이 규칙을 생성하고 검증합니다.
분석 도구 — KL 기반 정보 획득(IG) 분석으로 모델이 게임 후반에 변별력 낮은 질문을 하는 패턴을 포착.

한계·조건

KB 커버리지 — KARI의 성능은 지식 베이스의 범위에 제한 — 일부 affordance는 KB에 증거가 부족해 개선 폭이 작았습니다.
재현성 — 코드와 데이터는 GitHub에 공개 (https://github.com/1171-jpg/Affordance20Q.git).

편집자 한 줄

객체 정체를 숨긴 설정은 LLM의 진짜 물리 추론 능력을 측정한다는 점에서 의미 있는 벤치마크네요.

#affordance
#benchmark
#llm
#reasoning
#usc

University of Southern California

원문 보기 →

USC, 객체 정체 없이 물리 속성만으로 행동 가능성 추론하는 Affordance20Q 벤치마크 공개 — LLM vs 인간 격차 20점

핵심 결론

방법

한계·조건

Comments