← Back to feed
Papers·1주 전

USC, 객체 정체 없이 물리 속성만으로 행동 가능성 추론하는 Affordance20Q 벤치마크 공개 — LLM vs 인간 격차 20점

USC, 객체 정체 없이 물리 속성만으로 행동 가능성 추론하는 Affordance20Q 벤치마크 공개 — LLM vs 인간 격차 20점

USC 팀이 객체의 정체를 숨긴 채 물리적 속성(모양·재질)만으로 행동 가능성(affordance)을 추론하는 20-Questions 게임 형식의 벤치마크 Affordance20Q를 제안했습니다. 15개 LLM 평가 결과 인간 대비 약 20점 낮은 성능을 보였고, KL 기반 정보 획득 분석에서 모델이 게임 후반에 변별력 있는 질문을 하지 못하는 한계를 발견했습니다. 이 격차를 줄이기 위해 지식 베이스 기반 규칙 유도 파이프라인 KARI를 개발해 오픈소스 LLM 성능을 최대 15.2점 개선했지만, KB의 제한된 커버리지가 추가 향상을 막고 있습니다.

USC 팀이 객체 정체를 감춘 채 물리 속성만으로 affordance를 추론하는 20-Questions 벤치마크 Affordance20Q를 제안했습니다.

핵심 결론

  • 벤치마크454개 객체, 59개 affordance, 1,009개 게임으로 구성 — 모두 수동 필터링 및 주석.
  • LLM vs 인간15개 최신 LLM 평가 결과 인간 대비 약 20점 낮은 성능.
  • KARI 효과지식 베이스 기반 규칙 유도 파이프라인으로 오픈소스 LLM 최대 15.2점 향상.

방법

  • 게임 형식모델은 객체 정체를 모른 채 물리 속성(모양, 재질, 크기 등)에 대한 예/아니오 질문을 던져 숨겨진 객체의 affordance를 맞춥니다.
  • KARI지식 베이스(ConceptNet, WordNet)에서 증거를 수집해 affordance 규칙을 귀납하는 파이프라인 — LLM이 규칙을 생성하고 검증합니다.
  • 분석 도구KL 기반 정보 획득(IG) 분석으로 모델이 게임 후반에 변별력 낮은 질문을 하는 패턴을 포착.

한계·조건

  • KB 커버리지KARI의 성능은 지식 베이스의 범위에 제한 — 일부 affordance는 KB에 증거가 부족해 개선 폭이 작았습니다.
  • 재현성코드와 데이터는 GitHub에 공개 (https://github.com/1171-jpg/Affordance20Q.git).

편집자 한 줄

객체 정체를 숨긴 설정은 LLM의 진짜 물리 추론 능력을 측정한다는 점에서 의미 있는 벤치마크네요.

  • #affordance
  • #benchmark
  • #llm
  • #reasoning
  • #usc
University of Southern California
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —