Papers·1개월 전

WBench: 대화형 월드 모델 평가 위한 5차원 멀티턴 벤치마크 — 20개 모델 중 전 영역 강자는 없어

LongCat 팀이 대화형 월드 모델을 체계적으로 평가하기 위한 멀티턴 벤치마크 WBench를 공개했습니다. 비디오 품질, 설정 준수, 상호작용 준수, 일관성, 물리 법칙 준수 등 5개 차원에 걸쳐 289개 테스트 케이스와 1,058회의 상호작용 턴을 포함하며, 내비게이션, 객체 행동, 이벤트 편집, 시점 전환 등 4가지 상호작용 유형을 다룹니다. 20개 최신 모델을 평가한 결과, 모든 차원에서 강력한 성능을 보이는 단일 모델은 없었으며, 각 모델의 특성별 강점과 약점을 진단적으로 제시합니다. 코드와 데이터는 GitHub에 공개되었으나, 평가에 대규모 멀티모달 모델을 사용하므로 재현에 상당한 컴퓨팅 자원이 필요합니다.

#world-model
#benchmark
#interaction
#longcat

LongCat

원문 보기 →

WBench: 대화형 월드 모델 평가 위한 5차원 멀티턴 벤치마크 — 20개 모델 중 전 영역 강자는 없어

Comments