Papers·3일 전
홍콩대, ShadowHand 포커 벤치마크 DexHoldem — π0.5 태스크 성공률 61.2%

홍콩대 연구팀이 ShadowHand 로 Texas Hold'em 조작을 수행하는 실제 시스템 수준 벤치마크 DexHoldem 을 공개했습니다. 14가지 프리미티브에 걸친 1,470개 원격조작 데모, 물리적 정책 벤치마크, 에이전트 지각 벤치마크를 제공하며, 프리미티브 실행에서 π0.5 가 최고 태스크 성공률(61.2%)을 기록했습니다. 에이전트 지각에서는 Opus 4.7 이 엄격 문제 정확도 34.3%, GPT 5.5 가 평균 필드 정확도 66.8%로, 개별 시각 능력과 완전한 상태 복원 사이에 간극이 있음을 보여줍니다. 세 가지 사례 연구에서 대기·회복·인간 도움 요청 등이 누적되는 폐쇄 루프 배포의 현실적 어려움을 드러냈습니다.
- #dexterous-manipulation
- #benchmark
- #shadow-hand
- #embodied-ai
- #hong-kong-university
The University of Hong Kong