Papers·3일 전
CurveBench: 계층적 위상 추론 벤치마크 — Gemini 3.1 Pro도 Hard에서 19.1%

곡선 간 포함 관계를 트리로 예측하는 위상 추론 벤치마크 CurveBench를 소개합니다. 756장의 이미지로 구성되며, 가장 강력한 Gemini 3.1 Pro도 Easy에서 71.1%, Hard에서 19.1%의 트리 생성 정확도를 보였습니다. Qwen3-VL-8B에 RLVR 파인튜닝을 적용해 Easy 정확도를 2.8%에서 33.3%로 끌어올려 GPT-5.4와 Claude Opus 4.5를 넘겼지만, Hard에서는 여전히 큰 격차가 남아 있습니다.
- #visual-reasoning
- #benchmark
- #topology
- #qwen
- #gemini
Amirreza Mohseni