← Back to feed
Papers·3일 전

CurveBench: 계층적 위상 추론 벤치마크 — Gemini 3.1 Pro도 Hard에서 19.1%

CurveBench: 계층적 위상 추론 벤치마크 — Gemini 3.1 Pro도 Hard에서 19.1%

곡선 간 포함 관계를 트리로 예측하는 위상 추론 벤치마크 CurveBench를 소개합니다. 756장의 이미지로 구성되며, 가장 강력한 Gemini 3.1 Pro도 Easy에서 71.1%, Hard에서 19.1%의 트리 생성 정확도를 보였습니다. Qwen3-VL-8B에 RLVR 파인튜닝을 적용해 Easy 정확도를 2.8%에서 33.3%로 끌어올려 GPT-5.4와 Claude Opus 4.5를 넘겼지만, Hard에서는 여전히 큰 격차가 남아 있습니다.

  • #visual-reasoning
  • #benchmark
  • #topology
  • #qwen
  • #gemini
Amirreza Mohseni

Comments

— 첫 댓글을 남겨보세요 —