← Back to feed
Papers·2일 전

ShapeCodeBench — 이미지에서 드로잉 프로그램으로 재구성하는 합성 벤치마크, Claude/GPT-5.5도 exact match 낮아

ShapeCodeBench — 이미지에서 드로잉 프로그램으로 재구성하는 합성 벤치마크, Claude/GPT-5.5도 exact match 낮아

ShapeCodeBench는 렌더링된 래스터 이미지를 입력받아 실행 가능한 드로잉 프로그램을 생성하는 합성 벤치마크입니다. v1 DSL은 512×512 캔버스에서 4가지 프리미티브를 사용하며, 시드 RNG로 생성되어 데이터 오염을 줄입니다. Claude Opus 4.7과 GPT-5.5를 평가한 결과, 고급 모델도 전경 구조는 어느 정도 보존하지만 작은 파라미터 오류로 exact match는 여전히 낮아 과제가 포화되지 않았음을 보여줍니다. 벤치마크 코드, 데이터셋, 실행 기록이 공개되어 재현 및 확장이 가능합니다.

  • #perception-to-program
  • #synthetic-benchmark
  • #claude
  • #gpt-5.5
  • #shapecodebench
Shivam Kumar

Comments

— 첫 댓글을 남겨보세요 —