Papers·2일 전
ShapeCodeBench — 이미지에서 드로잉 프로그램으로 재구성하는 합성 벤치마크, Claude/GPT-5.5도 exact match 낮아
ShapeCodeBench는 렌더링된 래스터 이미지를 입력받아 실행 가능한 드로잉 프로그램을 생성하는 합성 벤치마크입니다. v1 DSL은 512×512 캔버스에서 4가지 프리미티브를 사용하며, 시드 RNG로 생성되어 데이터 오염을 줄입니다. Claude Opus 4.7과 GPT-5.5를 평가한 결과, 고급 모델도 전경 구조는 어느 정도 보존하지만 작은 파라미터 오류로 exact match는 여전히 낮아 과제가 포화되지 않았음을 보여줍니다. 벤치마크 코드, 데이터셋, 실행 기록이 공개되어 재현 및 확장이 가능합니다.
- #perception-to-program
- #synthetic-benchmark
- #claude
- #gpt-5.5
- #shapecodebench
Shivam Kumar