Papers·4일 전
UC Berkeley, 벤치마크 포화 문제 해결하는 BenchEvolver 공개 — LiveCodeBench에서 Pass@1 27.5~62.6%로 변별력 회복

UC Berkeley 팀이 기존 코딩 문제를 자동으로 더 어려운 변형으로 진화시키는 프레임워크 BenchEvolver를 공개했습니다. 참조 솔루션을 구조적 변환으로 진화시킨 뒤 그에 맞는 문제와 테스트를 생성하는 방식으로, LiveCodeBench와 SciCode에 적용해 난이도를 크게 높이면서도 정답성과 다양성을 유지했습니다. 특히 진화된 문제로 강화학습을 수행하면 gpt-oss-20b에서 LCB v6 Hard Pass@1이 +8.7p 향상되는 등, 포화된 벤치마크를 훈련 신호로 재활용할 수 있음을 보였습니다.
UC Berkeley 팀이 포화된 코딩 벤치마크를 자동으로 더 어려운 문제로 진화시키는 BenchEvolver를 제안했습니다.
핵심 결론
- 변별력 — LiveCodeBench-Plus (91문제)에서 최신 모델 Pass@1이 27.5~62.6%로 분포, 기존 90% 이상 포화 상태에서 벗어났습니다.
- 훈련 신호 — 진화된 문제로 RL 훈련 시 gpt-oss-20b의 LCB v6 Hard Pass@1이 +8.7p, LCB-Pro Easy에서 +8.3p 향상, seed-only 대비 각각 70.7%, 34.8% 더 큰 개선입니다.
방법
- 진화 방식 — 참조 솔루션을 구조적 변환(예: 루프를 재귀로, 조건 추가 등)으로 진화시킨 뒤, 진화된 솔루션으로부터 문제 설명과 테스트를 자동 생성합니다.
- 생성된 문제는 실행 가능한 의미론에 기반해 정답성과 다양성을 보장합니다.
한계·조건
- 도메인 — 현재는 코딩 문제에 국한되며, 다른 도메인(수학, 추론)으로의 확장은 추가 연구가 필요합니다.
- 비용 — 문제 진화 과정에서 LLM 호출이 필요하나, 인간 노동 대비 비용은 크게 낮은 편입니다.
- 코드 — GitHub에 공개 예정이며, 현재는 논문과 데모만 공개 상태입니다.
편집자 한 줄
벤치마크 포화 문제에 대한 실용적인 해결책이라는 점에서 주목할 만합니다. 특히 진화된 문제가 생성 모델 자신에게도 어려워 self-improvement 루프를 구성할 수 있다는 점이 흥미롭네요.
- #benchmark
- #code-generation
- #evolution
- #uc-berkeley
University of California, Berkeley