Papers·1개월 전

CoSPlay — GT 없이 코드와 UT를 공동 개선하는 협력적 셀프플레이, Qwen2.5-7B에서 BoN 22.1%→33.2%

CoSPlay는 Ground-Truth Unit Test 없이 코드 생성과 단위 테스트(UT) 품질을 함께 개선하는 훈련 없는 프레임워크입니다. 코드-UT 실행 행렬의 양방향 pass-count 신호를 활용해 약한 코드와 신뢰할 수 없는 UT를 반복적으로 가지치기·개선하며, 최종적으로 다수 코드가 동점일 경우 출력 일관성 클러스터에서 정답을 선택합니다. Qwen2.5-7B-Instruct에서 Best-of-N(BoN)을 22.1%에서 33.2%로, UT 정확도를 14.6%에서 78.3%로 향상시켰으며, RLVR 모델 CURE-7B와 동등하거나 능가하는 성능을 보였습니다. 단, 실험은 주로 Codeforces, HumanEval+, MBPP+, BigCodeBench 등 네 가지 벤치마크에 국한되었고, 다양한 백본에서 일반화되지만 token budget이 클수록 이득이 커지는 경향이 있어 리소스 민감성이 있습니다.

CoSPlay는 Ground-Truth Unit Test 없이 코드와 단위 테스트를 협력적으로 개선하여 LLM 코드 생성 성능을 높인 훈련 없는 프레임워크입니다.

핵심 결론

성능 — Qwen2.5-7B-Instruct에서 BoN 22.1%→33.2%, UT 정확도 14.6%→78.3%로 대폭 향상.
비교 — RLVR 모델 CURE-7B와 동등하거나 능가하며, CURE-7B에 적용 시 BoN 추가 5.7% 향상.
일반화 — 다양한 백본에서 GT-free TTS baseline을 능가하고 token budget 증가에 따라 지속적 성능 향상.

방법

협력적 셀프플레이 — 코드와 UT를 각각 개선하는 대신, 실행 행렬의 양방향 pass-count 신호로 두 풀을 공진화.
UT 아이디어 생성 — 다양한 솔루션 아이디어를 탐색하고 잠재적 실패 모드를 식별해 변별력 있는 UT 아이디어를 생성.
최종 선택 — 여러 코드가 동점일 때 출력 일관성 클러스터(가장 큰 군집)에서 정답을 선택 — 정답 코드는 동일 입력에 수렴, 오답은 분산된다는 직관.

한계·조건

벤치마크 — Codeforces, HumanEval+, MBPP+, BigCodeBench 등 네 가지에 국한 — 실제 복잡한 환경에서의 일반화는 추가 검증 필요.
리소스 — Token budget이 클수록 이득이 커지므로 제한된 예산에서는 baseline 대비 이점이 줄어들 수 있음.
코드 — 논문에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

GT 없이도 RLVR 수준의 성능을 낸 점이 인상적이지만, UT 품질이 초기 코드에 크게 의존하는 점은 여전히 숙제로 남습니다.

#code-generation
#test-time-scaling
#rlvr
#self-play
#unit-test

Zhangyi Hu

원문 보기 →

CoSPlay — GT 없이 코드와 UT를 공동 개선하는 협력적 셀프플레이, Qwen2.5-7B에서 BoN 22.1%→33.2%

핵심 결론

방법

한계·조건

Comments