Papers·1개월 전

LoopCoder-v2: 병렬 루프 트랜스포머에서 2회 루프가 최적 — SWE-bench 43.0→64.4

Jian Yang 연구팀이 병렬 루프 트랜스포머(PLT)의 루프 횟수 선택을 이득-비용 관점에서 분석한 LoopCoder-v2를 공개했습니다. 7B 모델을 18T 토큰으로 처음부터 학습한 결과, 2회 루프가 코드 생성·추론·에이전트 SWE·도구 사용 전반에서 비루프 대비 큰 향상을 보였고(SWE-bench Verified 43.0→64.4, Multi-SWE 14.0→31.0), 3회 이상에서는 오히려 성능이 하락했습니다. 이는 루프 2에서 정제 효과가 포화되고, 이후 루프에서는 CLP 위치 오프셋 비용이 정제 이득을 압도하기 때문으로 분석됩니다.

병렬 루프 트랜스포머(PLT)의 루프 횟수 선택을 이득-비용 관점에서 분석한 7B 코드 모델 LoopCoder-v2가 공개되었습니다.

핵심 결론

성능 — 2회 루프가 비루프 대비 SWE-bench Verified 43.0→64.4, Multi-SWE 14.0→31.0으로 큰 폭 향상.
비단조성 — 3회 이상에서는 오히려 성능이 하락하며, 루프 횟수에 따른 효과가 강하게 비단조적임을 확인했습니다.

방법

PLT 구조 — Cross-Loop Position offsets(CLP)과 shared-KV gated sliding-window attention을 도입해 루프를 병렬화, 루프 횟수를 실용적 설계 변수로 만듦.
학습 — 7B PLT 모델을 루프 횟수별(0,1,2,3)로 18T 토큰에서 처음부터 학습 후 동일한 instruction tuning 적용.
분석 — 루프 2에서 정제 이득이 포화되고, CLP 위치 오프셋 비용이 고정된 채 정제 이득이 줄어들면서 3회 이상에서 이득-비용 균형이 깨짐.

한계·조건

모델 규모 — 7B 단일 규모에서만 실험; 더 큰 모델에서도 같은 비단조 패턴이 나타날지는 추가 검증 필요.
도메인 — 코드 도메인에 특화; 일반 텍스트나 수학 등 다른 영역에서의 일반화는 미확인.
공개 — 모델 가중치는 Hugging Face에 공개되었으나 학습 코드 및 데이터셋은 미공개.

편집자 한 줄

루프 횟수에 따른 성능 비단조성은 흥미로운 발견이며, 향후 PLT 설계에서 루프 횟수 선택에 중요한 기준을 제공합니다.

#transformer
#code-generation
#swe-bench
#looped-transformer

Jian Yang

원문 보기 →

LoopCoder-v2: 병렬 루프 트랜스포머에서 2회 루프가 최적 — SWE-bench 43.0→64.4

핵심 결론

방법

한계·조건

Comments