Papers·2일 전
Multi-LCB: 12개 언어로 LLM 코드 생성 평가 — Python 과적합 현상 확인

LiveCodeBench의 Python 단일 언어 한계를 넘어 12개 프로그래밍 언어로 확장한 Multi-LCB 벤치마크가 공개되었습니다. 24개 LLM 평가 결과 Python 과적합 및 언어별 오염이 확인되었으며, Python 외 언어에서 성능이 크게 저하되는 격차가 드러났습니다. 원본 LCB와 호환되어 향후 업데이트를 자동 반영한다는 점이 실용적입니다.
LiveCodeBench의 Python 한계를 넘어 12개 언어로 LLM 코드 생성 능력을 평가하는 Multi-LCB가 등장했습니다.
핵심 결론
- 평가 범위 — Python, C++, Java, JavaScript, Go, Rust 등 12개 언어로 확장.
- 주요 발견 — 24개 LLM 평가 결과 Python 과적합과 언어별 데이터 오염이 확인됐습니다.
- 성능 격차 — Python 외 언어에서 성능이 크게 떨어지는 모델이 다수였습니다.
방법
- 데이터 변환 — LCB의 Python 문제를 12개 언어로 변환하되, 오염 제어와 평가 프로토콜은 유지.
- 호환성 — 원본 LCB 포맷과 완전 호환되어 향후 LCB 업데이트를 자동 반영합니다.
한계·조건
- 벤치 범위 — 경쟁 프로그래밍 문제 기반으로, 실제 소프트웨어 엔지니어링 태스크와는 차이가 있을 수 있습니다.
- 코드 — 데이터셋과 평가 코드는 Hugging Face에 공개되어 재현 가능합니다.
편집자 한 줄
Python 외 언어에서의 성능 격차가 예상보다 컸다는 점이 인상적입니다. 앞으로 코드 LLM 평가의 표준이 될 가능성이 있습니다.
- #code-generation
- #benchmark
- #multilingual
- #livecodebench
Maria Ivanova