Papers·2일 전

Multi-LCB: 12개 언어로 LLM 코드 생성 평가 — Python 과적합 현상 확인

LiveCodeBench의 Python 단일 언어 한계를 넘어 12개 프로그래밍 언어로 확장한 Multi-LCB 벤치마크가 공개되었습니다. 24개 LLM 평가 결과 Python 과적합 및 언어별 오염이 확인되었으며, Python 외 언어에서 성능이 크게 저하되는 격차가 드러났습니다. 원본 LCB와 호환되어 향후 업데이트를 자동 반영한다는 점이 실용적입니다.

LiveCodeBench의 Python 한계를 넘어 12개 언어로 LLM 코드 생성 능력을 평가하는 Multi-LCB가 등장했습니다.

핵심 결론

평가 범위 — Python, C++, Java, JavaScript, Go, Rust 등 12개 언어로 확장.
주요 발견 — 24개 LLM 평가 결과 Python 과적합과 언어별 데이터 오염이 확인됐습니다.
성능 격차 — Python 외 언어에서 성능이 크게 떨어지는 모델이 다수였습니다.

방법

데이터 변환 — LCB의 Python 문제를 12개 언어로 변환하되, 오염 제어와 평가 프로토콜은 유지.
호환성 — 원본 LCB 포맷과 완전 호환되어 향후 LCB 업데이트를 자동 반영합니다.

한계·조건

벤치 범위 — 경쟁 프로그래밍 문제 기반으로, 실제 소프트웨어 엔지니어링 태스크와는 차이가 있을 수 있습니다.
코드 — 데이터셋과 평가 코드는 Hugging Face에 공개되어 재현 가능합니다.

편집자 한 줄

Python 외 언어에서의 성능 격차가 예상보다 컸다는 점이 인상적입니다. 앞으로 코드 LLM 평가의 표준이 될 가능성이 있습니다.

#code-generation
#benchmark
#multilingual
#livecodebench

Maria Ivanova

원문 보기 →

Multi-LCB: 12개 언어로 LLM 코드 생성 평가 — Python 과적합 현상 확인

핵심 결론

방법

한계·조건

Comments