← Back to feed
Papers·2일 전

Multi-LCB: 12개 언어로 LLM 코드 생성 평가 — Python 과적합 현상 확인

Multi-LCB: 12개 언어로 LLM 코드 생성 평가 — Python 과적합 현상 확인

LiveCodeBench의 Python 단일 언어 한계를 넘어 12개 프로그래밍 언어로 확장한 Multi-LCB 벤치마크가 공개되었습니다. 24개 LLM 평가 결과 Python 과적합 및 언어별 오염이 확인되었으며, Python 외 언어에서 성능이 크게 저하되는 격차가 드러났습니다. 원본 LCB와 호환되어 향후 업데이트를 자동 반영한다는 점이 실용적입니다.

LiveCodeBench의 Python 한계를 넘어 12개 언어로 LLM 코드 생성 능력을 평가하는 Multi-LCB가 등장했습니다.

핵심 결론

  • 평가 범위Python, C++, Java, JavaScript, Go, Rust 등 12개 언어로 확장.
  • 주요 발견24개 LLM 평가 결과 Python 과적합과 언어별 데이터 오염이 확인됐습니다.
  • 성능 격차Python 외 언어에서 성능이 크게 떨어지는 모델이 다수였습니다.

방법

  • 데이터 변환LCB의 Python 문제를 12개 언어로 변환하되, 오염 제어와 평가 프로토콜은 유지.
  • 호환성원본 LCB 포맷과 완전 호환되어 향후 LCB 업데이트를 자동 반영합니다.

한계·조건

  • 벤치 범위경쟁 프로그래밍 문제 기반으로, 실제 소프트웨어 엔지니어링 태스크와는 차이가 있을 수 있습니다.
  • 코드데이터셋과 평가 코드는 Hugging Face에 공개되어 재현 가능합니다.

편집자 한 줄

Python 외 언어에서의 성능 격차가 예상보다 컸다는 점이 인상적입니다. 앞으로 코드 LLM 평가의 표준이 될 가능성이 있습니다.

  • #code-generation
  • #benchmark
  • #multilingual
  • #livecodebench
Maria Ivanova
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —