Papers·1주 전
IBM, SLM 성능을 28%p 올린 코드 기반 추론 평가 프로토콜 CGR 공개

IBM 연구진이 다지선다 QA에서 소형 언어 모델(SLM)의 성능을 코드 기반 추론 스캐폴드로 측정하는 CGR(Code-Guided Reasoning) 프로토콜을 제안했습니다. 20,498개 결과에서 직접 추론 정확도 38.11% 대비 코드 보조 추론 정확도 66.21%로 28.10%p 향상되었습니다. 다만 보조 추론은 더 많은 solver-call을 사용하고, 답변 추출이 취약하며, 일부 생성 프로그램이 하드코딩 금지 지시를 위반하는 한계가 있습니다.
- #slm
- #reasoning
- #code
- #evaluation
- #ibm
IBM