Papers·1개월 전

Tel Aviv University, CoT 충실도 메트릭 대부분이 무작위 수준 — 13개 태스크·10개 모델 체계적 평가

Tel Aviv University 팀이 Chain-of-Thought(CoT)의 충실도를 평가하는 기존 메트릭들이 대부분 무작위 수준에 가깝다는 연구 결과를 발표했습니다. 연구진은 내부 계산을 직접 관찰할 수 없는 문제를 해결하기 위해, 출력값이 어떤 중간 계산을 거쳤는지 알 수 있는 태스크를 설계하고 자동 레이블링 파이프라인을 구축해 13개 태스크·10개 모델에 걸친 3,066개 CoT 데이터셋 BonaFide를 만들었습니다. 평가 결과, 가장 좋은 메트릭도 CoT 수준에서 AUROC 0.70, 스텝 수준에서 0.59에 그쳤고, 긴 CoT에서는 성능이 더 떨어지며 설정 간 전이도 되지 않았습니다. 계산 비용이 매우 높다는 한계도 지적됐습니다.

#chain-of-thought
#faithfulness
#evaluation
#tel-aviv-university

Tel Aviv University

원문 보기 →

Tel Aviv University, CoT 충실도 메트릭 대부분이 무작위 수준 — 13개 태스크·10개 모델 체계적 평가

Comments