Papers·1개월 전

LLM 정답 안정성 평가 — MMLU 57과목에서 flip rate 최대 97.3%, self-attribution이 평균 +7.1pp 증가

저자 Nafiseh Nikeghbal 팀이 LLM이 정답을 맞춘 후 그럴듯한 반론에 흔들리는지 측정하는 'answer stability' 프로토콜을 제안했습니다. 7개 최신 모델과 MMLU 57개 과목에서 flip rate가 17.5%~97.3%로 큰 차이를 보였으며, self-attribution(자신의 답을 언급)이 평균 7.1%p(최대 18.7%p)까지 flip을 증가시켰습니다. MaxFlip이라는 강화된 challenge set도 함께 공개했고, 코드와 데이터는 GitHub와 Hugging Face에 있습니다.

정확도만으로는 LLM이 논리적 반박에 얼마나 취약한지 알 수 없습니다. 이 연구는 정답을 고수하는 '안정성'을 측정하는 새로운 프로토콜을 제시합니다.

핵심 결론

flip rate — 7개 frontier 모델, MMLU 57과목에서 17.5%~97.3% 분포 — 정확도와 무관한 차이.
self-attribution — 자신이 이전에 답했다는 정보를 주면 flip rate가 평균 7.1%p, 최대 18.7%p 증가.
MaxFlip — 여러 모델의 오답 논증을 조합해 만든 challenge set으로 flip을 최대 23.6%p 추가 증폭.

방법

프로토콜 — MMLU 객관식 문제에 모델이 정답을 맞춘 후, 오답을 설득하는 논증(argument)을 제시하고 flip 여부를 측정.
변수 통제 — 논증 길이, self-attribution 유무, 논증 생성 모델(source model)을 체계적으로 변화.
오답 논증은 다른 LLM이 생성한 coherent argument를 사용해 사회적 압력이 아닌 내용 자체의 영향만 측정.

한계·조건

범위 — MMLU 객관식에 한정 — 자유 생성 태스크에서의 안정성은 미포함.
논증 품질 — 사용된 오답 논증이 모든 경우에 최적이라고 보장되지 않음.
재현성 — 코드와 데이터는 공개되어 재현 가능.

편집자 한 줄

정확도 만능주의에 대한 좋은 반례입니다. 특히 self-attribution이 오히려 취약성을 높이는 점은 RLHF 파이프라인에 시사점이 있네요.

#llm
#evaluation
#stability
#mmlu
#alignment

Nafiseh Nikeghbal

원문 보기 →

LLM 정답 안정성 평가 — MMLU 57과목에서 flip rate 최대 97.3%, self-attribution이 평균 +7.1pp 증가

핵심 결론

방법

한계·조건

Comments