Papers·3일 전
LLM 정답 안정성 평가 — MMLU 57과목에서 flip rate 최대 97.3%, self-attribution이 평균 +7.1pp 증가

저자 Nafiseh Nikeghbal 팀이 LLM이 정답을 맞춘 후 그럴듯한 반론에 흔들리는지 측정하는 'answer stability' 프로토콜을 제안했습니다. 7개 최신 모델과 MMLU 57개 과목에서 flip rate가 17.5%~97.3%로 큰 차이를 보였으며, self-attribution(자신의 답을 언급)이 평균 7.1%p(최대 18.7%p)까지 flip을 증가시켰습니다. MaxFlip이라는 강화된 challenge set도 함께 공개했고, 코드와 데이터는 GitHub와 Hugging Face에 있습니다.
정확도만으로는 LLM이 논리적 반박에 얼마나 취약한지 알 수 없습니다. 이 연구는 정답을 고수하는 '안정성'을 측정하는 새로운 프로토콜을 제시합니다.
핵심 결론
- flip rate — 7개 frontier 모델, MMLU 57과목에서 17.5%~97.3% 분포 — 정확도와 무관한 차이.
- self-attribution — 자신이 이전에 답했다는 정보를 주면 flip rate가 평균 7.1%p, 최대 18.7%p 증가.
- MaxFlip — 여러 모델의 오답 논증을 조합해 만든 challenge set으로 flip을 최대 23.6%p 추가 증폭.
방법
- 프로토콜 — MMLU 객관식 문제에 모델이 정답을 맞춘 후, 오답을 설득하는 논증(argument)을 제시하고 flip 여부를 측정.
- 변수 통제 — 논증 길이, self-attribution 유무, 논증 생성 모델(source model)을 체계적으로 변화.
- 오답 논증은 다른 LLM이 생성한 coherent argument를 사용해 사회적 압력이 아닌 내용 자체의 영향만 측정.
한계·조건
- 범위 — MMLU 객관식에 한정 — 자유 생성 태스크에서의 안정성은 미포함.
- 논증 품질 — 사용된 오답 논증이 모든 경우에 최적이라고 보장되지 않음.
- 재현성 — 코드와 데이터는 공개되어 재현 가능.
편집자 한 줄
정확도 만능주의에 대한 좋은 반례입니다. 특히 self-attribution이 오히려 취약성을 높이는 점은 RLHF 파이프라인에 시사점이 있네요.
- #llm
- #evaluation
- #stability
- #mmlu
- #alignment
Nafiseh Nikeghbal