Papers·6일 전
NUS, LLM 자기 평가 능력 끌어내는 SEE — 160개 예제로 보정·예측 동시 개선

NUS 연구팀이 LLM이 외부 평가자의 점수를 스스로 예측하는 능력이 이미 사전학습 단계에 존재하며, SEE(Self-Evaluation Elicitation)라는 짧은 파이프라인으로 이를 끌어낼 수 있음을 보였습니다. SEE는 보정 결합 강화학습 단계로 답변과 예측을 함께 개선한 뒤, 마스크 증류 단계로 예측만 정교화합니다. 160개 예제(RL 기준 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지했으며, 예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념임을 확인했습니다.
NUS 연구팀이 LLM의 자기 평가 능력을 최소한의 데이터로 끌어내는 SEE 방법을 제안했습니다.
핵심 결론
- 태스크 — LLM이 외부 평가자의 다속성 품질 점수를 예측하는 자기 평가 능력을 사전학습 단계에서 이미 보유.
- 데이터 효율 — SEE는 160개 예제(RL 대비 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지.
- 전이성 — 예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념으로, 학습하지 않은 평가자에 대해서도 안정적.
방법
- SEE 파이프라인 — 보정 결합 강화학습 단계로 답변과 예측을 동시에 개선한 후, 마스크 증류 단계로 예측만 정교화.
- 기존 대비 — few-shot 프롬프트만으로도 우연 수준 이상의 예측이 가능했지만, SEE가 보정을 크게 향상.
- 특징 — 자기 평가가 모델 자체 토큰 분포에 국소적으로 위치하며, 단일 평가자 선호가 아닌 일반적 품질 개념을 반영.
한계·조건
- 벤치마크 — 세 가지 오픈엔드 응답 벤치마크에서 평가되었으며, 폐쇄형 태스크로의 일반화는 추가 검증 필요.
- 코드 공개 — 현재 논문 및 부록만 공개, 코드 및 데이터는 추후 공개 예정.
- 리소스 — 160개 예제로 학습 가능하지만, 강화학습 단계에서 추가 연산이 필요.
편집자 한 줄
자기 평가를 '획득'이 아닌 '발현' 문제로 재정의한 점이 흥미롭습니다. 데이터 효율이 뛰어나 실용적 가능성이 있어 보입니다.
- #self-evaluation
- #elicitation
- #llm
- #nus
National University of Singapore