Papers·1개월 전

NUS, LLM 자기 평가 능력 끌어내는 SEE — 160개 예제로 보정·예측 동시 개선

NUS 연구팀이 LLM이 외부 평가자의 점수를 스스로 예측하는 능력이 이미 사전학습 단계에 존재하며, SEE(Self-Evaluation Elicitation)라는 짧은 파이프라인으로 이를 끌어낼 수 있음을 보였습니다. SEE는 보정 결합 강화학습 단계로 답변과 예측을 함께 개선한 뒤, 마스크 증류 단계로 예측만 정교화합니다. 160개 예제(RL 기준 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지했으며, 예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념임을 확인했습니다.

NUS 연구팀이 LLM의 자기 평가 능력을 최소한의 데이터로 끌어내는 SEE 방법을 제안했습니다.

핵심 결론

태스크 — LLM이 외부 평가자의 다속성 품질 점수를 예측하는 자기 평가 능력을 사전학습 단계에서 이미 보유.
데이터 효율 — SEE는 160개 예제(RL 대비 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지.
전이성 — 예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념으로, 학습하지 않은 평가자에 대해서도 안정적.

방법

SEE 파이프라인 — 보정 결합 강화학습 단계로 답변과 예측을 동시에 개선한 후, 마스크 증류 단계로 예측만 정교화.
기존 대비 — few-shot 프롬프트만으로도 우연 수준 이상의 예측이 가능했지만, SEE가 보정을 크게 향상.
특징 — 자기 평가가 모델 자체 토큰 분포에 국소적으로 위치하며, 단일 평가자 선호가 아닌 일반적 품질 개념을 반영.

한계·조건

벤치마크 — 세 가지 오픈엔드 응답 벤치마크에서 평가되었으며, 폐쇄형 태스크로의 일반화는 추가 검증 필요.
코드 공개 — 현재 논문 및 부록만 공개, 코드 및 데이터는 추후 공개 예정.
리소스 — 160개 예제로 학습 가능하지만, 강화학습 단계에서 추가 연산이 필요.

편집자 한 줄

자기 평가를 '획득'이 아닌 '발현' 문제로 재정의한 점이 흥미롭습니다. 데이터 효율이 뛰어나 실용적 가능성이 있어 보입니다.

#self-evaluation
#elicitation
#llm
#nus

National University of Singapore

원문 보기 →

NUS, LLM 자기 평가 능력 끌어내는 SEE — 160개 예제로 보정·예측 동시 개선

핵심 결론

방법

한계·조건

Comments