← Back to feed
Papers·6일 전

NUS, LLM 자기 평가 능력 끌어내는 SEE — 160개 예제로 보정·예측 동시 개선

NUS, LLM 자기 평가 능력 끌어내는 SEE — 160개 예제로 보정·예측 동시 개선

NUS 연구팀이 LLM이 외부 평가자의 점수를 스스로 예측하는 능력이 이미 사전학습 단계에 존재하며, SEE(Self-Evaluation Elicitation)라는 짧은 파이프라인으로 이를 끌어낼 수 있음을 보였습니다. SEE는 보정 결합 강화학습 단계로 답변과 예측을 함께 개선한 뒤, 마스크 증류 단계로 예측만 정교화합니다. 160개 예제(RL 기준 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지했으며, 예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념임을 확인했습니다.

NUS 연구팀이 LLM의 자기 평가 능력을 최소한의 데이터로 끌어내는 SEE 방법을 제안했습니다.

핵심 결론

  • 태스크LLM이 외부 평가자의 다속성 품질 점수를 예측하는 자기 평가 능력을 사전학습 단계에서 이미 보유.
  • 데이터 효율SEE는 160개 예제(RL 대비 31배 적음)로 세 벤치마크에서 보정을 개선하고 답변 품질을 유지.
  • 전이성예측이 특정 평가자 편향이 아닌 전이 가능한 품질 개념으로, 학습하지 않은 평가자에 대해서도 안정적.

방법

  • SEE 파이프라인보정 결합 강화학습 단계로 답변과 예측을 동시에 개선한 후, 마스크 증류 단계로 예측만 정교화.
  • 기존 대비few-shot 프롬프트만으로도 우연 수준 이상의 예측이 가능했지만, SEE가 보정을 크게 향상.
  • 특징자기 평가가 모델 자체 토큰 분포에 국소적으로 위치하며, 단일 평가자 선호가 아닌 일반적 품질 개념을 반영.

한계·조건

  • 벤치마크세 가지 오픈엔드 응답 벤치마크에서 평가되었으며, 폐쇄형 태스크로의 일반화는 추가 검증 필요.
  • 코드 공개현재 논문 및 부록만 공개, 코드 및 데이터는 추후 공개 예정.
  • 리소스160개 예제로 학습 가능하지만, 강화학습 단계에서 추가 연산이 필요.

편집자 한 줄

자기 평가를 '획득'이 아닌 '발현' 문제로 재정의한 점이 흥미롭습니다. 데이터 효율이 뛰어나 실용적 가능성이 있어 보입니다.

  • #self-evaluation
  • #elicitation
  • #llm
  • #nus
National University of Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —