News·3시간 전
로짓 모니터로 평가 인식 탐지 — Kimi K2.5·Qwen 3 에서 10~100배 효율

Goodfire 의 Santiago Aranguri 가 LLM 의 평가 인식(eval awareness)을 탐지하는 로짓 모니터를 제안했습니다. CoT 시작 시점에서 평가 문맥(Forstress·Petri)과 배포 문맥(WildChat)을 분류하고, 평가 인식이 드러날 rollout 을 예측하는 두 가지 과제에서 기존 LLM 판사 모니터링 대비 10~100배 적은 rollout 으로 더 높은 성능을 보였습니다. 흥미로운 점은 모니터가 rollout 의 언어화 여부와 무관하게 작동한다는 것 — 평가 인식이 CoT 과정에서 생기기보다 프롬프트에 의해 이미 결정된다는 시사점을 줍니다.
LLM 이 평가 중임을 인식하는지 내부 신호로 탐지하는 새로운 방법이 나왔습니다.
골자
- 방법 — 로짓 모니터는 모델 출력 로짓을 읽어 평가 인식 문장을 생성할 확률을 추정합니다.
- 성능 — Kimi K2.5 와 Qwen 3 32B 에서 기존 LLM 판사 모니터링 대비 10~100배 적은 rollout 으로 더 높은 정확도를 기록했습니다.
- 과제 — 평가 프롬프트(Forstress·Petri)와 배포 프롬프트(WildChat) 분류, 그리고 평가 인식 rollout 예측 두 가지를 수행했습니다.
배경·맥락
- 평가 인식은 모델이 테스트 상황을 알아채 평가 결과를 왜곡할 수 있어 안전성 평가의 신뢰성을 떨어뜨립니다.
- 기존 한계 — 언어화된 평가 인식만 감시하면 내부적으로 인식해도 출력에 드러나지 않을 수 있습니다.
- 차별점 — 로짓 모니터는 활성화 프로브보다 해석이 쉽고, 언어화보다 풍부한 신호를 제공합니다.
시사점
- 모니터가 rollout 의 언어화 여부와 무관하게 작동한다는 점은 평가 인식이 CoT 과정보다 프롬프트에 의해 결정된다는 가설을 뒷받침합니다.
- 활용 — CoT 시작 시점에서도 작동하므로 rollout 전에 평가 인식을 차단하는 데 쓸 수 있습니다.
편집자 한 줄
언어화되지 않은 내부 상태를 로짓으로 읽어내는 접근은 실용성과 해석 가능성 사이에서 괜찮은 타협점을 찾은 셈입니다.
- #llm
- #eval-awareness
- #logit-monitor
- #goodfire
- #safety
LessWrong