Papers·2일 전

Snowflake, LLM 에이전트의 조기 수렴 진단법 — hidden-state 유사도로 경로 붕괴 탐지

Snowflake 팀이 LLM 에이전트가 추론 초기에 증거를 고정한 뒤 방어하는 '조기 수렴(premature commitment)' 현상을 hidden-state 유사도로 진단하는 방법을 제안했습니다. HotpotQA에서 Llama-3.1-70B의 step-4 hidden-state 유사도가 이후 행동 일관성과 유의미한 상관(r=-0.35)을 보였고, AUROC 0.97로 불일치 궤적을 탐지했습니다. 단, 이 지표는 정답 여부와 무관하며, 정확도 향상보다는 과정 진단에 특화된 한계가 있습니다.

Snowflake 팀이 LLM 에이전트가 추론 초기에 증거를 고정한 뒤 방어하는 '조기 수렴(premature commitment)' 현상을 hidden-state 유사도로 진단하는 방법을 제안했습니다.

핵심 결론

진단 — HotpotQA에서 Llama-3.1-70B의 step-4 hidden-state 유사도가 이후 행동 일관성과 유의미한 상관(r=-0.35, partial r=-0.45)을 보였습니다.
탐지 성능 — 불일치 궤적 탐지 AUROC 최대 0.97, 엄격한 분할에서도 0.85–0.88을 기록했습니다.

방법

정의 — 서로 다른 실행 간 동일 추론 단계의 hidden-state 수렴 정도를 '대표적 수렴(representational commitment)'으로 정의합니다.
신호 특성 — 이 신호는 정답 여부와 무관합니다. 즉, 에이전트가 수렴했는지(settled)만 알려주지, 옳은지(committed-correct vs committed-wrong)는 구분하지 못합니다.
Qwen-2.5-72B, Phi-3-14B, StrategyQA(r=-0.83)에서도 재현되었습니다.

한계·조건

정확도 개선 — 프롬프트 개입으로 행동 분산을 28% 줄였으나 정확도는 통계적으로 유의미하게 변하지 않았습니다.
자기 일관성 — 더 어려운 벤치마크에서 self-consistency 라우팅에 활용했을 때 효과는 미미했으며, 간단한 출력 기반 베이스라인에 뒤졌습니다.
코드 — 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

정답과 무관한 과정 진단이라는 점이 흥미롭습니다. 정확도 향상보다는 디버깅 도구로 쓸 만해 보이네요.

#llm-agents
#diagnostics
#snowflake
#hidden-state
#premature-commitment

Snowflake

원문 보기 →

Snowflake, LLM 에이전트의 조기 수렴 진단법 — hidden-state 유사도로 경로 붕괴 탐지

핵심 결론

방법

한계·조건

Comments