Papers·1개월 전

LRM의 CoT 모니터링 신뢰성 개선 — probe trajectory로 미래 행동 예측, AUROC 95%

Large Reasoning Model(LRM)의 Chain of Thought(CoT)는 모니터링 도구로 유용하지만 최종 출력과 불일치할 수 있습니다. 이 연구는 hidden representation에서 probe trajectory를 추출해 미래 행동을 예측하는 방법을 제안합니다. 신호처리 특징(변동성, 추세, 정상상태)을 활용해 미래 상태 분리를 크게 개선했으며, max-pooling으로 AUROC 95%를 달성했습니다. 템플릿 기반 훈련 데이터도 동적 생성과 유사한 성능을 보여 비용을 절감할 수 있다는 점이 흥미롭습니다. 단, 실험은 4개 데이터셋과 4개 모델에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

#lrm
#chain-of-thought
#safety-monitoring
#probe-trajectory
#huggingface

Maciej Chrabąszcz

원문 보기 →

LRM의 CoT 모니터링 신뢰성 개선 — probe trajectory로 미래 행동 예측, AUROC 95%

Comments