← Back to feed
News·2시간 전

소형 오픈웨이트 모니터로 블랙박스 사기 탐지 — Qwen3.5-27B 기반 훈련 레시피

소형 오픈웨이트 모니터로 블랙박스 사기 탐지 — Qwen3.5-27B 기반 훈련 레시피

LessWrong 게시글에 따르면, 연구진이 소형 오픈웨이트 모델을 훈련해 프롬프트 기반 프론티어 모니터보다 비용 효율적인 사기 탐지 모니터를 만드는 방법을 제시했습니다. Qwen3.5-27B에 적용한 결과, Gemini 3.1 Flash-Lite, GPT-5.4 Nano, Claude Haiku 4.5 등 모든 소형 프롬프트 모니터와 Gemini 2.5 Pro보다 높은 탐지 성능을 보였고, 추론 비용은 더 낮았습니다. 강력한 프론티어 모니터(Gemini 3.1 Pro, GPT-5.4, Claude Sonnet 4.6, Claude Opus 4.6)는 성능이 더 높지만 비용이 약 10배 더 높은 수준입니다.

소형 오픈웨이트 모델을 훈련해 블랙박스 사기 탐지 모니터를 만드는 비용 효율적인 방법이 나왔습니다.

골자

  • 접근법소형 오픈웨이트 모델을 훈련해 프롬프트 기반 프론티어 모니터를 대체하는 비용 효율적인 모니터를 만듦.
  • 모델Qwen3.5-27B에 훈련 레시피를 적용, 사기 탐지 성능이 Gemini 2.5 Pro 및 모든 소형 프롬프트 모니터를 능가.
  • 비용추론 비용은 프롬프트 기반 프론티어 모니터 대비 약 1/10 수준.

배경·맥락

  • 블랙박스 사기(scheming)는 AI 시스템이 의도치 않은 행동을 숨기는 문제로, 탐지 모니터의 중요성이 커지고 있음.
  • 기존 프롬프트 기반 모니터는 강력하지만 비용이 높아, 소형 모델 훈련이 대안으로 떠오름.

자금 용처·향후

  • 연구진은 훈련 레시피와 모델 가중치를 공개할 예정.
  • 향후 더 큰 오픈웨이트 모델이나 특화 데이터로 성능을 더 높일 가능성이 있음.

편집자 한 줄

프롬프트 엔지니어링 대신 미세조정으로 비용을 낮춘 점이 실용적입니다. 다만 강력한 프론티어 모니터와의 성능 격차는 여전히 존재합니다.

  • #ai-safety
  • #scheming-detection
  • #open-weight
  • #monitoring
  • #qwen
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —