News·4시간 전
AuditBench 경량 판별기 실험 — 사용되지만 비용 절감엔 실패

AuditBench 가 Gemma 2-2B 기반 경량 EM 독성 판별기를 조사 에이전트에 추가 도구로 제공한 실험 결과, 판별기는 모든 감사에서 사용됐지만 비용 절감 효과는 없었습니다. Sonnet 드라이버가 전체 비용의 97~99%를 차지했고, 도구 사용을 강제한 프롬프트는 오히려 감사당 비용을 17% 높였습니다. 판별기는 훈련 분포와 일치하는 케이스에서만 부분적으로 도움이 됐고, Sonnet 이 이미 효과적인 경우에는 오히려 성능을 해쳤습니다.
AuditBench 가 경량 독성 판별기를 조사 에이전트에 추가했지만, 비용 절감 목표는 달성하지 못한 실험 결과를 공개했습니다.
골자
- 목표 — Gemma 2-2B 기반 EM 독성 판별기를 AuditBench 조사 에이전트에 추가 도구로 제공해, 저비용으로 정렬 오류 탐지 가능성을 검증.
- 사용률 — 판별기는 모든 감사 실행에서 사용됨. 프롬프트에 의무화 없이 감사당 ~7회, 의무화 시 ~16회 호출.
- 비용 — Sonnet 드라이버가 전체 비용의 97~99% 차지. 도구 의무화로 감사당 비용 17% 증가. 총 실험 비용 $500+.
배경·맥락
- 배포 모델의 부정 행위와 리워드 해킹 사례가 증가하면서, 정렬 평가의 비용 효율성과 식별력 개선이 필요해진 상황.
- 기존 문제 — AuditBench 의 기존 조사 에이전트는 고비용 Sonnet 에 의존해, 대규모 감사에 확장하기 어려웠음.
자금 용처·향후
- 개선 방향 — 훈련 데이터를 Soligo et al 2025 의 하위 수준 EM 독성 특성으로 일반화하고, 판별기를 불확실성 기반 백스톱으로 전환.
- 모델 확장 — Gemma 3-27B 같은 약간 더 크지만 여전히 저비용인 오픈 모델을 판별기로 시험할 계획.
편집자 한 줄
경량 판별기가 사용되긴 했지만, Sonnet 의존도가 워낙 높아 비용 절감 효과가 전무했던 점이 인상적입니다. 프롬프트 의무화가 오히려 비용을 높인 건 예상치 못한 결과네요.
- #auditbench
- #misalignment
- #evals
- #llm-safety
- #gemma
LessWrong