News·4시간 전
Activation Oracle 훈련 방식 개선 — on-policy rollout, 데이터셋 강화, 오픈소스 평가 벤치마크 AObench 공개

MATS 10.0 스프린트에서 Activation Oracle(AO) 훈련 방식을 개선했습니다. on-policy rollout 도입, 대화 데이터셋 개선, 더 많은 레이어 주입(Niclas Luick 방식), 주입 공식 변경을 적용했고, AO 품질 평가용 오픈소스 벤치마크 AObench를 공개했습니다. 능력 향상은 미미하지만 사용성은 크게 개선되었습니다.
Karvonen et al.의 Activation Oracle을 개선한 MATS 10.0 스프린트 결과물입니다.
골자
- 훈련 방식 — on-policy rollout 도입, 대화 데이터셋 개선, 더 많은 레이어 주입(Niclas Luick 방식), 주입 공식 변경.
- 평가 — AObench — 현재 가장 포괄적인 AO 평가 벤치마크를 오픈소스로 공개.
- 성과 — 능력 향상은 미미하지만 사용성(환각·모호함 감소)은 크게 개선.
배경·맥락
- 기존 AO는 환각과 모호한 출력 문제가 있었고, 텍스트 반전(text inversion) 문제로 평가가 어려웠음.
- 문제 — Arya Jakkli의 'Current activation oracles are hard to use'에서 지적된 두 가지 이슈(환각, 모호함)에 집중.
자금 용처·향후
- 사용 — 추천 모델은 여기, 라이브 데모는 ao.celeste.computer에서 1주일간 호스팅.
- 셀프 호스팅 — 웹 인터페이스를 직접 호스팅할 수도 있음.
편집자 한 줄
AO는 해석 가능성 연구의 오프더쉘프 도구로 자리잡기 위해 사용성 개선이 중요했는데, 이번 작업이 그 방향으로 의미 있는 진전을 보여줍니다.
- #activation-oracles
- #interpretability
- #mechanistic-interpretability
- #mats
- #open-source
LessWrong