News·4시간 전
모의 툴 호출로 신뢰할 수 없는 입력 격리 — 효과는 제한적
OpenAI 모델 사양에서 툴 결과를 가장 신뢰도 낮은 입력으로 분류하는 점에 착안, 프롬프트 내 신뢰할 수 없는 부분을 툴 호출로 감싸는 기법을 실험했습니다. 3개 태스크에서 전반적인 개선은 없었고 오히려 악화된 경우도 있었습니다. 연구진은 명령 계층 구조 이해와 신뢰할 수 없는 입력을 위한 더 나은 프리미티브가 필요하다고 주장합니다.
프롬프트 내 신뢰할 수 없는 입력을 툴 호출로 감싸는 아이디어를 소규모 연구로 테스트했지만, 기대만큼 효과적이지 않았습니다.
골자
- 아이디어 — OpenAI 모델 사양에서 툴 결과를 가장 신뢰도 낮은 입력으로 보는 점을 활용, 프롬프트의 신뢰할 수 없는 부분을 툴 호출로 감싸면 격리가 쉬워질 것이라는 가설.
- 실험 — 3개 태스크(LLM-as-a-Judge, 스팸 필터, 유해성 필터)에서 모의 툴 호출 프롬프트와 일반 프롬프트 비교.
- 결과 — 전반적으로 도움이 되지 않았으며, 일부 태스크에서는 오히려 성능이 악화.
배경·맥락
- Zhao et al. (2025)의 'One Token to Fool LLM-as-a-Judge'에서 간단한 입력(예: ":", "Solution")이 평가자를 속여 통과 판정을 내게 할 수 있다는 점이 지적됨.
- 기존 대책 — 따옴표나 구분자, '신뢰할 수 없음' 문구 등은 표준화되지 않은 임시방편에 불과.
- 명령 계층 — Instruction Hierarchy(IH)가 해결책으로 제안되지만, 아직 충분히 이해되지 않음.
자금 용처·향후
- 논문 — arXiv에 PDF 업로드됨. ICML 워크숍 AI4Good에 제출 예정.
- 제언 — 명령 계층 구조에 대한 더 깊은 이해와 신뢰할 수 없는 입력을 위한 더 나은 프리미티브 개발 필요.
편집자 한 줄
툴 호출이 만병통치약은 아니라는 점을 실험으로 확인한 점은 의미 있지만, 태스크 수가 적어 일반화하기는 어렵습니다.
- #llm-safety
- #instruction-hierarchy
- #prompt-engineering
- #tool-use
LessWrong