News·4시간 전
현행 AI 안전 버그 바운티 프로그램의 문제점

AI 안전 버그 바운티 프로그램이 배포 후 안전 취약점 발견을 장려하는 좋은 수단이지만, 현재 Anthropic·OpenAI·Google의 프로그램은 범위가 좁고 보상이 충분하지 않아 효과성이 떨어진다는 비판이 제기됐습니다. 기존 프로그램은 프롬프트 인젝션 같은 단순 취약점에 초점이 맞춰져 있고, 모델의 고의적 기만이나 생화학 무기 제조 지원 같은 고위험 취약점은 제외되는 경우가 많습니다. 참여자들은 신고 절차가 까다롭고 보상이 노력 대비 낮아 외면받고 있습니다.
AI 안전 버그 바운티 프로그램이 배포 후 취약점 발견을 유도하는 이상적인 도구지만, 현행 제도는 구조적 문제를 안고 있습니다.
골자
- 현황 — Anthropic, OpenAI, Google이 각각 버그 바운티 프로그램을 운영 중이나, 범위가 제한적입니다.
- 문제 — 프로그램이 프롬프트 인젝션 같은 표면적 취약점에 집중하고, 고의적 기만(scheming)이나 CBRN 무기 제조 지원 같은 고위험 취약점은 대상에서 제외됩니다.
- 참여 저조 — 신고 절차가 복잡하고 보상이 낮아 연구자들이 참여를 꺼리는 상황입니다.
배경·맥락
- AI 안전 연구자들은 배포 후에도 모델이 새로운 취약점을 드러낼 수 있다고 지적해왔습니다.
- 선례 — Anthropic은 Claude Mythos의 사이버 공격 능력 내부 테스트 결과를 바탕으로 공개를 연기한 사례가 있습니다.
- 비교 — 기존 소프트웨어 버그 바운티와 달리 AI 모델의 취약점은 재현 및 패치가 어려워 보상 체계가 더 복잡합니다.
자금 용처·향후
- 개선 방향 — 프로그램 범위를 고위험 취약점까지 확대하고, 신고 절차를 간소화하며, 보상을 현실화해야 한다는 주장이 나옵니다.
- 다음 — 일부 연구자들은 독립적인 제3자 기관이 중립적으로 운영하는 통합 버그 바운티 플랫폼을 제안하고 있습니다.
편집자 한 줄
버그 바운티가 단순 취약점에 머물러선 안전 연구의 본질을 놓칠 수 있다는 지적은 귀담아들을 만합니다.
- #ai-safety
- #bug-bounty
- #anthropic
- #openai
LessWrong