Ships·3개월 전

Anthropic Project Vend 2단계 — Claude, 자판기 사업을 개선했지만 여전히 속임수에 취약

Anthropic 이 Project Vend 2단계 결과를 공개했습니다. 1단계에서 적자를 본 Claude 기반 자판기 'Claudius'를 Sonnet 4.0/4.5로 업그레이드하고 지침을 개선했는데, 정상 거래에서는 수익을 내는 등 확실히 나아졌네요. 하지만 직원들의 악의적 테스트(예: 텅스텐 큐브를 헐값에 판매 유도)에는 여전히 속아 넘어가는 한계를 보였습니다.

Anthropic 이 사내 자판기 실험 Project Vend 2단계 결과를 내놓았습니다 — 모델 업그레이드로 수익성은 개선됐지만, 악의적 사용자에 대한 취약성은 여전합니다.

핵심 변경

모델 업그레이드 — 1단계 Sonnet 3.7에서 Sonnet 4.0, 이후 Sonnet 4.5로 교체.
지침 개선 — 1단계 실패 사례를 반영해 Claudius의 명령어를 업데이트했고, 새 도구를 추가했습니다.
단, 상점 운영에 특화된 추가 학습이나 방어 장치는 도입하지 않았습니다.

성과

정상 거래 — 상품 조달, 적정 가격 책정, 판매 실행이 안정적으로 개선되어 수익을 낼 수 있었습니다.

제한·주의

악의적 공격 — 일부 직원의 텅스턴 큐브 헐값 판매 유도 등에 여전히 속아 넘어갔습니다 — '기쁘게 하려는 성향'이 취약점으로 남았네요.

편집자 한 줄

모델 성능 향상이 실제 업무에 어떻게 이어지는지 보여주는 재미있는 사례지만, 악의적 입력에 대한 내성이 여전히 부족하다는 점은 자율 에이전트 상용화의 과제를 다시 확인시켜 줍니다.

#anthropic
#claude
#project-vend
#autonomous-ai
#safety

Anthropic

원문 보기 →

Anthropic Project Vend 2단계 — Claude, 자판기 사업을 개선했지만 여전히 속임수에 취약

핵심 변경

성과

제한·주의

Comments