Papers·1개월 전

UC Berkeley, 에이전트 AI의 병목은 모델이 아닌 시스템 설계 — CheetahClaws 공개

UC Berkeley 연구진이 에이전트 AI의 성능이 모델 자체보다 메모리, 검색, 도구 사용, 오케스트레이션 등 시스템 전체 구조(harness)에서 결정된다고 주장하며, 이를 'harness 스케일링'으로 정의했습니다. 세 가지 핵심 병목(컨텍스트 거버넌스, 신뢰 가능한 메모리, 동적 스킬 라우팅)을 제시하고, Python 기반 참조 harness인 CheetahClaws를 공개해 Claude Code 및 OpenClaw와 비교했습니다. 평가도 최종 성공률 외에 궤적 품질, 메모리 위생, 컨텍스트 효율 등을 포함해야 한다고 제안합니다.

UC Berkeley 연구진이 에이전트 AI의 진정한 병목은 모델 스케일링이 아니라 시스템 설계(harness)에 있다고 주장하며, Python 기반 참조 구현 CheetahClaws를 공개했습니다.

핵심 결론

주장 — 에이전트 성능은 모델 단독이 아니라 harness(메모리, 검색, 도구, 오케스트레이션, 검증 등) 전체에서 나오며, 이제는 harness 자체를 최적화 대상으로 삼아야 합니다.
비교 — CheetahClaws를 Claude Code, OpenClaw와 비교해 harness 설계 차이가 에이전트 행동에 미치는 영향을 보여줍니다.

방법

세 가지 병목 — 컨텍스트 거버넌스(무한 컨텍스트 관리), 신뢰 가능한 메모리(사실 일관성), 동적 스킬 라우팅(작업에 맞는 도구 선택)을 핵심으로 꼽았습니다.
CheetahClaws — Python 네이티브 참조 harness로, 모듈식 설계를 통해 각 구성 요소를 교체하며 실험할 수 있습니다.
평가 확장 — 기존의 단발 작업 성공률 대신 궤적 품질, 메모리 위생, 컨텍스트 효율, 통신 충실도, 검증 비용, 안전한 진화를 측정하는 harness 수준 벤치마크를 제안합니다.

한계·조건

범위 — 제안은 개념적 프레임워크에 가깝고, CheetahClaws는 아직 초기 참조 구현입니다. 대규모 실험을 통한 정량적 비교는 부족합니다.
코드 — GitHub(https://github.com/SafeRL-Lab/cheetahclaws)에 공개되어 있으나, 아직 문서화와 벤치마크가 진행 중입니다.

편집자 한 줄

모델 크기 경쟁이 둔화되는 시점에서 시스템 설계의 중요성을 환기하는 점은 시의적절합니다. 다만 구체적인 성능 수치가 없어 실용성 평가는 후속 연구를 기다려야 할 듯합니다.

#agentic-ai
#system-design
#uc-berkeley
#cheetahclaws

UC Berkeley

원문 보기 →

UC Berkeley, 에이전트 AI의 병목은 모델이 아닌 시스템 설계 — CheetahClaws 공개

핵심 결론

방법

한계·조건

Comments