Ships·2개월 전

Anthropic, 장기 실행 앱 개발 위한 하네스 설계 기법 공개 — GAN 영감 다중 에이전트 구조

Anthropic Labs 팀의 Prithvi Rajasekaran이 Claude를 활용한 장기 실행 애플리케이션 개발을 위한 하네스 설계 기법을 공개했습니다. GAN에서 영감을 받은 생성기-평가기 다중 에이전트 구조로, 기존 단순 구현의 한계를 넘어 수시간 자율 코딩 세션에서 풀스택 앱을 제작할 수 있게 했습니다. 평가기에는 주관적 디자인 판단을 구체적 기준으로 분해하는 접근이 포함되었으며, 계획-생성-평가 3개 에이전트가 협력합니다.

Anthropic Labs가 Claude의 장기 자율 코딩 성능을 끌어올린 하네스 설계 접근법을 블로그로 공개했습니다.

핵심 변경

다중 에이전트 구조 — GAN에서 영감을 받아 생성기와 평가기로 구성된 2개 에이전트를 설계, 이후 계획기까지 추가해 3개 에이전트 아키텍처로 발전.
평가 기준 체계화 — 주관적 디자인 평가를 '이 디자인이 좋은가?' 같은 모호한 질문에서 구체적·등급화 가능한 기준으로 분해하는 방법론을 개발.
세션 간 컨텍스트 전달 — 이전 하네스 작업에서 얻은 교훈 — 빌드를 작은 청크로 분해하고 구조화된 아티팩트로 컨텍스트를 전달 — 을 그대로 적용.

기존 접근 대비 개선

초기 단순 구현(초기화기 + 코딩 에이전트)은 일정 성능 이상으로 개선되지 않는 한계에 부딪혔음.
새 아키텍처는 계획기가 전체 태스크를 분해하고, 생성기가 코드를 작성하며, 평가기가 결과를 검증해 반복 개선.
커뮤니티의 'Ralph Wiggum' 방식 등 유사 접근과도 일맥상통하는 부분.

제한·주의

아직 연구 단계이며, 일반 공개된 제품이나 API는 아님.
수시간 자율 세션에서의 안정성과 일관성에 대한 추가 검증이 필요.

편집자 한 줄

GAN에서 아이디어를 가져와 평가기를 만든 발상이 흥미롭습니다. 다만 아직 연구 블로그 수준이라 실제 프로덕션 적용까지는 시간이 더 필요해 보이네요.

#anthropic
#claude
#harness-design
#multi-agent
#autonomous-coding

Anthropic

원문 보기 →

Anthropic, 장기 실행 앱 개발 위한 하네스 설계 기법 공개 — GAN 영감 다중 에이전트 구조

핵심 변경

기존 접근 대비 개선

제한·주의

Comments