Papers·1개월 전

코드를 에이전트 하네스로 재정의한 서베이 — 계획·메모리·멀티에이전트까지 통합

이 서베이는 LLM 기반 에이전트 시스템에서 코드가 단순한 출력물이 아니라 추론·행동·환경 모델링·실행 검증의 기반(harness) 역할을 한다는 관점을 제시합니다. 하네스 인터페이스, 메커니즘(계획·메모리·도구 사용·피드백 제어), 싱글→멀티에이전트 확장의 세 계층으로 구성해 코딩 어시스턴트부터 GUI/OS 자동화, 임베디드 에이전트, 과학 발견, DevOps, 엔터프라이즈 워크플로까지 사례를 정리했습니다. 한계로는 최종 태스크 성공 외의 평가, 불완전한 피드백에서의 검증, 회귀 없는 하네스 개선, 멀티에이전트 간 일관된 상태 공유, 안전-critical 행동에 대한 인간 감독, 멀티모달 환경 확장 등을 과제로 꼽습니다.

#agents
#code-as-harness
#survey
#llm
#multi-agent

Xuying Ning

원문 보기 →

코드를 에이전트 하네스로 재정의한 서베이 — 계획·메모리·멀티에이전트까지 통합

Comments