Papers·3일 전
코드를 에이전트 하네스로 재정의한 서베이 — 계획·메모리·멀티에이전트까지 통합

이 서베이는 LLM 기반 에이전트 시스템에서 코드가 단순한 출력물이 아니라 추론·행동·환경 모델링·실행 검증의 기반(harness) 역할을 한다는 관점을 제시합니다. 하네스 인터페이스, 메커니즘(계획·메모리·도구 사용·피드백 제어), 싱글→멀티에이전트 확장의 세 계층으로 구성해 코딩 어시스턴트부터 GUI/OS 자동화, 임베디드 에이전트, 과학 발견, DevOps, 엔터프라이즈 워크플로까지 사례를 정리했습니다. 한계로는 최종 태스크 성공 외의 평가, 불완전한 피드백에서의 검증, 회귀 없는 하네스 개선, 멀티에이전트 간 일관된 상태 공유, 안전-critical 행동에 대한 인간 감독, 멀티모달 환경 확장 등을 과제로 꼽습니다.
- #agents
- #code-as-harness
- #survey
- #llm
- #multi-agent
Xuying Ning