Papers·어제
AdaPlanBench — LLM 에이전트의 점진적 이중 제약 적응 계획 능력 평가, 최고 67.75%

UIUC 팀이 LLM 에이전트가 상호작용을 통해 점진적으로 드러나는 세계 제약과 사용자 제약 하에 적응적으로 계획을 수정할 수 있는지 평가하는 동적 벤치마크 AdaPlanBench 를 제안했습니다. 307개 가사 작업에 이중 제약을 추가하고, 계획이 제약을 위반할 때만 숨겨진 제약을 공개하는 멀티턴 프로토콜을 설계했습니다. 10개 LLM 실험 결과 최고 모델이 67.75% 정확도에 그쳤으며, 제약이 쌓일수록 성능이 저하되고 특히 사용자 제약에서 취약함을 보였습니다.
LLM 에이전트가 상호작용 중 점진적으로 드러나는 세계·사용자 제약에 적응하며 계획을 수정할 수 있는지 평가하는 동적 벤치마크 AdaPlanBench 가 공개되었습니다.
핵심 결론
- 벤치 — 307개 가사 작업에 이중 제약(세계+사용자)을 추가한 동적 계획 벤치마크.
- 성능 — 10개 LLM 평가 결과 최고 모델(GPT-4)이 67.75% 정확도, 대부분 모델이 50% 미만.
- 추세 — 제약이 누적될수록 성능 저하, 특히 사용자 제약에서 큰 폭 하락.
방법
- 점진적 공개 — 에이전트가 제안한 계획이 숨겨진 제약을 위반할 때만 해당 제약을 공개하는 멀티턴 프로토콜.
- 이중 제약 — 세계 제약(물리적 가능성)과 사용자 제약(선호·규칙)을 모두 포함, 각 작업당 2~5개 제약.
- 재계획 — 에이전트는 피드백으로부터 제약을 추론하고 누적된 제약 하에 계획을 반복 수정해야 함.
한계·조건
- 범위 — 가사 작업으로 한정, 실제 로봇 환경이 아닌 텍스트 시뮬레이션.
- 재현성 — 데이터셋과 평가 코드는 Hugging Face에 공개 예정.
- 비용 — 멀티턴 평가로 인해 API 호출 비용이 높을 수 있음.
편집자 한 줄
제약이 점진적으로 드러나는 시나리오는 현실 문제와 가깝지만, 벤치마크의 난이도가 높아 현재 모델로는 한계가 명확합니다.
- #llm
- #planning
- #benchmark
- #uiuc
- #adaptive-planning
University of Illinois at Urbana-Champaign