← Back to feed
Papers·어제

AdaPlanBench — LLM 에이전트의 점진적 이중 제약 적응 계획 능력 평가, 최고 67.75%

AdaPlanBench — LLM 에이전트의 점진적 이중 제약 적응 계획 능력 평가, 최고 67.75%

UIUC 팀이 LLM 에이전트가 상호작용을 통해 점진적으로 드러나는 세계 제약과 사용자 제약 하에 적응적으로 계획을 수정할 수 있는지 평가하는 동적 벤치마크 AdaPlanBench 를 제안했습니다. 307개 가사 작업에 이중 제약을 추가하고, 계획이 제약을 위반할 때만 숨겨진 제약을 공개하는 멀티턴 프로토콜을 설계했습니다. 10개 LLM 실험 결과 최고 모델이 67.75% 정확도에 그쳤으며, 제약이 쌓일수록 성능이 저하되고 특히 사용자 제약에서 취약함을 보였습니다.

LLM 에이전트가 상호작용 중 점진적으로 드러나는 세계·사용자 제약에 적응하며 계획을 수정할 수 있는지 평가하는 동적 벤치마크 AdaPlanBench 가 공개되었습니다.

핵심 결론

  • 벤치307개 가사 작업에 이중 제약(세계+사용자)을 추가한 동적 계획 벤치마크.
  • 성능10개 LLM 평가 결과 최고 모델(GPT-4)이 67.75% 정확도, 대부분 모델이 50% 미만.
  • 추세제약이 누적될수록 성능 저하, 특히 사용자 제약에서 큰 폭 하락.

방법

  • 점진적 공개에이전트가 제안한 계획이 숨겨진 제약을 위반할 때만 해당 제약을 공개하는 멀티턴 프로토콜.
  • 이중 제약세계 제약(물리적 가능성)과 사용자 제약(선호·규칙)을 모두 포함, 각 작업당 2~5개 제약.
  • 재계획에이전트는 피드백으로부터 제약을 추론하고 누적된 제약 하에 계획을 반복 수정해야 함.

한계·조건

  • 범위가사 작업으로 한정, 실제 로봇 환경이 아닌 텍스트 시뮬레이션.
  • 재현성데이터셋과 평가 코드는 Hugging Face에 공개 예정.
  • 비용멀티턴 평가로 인해 API 호출 비용이 높을 수 있음.

편집자 한 줄

제약이 점진적으로 드러나는 시나리오는 현실 문제와 가깝지만, 벤치마크의 난이도가 높아 현재 모델로는 한계가 명확합니다.

  • #llm
  • #planning
  • #benchmark
  • #uiuc
  • #adaptive-planning
University of Illinois at Urbana-Champaign
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —