← Back to feed
Papers·23시간 전

Princeton, LLM 에이전트 테스트타임 프롬프트 학습 프레임워크 EEVEE 제안 — 멀티 데이터셋에서 SOTA 대비 최대 48.2% 향상

Princeton, LLM 에이전트 테스트타임 프롬프트 학습 프레임워크 EEVEE 제안 — 멀티 데이터셋에서 SOTA 대비 최대 48.2% 향상

Princeton AI Lab 이 LLM 에이전트를 위한 최초의 멀티 데이터셋 테스트타임 프롬프트 학습 프레임워크 EEVEE 를 공개했습니다. 라우터가 입력을 태스크 클러스터로 분할해 적합한 프롬프트를 할당하고, 라우터-프롬프트 공진화 전략으로 상호 의존성을 해결합니다. Qwen3-4B-Instruct 와 DeepSeek-V3.2 에서 평균 멀티 벤치마크 점수를 각각 10.38, 24.32 포인트 개선했으며, GEPA 및 ACE 대비 최대 37.2%, 48.2% 향상되었습니다. 단, 단일 벤치마크 설정 대비 추가 연산이 필요하고, 라우터 설계가 태스크 분포에 민감할 가능성이 있습니다.

Princeton AI Lab 이 LLM 에이전트의 테스트타임 프롬프트 학습을 멀티 데이터셋 환경으로 확장한 EEVEE 를 제안했습니다.

핵심 결론

  • 태스크멀티 데이터셋 테스트타임 프롬프트 학습 — 실제 환경처럼 여러 데이터셋이 섞여 들어오는 스트림에서 동작.
  • 성능Qwen3-4B-Instruct 기준 평균 멀티 벤치마크 점수 10.38점, DeepSeek-V3.2 기준 24.32점 향상.
  • SOTA 대비GEPA 대비 최대 37.2%, ACE 대비 최대 48.2% 개선.

방법

  • 라우터입력 스트림을 태스크 클러스터로 분할하고 각 클러스터에 최적화된 프롬프트를 할당.
  • 공진화라우터와 프롬프트 학습을 번갈아 수행하며 상호 의존성을 해결하는 전략.
  • 기존 단일 데이터셋 방법과 달리, 라우터가 교차 데이터셋 간섭을 완화하는 게 핵심입니다.

한계·조건

  • 연산 비용라우터와 프롬프트 공진화로 인해 단일 데이터셋 방법보다 추가 연산이 필요.
  • 민감도라우터 설계가 태스크 분포 변화에 민감할 수 있으며, 분포가 급변하는 경우 재학습이 필요할 가능성.
  • 재현성코드 및 학습 설정은 논문에 상세히 공개되었으나, 대규모 실험은 고사양 GPU 클러스터에서 수행됨.

편집자 한 줄

멀티 데이터셋 환경에서의 테스트타임 적응은 실용적이지만, 라우터 오버헤드가 어느 정도인지 실제 배포 전에 확인해볼 필요가 있겠네요.

  • #llm-agents
  • #prompt-learning
  • #test-time-adaptation
  • #princeton
Princeton AI Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —