Papers·1개월 전

Princeton, LLM 에이전트 테스트타임 프롬프트 학습 프레임워크 EEVEE 제안 — 멀티 데이터셋에서 SOTA 대비 최대 48.2% 향상

Princeton AI Lab 이 LLM 에이전트를 위한 최초의 멀티 데이터셋 테스트타임 프롬프트 학습 프레임워크 EEVEE 를 공개했습니다. 라우터가 입력을 태스크 클러스터로 분할해 적합한 프롬프트를 할당하고, 라우터-프롬프트 공진화 전략으로 상호 의존성을 해결합니다. Qwen3-4B-Instruct 와 DeepSeek-V3.2 에서 평균 멀티 벤치마크 점수를 각각 10.38, 24.32 포인트 개선했으며, GEPA 및 ACE 대비 최대 37.2%, 48.2% 향상되었습니다. 단, 단일 벤치마크 설정 대비 추가 연산이 필요하고, 라우터 설계가 태스크 분포에 민감할 가능성이 있습니다.

Princeton AI Lab 이 LLM 에이전트의 테스트타임 프롬프트 학습을 멀티 데이터셋 환경으로 확장한 EEVEE 를 제안했습니다.

핵심 결론

태스크 — 멀티 데이터셋 테스트타임 프롬프트 학습 — 실제 환경처럼 여러 데이터셋이 섞여 들어오는 스트림에서 동작.
성능 — Qwen3-4B-Instruct 기준 평균 멀티 벤치마크 점수 10.38점, DeepSeek-V3.2 기준 24.32점 향상.
SOTA 대비 — GEPA 대비 최대 37.2%, ACE 대비 최대 48.2% 개선.

방법

라우터 — 입력 스트림을 태스크 클러스터로 분할하고 각 클러스터에 최적화된 프롬프트를 할당.
공진화 — 라우터와 프롬프트 학습을 번갈아 수행하며 상호 의존성을 해결하는 전략.
기존 단일 데이터셋 방법과 달리, 라우터가 교차 데이터셋 간섭을 완화하는 게 핵심입니다.

한계·조건

연산 비용 — 라우터와 프롬프트 공진화로 인해 단일 데이터셋 방법보다 추가 연산이 필요.
민감도 — 라우터 설계가 태스크 분포 변화에 민감할 수 있으며, 분포가 급변하는 경우 재학습이 필요할 가능성.
재현성 — 코드 및 학습 설정은 논문에 상세히 공개되었으나, 대규모 실험은 고사양 GPU 클러스터에서 수행됨.

편집자 한 줄

멀티 데이터셋 환경에서의 테스트타임 적응은 실용적이지만, 라우터 오버헤드가 어느 정도인지 실제 배포 전에 확인해볼 필요가 있겠네요.

#llm-agents
#prompt-learning
#test-time-adaptation
#princeton

Princeton AI Lab

원문 보기 →

Princeton, LLM 에이전트 테스트타임 프롬프트 학습 프레임워크 EEVEE 제안 — 멀티 데이터셋에서 SOTA 대비 최대 48.2% 향상

핵심 결론

방법

한계·조건

Comments