Papers·23시간 전
Princeton, LLM 에이전트 테스트타임 프롬프트 학습 프레임워크 EEVEE 제안 — 멀티 데이터셋에서 SOTA 대비 최대 48.2% 향상

Princeton AI Lab 이 LLM 에이전트를 위한 최초의 멀티 데이터셋 테스트타임 프롬프트 학습 프레임워크 EEVEE 를 공개했습니다. 라우터가 입력을 태스크 클러스터로 분할해 적합한 프롬프트를 할당하고, 라우터-프롬프트 공진화 전략으로 상호 의존성을 해결합니다. Qwen3-4B-Instruct 와 DeepSeek-V3.2 에서 평균 멀티 벤치마크 점수를 각각 10.38, 24.32 포인트 개선했으며, GEPA 및 ACE 대비 최대 37.2%, 48.2% 향상되었습니다. 단, 단일 벤치마크 설정 대비 추가 연산이 필요하고, 라우터 설계가 태스크 분포에 민감할 가능성이 있습니다.
Princeton AI Lab 이 LLM 에이전트의 테스트타임 프롬프트 학습을 멀티 데이터셋 환경으로 확장한 EEVEE 를 제안했습니다.
핵심 결론
- 태스크 — 멀티 데이터셋 테스트타임 프롬프트 학습 — 실제 환경처럼 여러 데이터셋이 섞여 들어오는 스트림에서 동작.
- 성능 — Qwen3-4B-Instruct 기준 평균 멀티 벤치마크 점수 10.38점, DeepSeek-V3.2 기준 24.32점 향상.
- SOTA 대비 — GEPA 대비 최대 37.2%, ACE 대비 최대 48.2% 개선.
방법
- 라우터 — 입력 스트림을 태스크 클러스터로 분할하고 각 클러스터에 최적화된 프롬프트를 할당.
- 공진화 — 라우터와 프롬프트 학습을 번갈아 수행하며 상호 의존성을 해결하는 전략.
- 기존 단일 데이터셋 방법과 달리, 라우터가 교차 데이터셋 간섭을 완화하는 게 핵심입니다.
한계·조건
- 연산 비용 — 라우터와 프롬프트 공진화로 인해 단일 데이터셋 방법보다 추가 연산이 필요.
- 민감도 — 라우터 설계가 태스크 분포 변화에 민감할 수 있으며, 분포가 급변하는 경우 재학습이 필요할 가능성.
- 재현성 — 코드 및 학습 설정은 논문에 상세히 공개되었으나, 대규모 실험은 고사양 GPU 클러스터에서 수행됨.
편집자 한 줄
멀티 데이터셋 환경에서의 테스트타임 적응은 실용적이지만, 라우터 오버헤드가 어느 정도인지 실제 배포 전에 확인해볼 필요가 있겠네요.
- #llm-agents
- #prompt-learning
- #test-time-adaptation
- #princeton
Princeton AI Lab