Papers·1개월 전

SePO: 프롬프트 에이전트의 자기 진화 최적화 — 5개 벤치마크 평균 정확도 4.49p 향상

SePO는 단일 프롬프트 에이전트가 태스크 에이전트의 시스템 프롬프트뿐 아니라 자신의 시스템 프롬프트도 진화시키는 자기 참조 최적화 방법입니다. AIME'25, ARC-AGI-1, GPQA, MBPP, Sudoku 등 5개 벤치마크에서 Manual-CoT 대비 평균 정확도 4.49%p 향상. 사전 학습 단계에서 얻은 프롬프트 최적화 능력이 미경험 태스크로 일반화되는 점이 특이합니다.

프롬프트 에이전트의 시스템 프롬프트까지 최적화 대상으로 삼는 자기 진화 프레임워크 SePO를 제안합니다.

핵심 결론

벤치마크 — 5개 벤치마크(AIME'25, ARC-AGI-1, GPQA, MBPP, Sudoku)에서 Manual-CoT 대비 평균 정확도 4.49%p 향상.
일반화 — 사전 학습 태스크 외의 미경험 태스크에서도 프롬프트 최적화 능력이 전이됨.

방법

자기 참조 설계 — 단일 프롬프트 에이전트가 태스크 에이전트의 시스템 프롬프트와 자신의 시스템 프롬프트를 동시에 진화시킵니다.
진화 탐색 — 오픈엔드 진화 탐색으로 후보 프롬프트 아카이브를 유지하며 점진적 개선.
2단계 학습 — 사전 학습: 다중 태스크 풀에서 프롬프트 에이전트 진화 → 미세 조정: 타겟 태스크에 적용.

한계·조건

기존 방법(Manual-CoT, TextGrad, MetaSPO)과 비교했지만, GPT-4 등 특정 LLM 백본에 의존적일 가능성.
진화 탐색 비용이 추가로 들며, 아카이브 규모에 따라 수렴 속도가 달라질 수 있습니다.

편집자 한 줄

프롬프트 엔지니어링 자체를 메타 학습으로 자동화하려는 흐름에서 흥미로운 접근입니다. 다만 진화 탐색의 계산 비용이 실용성에 얼마나 영향을 줄지 지켜볼 필요가 있습니다.

#prompt-optimization
#agent
#self-evolution
#sepo

Wangcheng Tao

원문 보기 →

SePO: 프롬프트 에이전트의 자기 진화 최적화 — 5개 벤치마크 평균 정확도 4.49p 향상

핵심 결론

방법

한계·조건

Comments