Papers·2개월 전

Reflective Prompt Tuning — LLM 함수 호출로 프롬프트 자동 최적화, 추론 태스크 최대 12.9점 향상

Megagon Labs 가 제안한 RPT 는 LLM optimizer 가 진단 함수를 호출해 타겟 모델의 전체 최적화 세트에 대한 실패 패턴을 요약한 구조화 리포트를 바탕으로 프롬프트를 반복 수정합니다. 세 가지 추론 태스크에서 초기 프롬프트 대비 최대 12.9점 개선되었으며, 특히 다중 홉 및 수학 추론에서 효과적이었습니다. 다만 optimizer 자체에 LLM(GPT-4 등)을 사용하므로 추가 비용이 발생하고, 진단 함수의 설계가 성능에 큰 영향을 미친다는 한계가 있습니다.

Megagon Labs 가 LLM 함수 호출을 활용해 프롬프트 엔지니어링의 반복 작업을 자동화하는 Reflective Prompt Tuning (RPT) 을 공개했습니다.

핵심 결론

성능 — 세 가지 추론 태스크(GSM8K, StrategyQA, HotpotQA)에서 초기 프롬프트 대비 최대 12.9점 향상.
비교 — 기존 자동 프롬프트 최적화 기법(APE, OPRO 등)과 경쟁 수준이며, 특히 다중 홉·수학 추론에서 우세.
보정 — 최종 프롬프트 선택 시 calibration 신호를 활용해 confidence calibration 도 개선.

방법

진단 함수 — LLM optimizer 가 타겟 모델을 전체 최적화 세트에 대해 평가하고, 실패 패턴을 요약한 구조화 리포트를 생성.
메모리 — 이전 반복의 리포트를 누적해 참조함으로써 체계적인 오류 패턴을 포착하고 타겟 수정을 가합니다.
함수 호출 인터페이스로 구현되어 optimizer LLM 이 도구를 사용하듯 진단을 수행하는 점이 특징입니다.

한계·조건

비용 — optimizer 로 GPT-4 등 고성능 LLM 을 사용하므로 반복당 API 비용이 발생합니다.
진단 설계 — 진단 함수의 프롬프트와 출력 형식이 최적화 성능에 민감하게 작용할 가능성이 있습니다.
코드 — 논문 발표 시점에는 코드가 공개되지 않았습니다.

편집자 한 줄

프롬프트 최적화를 'LLM 이 LLM 을 디버깅하는' 구조로 푼 점이 신선하네요. 진단 리포트의 질이 optimizer 의 성능을 결정할 테니, 진단 함수 자체의 최적화도 후속 과제가 될 만합니다.

#prompt-optimization
#function-calling
#megagon-labs
#reasoning

Megagon Labs

원문 보기 →

Reflective Prompt Tuning — LLM 함수 호출로 프롬프트 자동 최적화, 추론 태스크 최대 12.9점 향상

핵심 결론

방법

한계·조건

Comments