Papers·2주 전
RePoT: PoT 실패 시 검증된 접두사에서 재개하는 단일 LLM 호출 복구 — PuzzleZoo-775에서 최대 96.9%

RePoT(Recoverable Program-of-Thought)는 PoT가 생성한 Python 프로그램을 환경에서 실행하다 첫 번째 무효 동작에서 멈춘 뒤, 검증된 접두사부터 재개하도록 LLM에 단 한 번 호출하는 방식입니다. PoT 실패 사례(약 14%)에서만 추가 호출이 발생하며, PuzzleZoo-775 벤치마크에서 GPT-5.4-mini-medium 기준 86.3%→96.9%로 +10.6pp, Gemini에서 +3.8pp 향상되었습니다. 단, GPT-mini에서는 오히려 성능이 떨어지는 등 모델 규모에 따른 패턴이 관찰되었습니다.
PoT가 생성한 계획이 중간에 무효화되면 전체 궤적이 폐기되는 문제를 해결하기 위해, 검증된 접두사까지는 유지하고 그 이후만 LLM이 다시 생성하도록 하는 RePoT를 제안합니다.
핵심 결론
- 성능 — PuzzleZoo-775에서 GPT-5.4-mini-medium 86.3%→96.9%, Gemini +3.8pp 향상.
- 비용 — PoT 실패 시(약 14%)에만 LLM 호출 1회 추가, 전체 문제 대비 평균 0.14회.
- 한계 — GPT-mini에서는 오히려 성능 하락; 모델 규모에 따른 복구 능력 차이가 있음.
방법
- 절차 — PoT가 생성한 Python 프로그램을 환경에서 실행, 첫 무효 동작에서 중단 후 검증된 접두사를 포함한 프롬프트로 LLM에 재생성 요청.
- 복구 신호 — 체크포인트 정보(어디까지 성공했는지)가 핵심이며, 단순 오류 메시지보다 훨씬 효과적.
한계·조건
- 벤치마크 — PuzzleZoo-775, PlanBench Blocksworld, Derail-550 등에서 평가.
- 재현성 — 코드 공개 여부 불명; 실험은 GPT-5.4-mini-medium, Gemini, Claude, GPT-mini 등에서 수행.
- 적응형 — Adaptive RePoT는 검증된 접두사 길이에 따라 suffix 복구와 전체 재시도를 라우팅하는 규칙 기반 디스패처로, 아직 예비 단계.
편집자 한 줄
PoT 실패 시 단순 재시도보다 효율적인 복구 전략을 제시했지만, 모델 규모에 따른 성능 차이는 추가 분석이 필요해 보입니다.
- #program-of-thought
- #recovery
- #llm
- #planning
- #puzzlezoo
Parsa Mazaheri