Papers·어제
InterleaveThinker — 멀티 에이전트 파이프라인으로 기존 이미지 생성기에 interleaved generation 부여

Dian Zheng 팀이 InterleaveThinker를 제안, planner-critic 에이전트로 기존 이미지 생성기에 interleaved generation(텍스트-이미지 시퀀스) 능력을 추가했습니다. planner가 입력 시퀀스를 구성하고 critic이 출력을 평가해 재생성 명령을 보정하는 방식입니다. Interleave-Planner-SFT-80k와 Interleave-Critic-SFT-112k로 cold start 후, GRPO 기반 Interleave-Critic-RL-13k로 단계별 명령 보정을 강화했습니다. 단일 생성 궤적당 25회 이상의 생성기 호출이 필요해 전체 궤적 최적화는 비효율적이라, 정확도 보상과 단계별 보상을 도입해 단일 단계 RL로 전체 궤적을 효과적으로 유도했습니다. interleaved 생성 벤치마크에서 Nano Banana 및 GPT-5와 유사한 성능을 달성했고, 4-step FLUX.2-klein에서 WISE 및 RISE 벤치마크에서도 큰 향상을 보였습니다.
InterleaveThinker는 기존 이미지 생성기에 interleaved generation(텍스트-이미지 시퀀스) 능력을 부여하는 최초의 멀티 에이전트 파이프라인입니다.
핵심 결론
- 태스크 — interleaved generation (텍스트-이미지 교차 시퀀스 생성)에서 기존 생성기 대비 큰 성능 향상.
- 벤치마크 — interleaved 생성 벤치마크에서 Nano Banana 및 GPT-5와 유사한 성능.
- 추가 이점 — 4-step FLUX.2-klein 모델에서 WISE, RISE 벤치마크 성능도 향상.
방법
- 구조 — planner agent가 입력 시퀀스를 조직하고, critic agent가 생성 결과를 평가해 부적합 시 재생성 명령을 보정.
- 학습 — Interleave-Planner-SFT-80k와 Interleave-Critic-SFT-112k로 cold start 후, GRPO 기반 Interleave-Critic-RL-13k로 단계별 명령 보정 능력 강화.
- 보상 — 전체 궤적 최적화 대신 정확도 보상과 단계별 보상으로 단일 단계 RL이 전체 궤도를 효과적으로 유도.
한계·조건
- 비용 — 단일 interleaved 생성 궤적당 25회 이상의 생성기 호출이 필요해 계산 비용이 높습니다.
- 범위 — 기존 이미지 생성기에 적용 가능하나, 각 생성기의 특성에 따라 파이프라인 튜닝이 필요할 수 있습니다.
- 코드 — 현재 논문만 공개, 코드 및 데이터셋 공개 여부는 불명.
편집자 한 줄
멀티 에이전트 접근으로 기존 생성기의 한계를 우회한 점이 인상적입니다. 다만 생성기 호출 횟수가 많아 실제 서비스 적용 시 latency trade-off를 확인해야 합니다.
- #interleaved-generation
- #multi-agent
- #image-generation
- #grpo
- #dian-zheng
Dian Zheng