Papers·4일 전
Visual Para-Thinker++: 단일 정책 멀티 에이전트 프레임워크로 시각 추론 환각 30% 감소

Haoran Xu 팀이 제안한 Visual Para-Thinker++는 하나의 MLLM 정책을 Main, Worker, Summary 에이전트로 분화해 병렬 추론 후 전체 추론 과정을 통합하는 방식으로, V*, CountBench, RefCOCO, HallusionBench 등에서 단일 경로 및 기존 병렬 추론 대비 우수한 성능을 보였습니다. 특히 HallusionBench에서 환각 관련 오류를 30% 이상 줄인 점이 주목할 만합니다. 단, 공유 시각 프리픽스와 KV cache 재사용으로 효율성을 높였지만, 에이전트 수가 늘어날수록 메모리 사용량이 선형 증가하는 한계가 있습니다.
단일 MLLM 정책을 역할별 에이전트로 분화해 병렬 추론 후 통합하는 Visual Para-Thinker++가 시각 추론 환각을 크게 줄였습니다.
핵심 결론
- 벤치 — V*, CountBench, RefCOCO, HallusionBench 등 4개 벤치에서 단일 경로 및 기존 병렬 추론 대비 일관된 성능 향상.
- 환각 — HallusionBench에서 환각 관련 오류를 30% 이상 감소시켰습니다.
방법
- 프레임워크 — 하나의 MLLM 정책을 Main, Worker, Summary 세 에이전트로 역할 분화. Main이 태스크 분해, Worker가 병렬 추론, Summary가 전체 추론 과정을 통합.
- 훈련 — Multi-Agent Capability Injection과 Role-Decoupled Multi-Agent Optimization으로 역할별 보상과 어드밴티지를 할당해 그래디언트 충돌 완화.
- 추론 — 공유 시각 프리픽스와 KV cache 재사용으로 효율적인 멀티 에이전트 롤아웃 지원.
한계·조건
- 메모리 — 에이전트 수 증가에 따라 메모리 사용량이 선형 증가하므로, 대규모 배포 시 주의 필요.
- 코드 — 현재 코드는 공개되지 않았으며, 논문 내 실험은 특정 MLLM 아키텍처에 의존적일 가능성이 있습니다.
편집자 한 줄
단일 정책으로 멀티 에이전트를 구현한 점이 흥미롭지만, 메모리 증가분을 감수할 만한 이득인지는 실제 워크로드에서 확인이 필요해 보입니다.
- #visual-reasoning
- #multi-agent
- #hallucination
- #mllm
- #parallel-inference
Haoran Xu