Papers·1개월 전

Visual Para-Thinker++: 단일 정책 멀티 에이전트 프레임워크로 시각 추론 환각 30% 감소

Haoran Xu 팀이 제안한 Visual Para-Thinker++는 하나의 MLLM 정책을 Main, Worker, Summary 에이전트로 분화해 병렬 추론 후 전체 추론 과정을 통합하는 방식으로, V*, CountBench, RefCOCO, HallusionBench 등에서 단일 경로 및 기존 병렬 추론 대비 우수한 성능을 보였습니다. 특히 HallusionBench에서 환각 관련 오류를 30% 이상 줄인 점이 주목할 만합니다. 단, 공유 시각 프리픽스와 KV cache 재사용으로 효율성을 높였지만, 에이전트 수가 늘어날수록 메모리 사용량이 선형 증가하는 한계가 있습니다.

단일 MLLM 정책을 역할별 에이전트로 분화해 병렬 추론 후 통합하는 Visual Para-Thinker++가 시각 추론 환각을 크게 줄였습니다.

핵심 결론

벤치 — V*, CountBench, RefCOCO, HallusionBench 등 4개 벤치에서 단일 경로 및 기존 병렬 추론 대비 일관된 성능 향상.
환각 — HallusionBench에서 환각 관련 오류를 30% 이상 감소시켰습니다.

방법

프레임워크 — 하나의 MLLM 정책을 Main, Worker, Summary 세 에이전트로 역할 분화. Main이 태스크 분해, Worker가 병렬 추론, Summary가 전체 추론 과정을 통합.
훈련 — Multi-Agent Capability Injection과 Role-Decoupled Multi-Agent Optimization으로 역할별 보상과 어드밴티지를 할당해 그래디언트 충돌 완화.
추론 — 공유 시각 프리픽스와 KV cache 재사용으로 효율적인 멀티 에이전트 롤아웃 지원.

한계·조건

메모리 — 에이전트 수 증가에 따라 메모리 사용량이 선형 증가하므로, 대규모 배포 시 주의 필요.
코드 — 현재 코드는 공개되지 않았으며, 논문 내 실험은 특정 MLLM 아키텍처에 의존적일 가능성이 있습니다.

편집자 한 줄

단일 정책으로 멀티 에이전트를 구현한 점이 흥미롭지만, 메모리 증가분을 감수할 만한 이득인지는 실제 워크로드에서 확인이 필요해 보입니다.

#visual-reasoning
#multi-agent
#hallucination
#mllm
#parallel-inference

Haoran Xu

원문 보기 →

Visual Para-Thinker++: 단일 정책 멀티 에이전트 프레임워크로 시각 추론 환각 30% 감소

핵심 결론

방법

한계·조건

Comments