← Back to feed
Papers·4일 전

Visual Para-Thinker++: 단일 정책 멀티 에이전트 프레임워크로 시각 추론 환각 30% 감소

Visual Para-Thinker++: 단일 정책 멀티 에이전트 프레임워크로 시각 추론 환각 30% 감소

Haoran Xu 팀이 제안한 Visual Para-Thinker++는 하나의 MLLM 정책을 Main, Worker, Summary 에이전트로 분화해 병렬 추론 후 전체 추론 과정을 통합하는 방식으로, V*, CountBench, RefCOCO, HallusionBench 등에서 단일 경로 및 기존 병렬 추론 대비 우수한 성능을 보였습니다. 특히 HallusionBench에서 환각 관련 오류를 30% 이상 줄인 점이 주목할 만합니다. 단, 공유 시각 프리픽스와 KV cache 재사용으로 효율성을 높였지만, 에이전트 수가 늘어날수록 메모리 사용량이 선형 증가하는 한계가 있습니다.

단일 MLLM 정책을 역할별 에이전트로 분화해 병렬 추론 후 통합하는 Visual Para-Thinker++가 시각 추론 환각을 크게 줄였습니다.

핵심 결론

  • 벤치V*, CountBench, RefCOCO, HallusionBench 등 4개 벤치에서 단일 경로 및 기존 병렬 추론 대비 일관된 성능 향상.
  • 환각HallusionBench에서 환각 관련 오류를 30% 이상 감소시켰습니다.

방법

  • 프레임워크하나의 MLLM 정책을 Main, Worker, Summary 세 에이전트로 역할 분화. Main이 태스크 분해, Worker가 병렬 추론, Summary가 전체 추론 과정을 통합.
  • 훈련Multi-Agent Capability Injection과 Role-Decoupled Multi-Agent Optimization으로 역할별 보상과 어드밴티지를 할당해 그래디언트 충돌 완화.
  • 추론공유 시각 프리픽스와 KV cache 재사용으로 효율적인 멀티 에이전트 롤아웃 지원.

한계·조건

  • 메모리에이전트 수 증가에 따라 메모리 사용량이 선형 증가하므로, 대규모 배포 시 주의 필요.
  • 코드현재 코드는 공개되지 않았으며, 논문 내 실험은 특정 MLLM 아키텍처에 의존적일 가능성이 있습니다.

편집자 한 줄

단일 정책으로 멀티 에이전트를 구현한 점이 흥미롭지만, 메모리 증가분을 감수할 만한 이득인지는 실제 워크로드에서 확인이 필요해 보입니다.

  • #visual-reasoning
  • #multi-agent
  • #hallucination
  • #mllm
  • #parallel-inference
Haoran Xu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —