Papers·5일 전

OmniAgent: 비디오 이해를 POMDP 기반 능동 추론으로 전환 — 7B 모델이 72B 능가

Qwen 팀이 제안한 OmniAgent는 비디오 이해를 POMDP 기반의 Observation-Thought-Action 반복 과정으로 재정의합니다. 모든 프레임을 균일하게 처리하는 기존 방식과 달리, 필요한 순간에만 오디오-비주얼 정보를 선택적으로 추출해 텍스트 메모리에 저장함으로써 추론 비용을 비디오 길이에서 분리합니다. 10개 벤치마크에서 오픈소스 모델 중 SOTA를 달성했으며, 특히 LVBench에서 7B 모델이 Qwen2.5-VL-72B를 50.5% vs 47.3%로 앞섰습니다.

Qwen 팀이 비디오 이해를 위한 능동적 에이전트 OmniAgent를 공개했습니다. 모든 프레임을 보는 대신, 필요한 정보만 선택적으로 추출해 추론 비용을 비디오 길이와 분리한 점이 핵심입니다.

핵심 결론

태스크 — 장문 비디오 이해 — 질문에 답하기 위해 필요한 순간만 능동적으로 관찰.
성능 — 10개 벤치마크(VideoMME, LVBench 등)에서 오픈소스 모델 중 최고 성능.
특이점 — LVBench에서 7B 모델이 72B 모델(Qwen2.5-VL-72B)을 50.5% vs 47.3%로 능가.

방법

POMDP 프레임워크 — 비디오 이해를 Observation-Thought-Action 반복 과정으로 모델링. 에이전트가 현재 추론 상태에 따라 다음 관찰을 선택.
Agentic SFT — Best-of-N 궤적 합성과 이중 품질 관리를 통해 능동적 지각을 부트스트래핑하는 지도 학습.
Agentic RL — TAURA 보상: 턴 수준 엔트로피를 활용해 중요한 발견 턴에 크레딧을 할당하는 강화학습.
모든 정보는 텍스트 메모리에 누적되어, 추론 복잡도가 비디오 길이 대신 추론 턴 수에 비례합니다.

한계·조건

테스트 시간 스케일링 — 추론 턴이 증가할수록 성능이 향상되는 positive scaling을 보이지만, 이는 더 많은 연산을 의미합니다.
벤치마크 범위 — 주로 QA 위주 벤치마크에서 검증되었으며, 생성형 태스크에서의 일반화는 추가 확인이 필요합니다.
코드 공개 — 현재 논문과 함께 모델 가중치 및 코드가 공개될 예정이라고 밝혔습니다.

편집자 한 줄

7B가 72B를 이긴 점은 인상적이지만, 추론 턴 수가 늘어날수록 지연시간도 함께 증가한다는 점을 고려해야 합니다.

#video-understanding
#active-perception
#pomdp
#qwen
#reinforcement-learning

Qwen

원문 보기 →

OmniAgent: 비디오 이해를 POMDP 기반 능동 추론으로 전환 — 7B 모델이 72B 능가

핵심 결론

방법

한계·조건

Comments