Papers·1개월 전

비디오 이해 MLLM 체계적 정리 — 시청·기억·추론 능력으로 본 통합 관점

Peking University 연구진이 LLM 기반 비디오 이해를 '시청(watching)', '기억(remembering)', '추론(reasoning)' 세 가지 기능적 능력으로 재구성한 서베이를 공개했습니다. 기존 태스크별 벤치마크가 아닌 인간 관점의 통합 프레임워크로, 시공간 지각, 장기 비디오 처리, 메모리 모델링, 스트리밍 이해, 신뢰 가능한 추론의 도전 과제를 정리하고 대표 방법론을 체계화했습니다. 1인칭·스포츠·교육·의료·내러티브 비디오 등 응용 도메인과 데이터셋·벤치마크도 포괄적으로 다루며, 확장 가능하고 메모리-인지적이며 증거 기반의 비디오 지능을 위한 미해결 문제를 제시합니다.

Peking University 연구진이 LLM 기반 비디오 이해를 '시청·기억·추론' 세 능력으로 재구성한 통합 서베이를 공개했습니다.

핵심 결론

관점 — 기존 태스크별 벤치마크 대신, 인간이 비디오를 이해하는 방식(시청·기억·추론)으로 MLLM의 능력을 체계화한 점이 핵심입니다.
범위 — 시공간 지각, 장기 비디오 처리, 메모리 모델링, 스트리밍 이해, 신뢰 가능한 추론 등 5대 도전 과제를 다루며, 1인칭·스포츠·교육·의료·내러티브 비디오 등 응용 도메인도 포괄합니다.

방법

통합 프레임워크 — 비디오 이해 시스템을 지각 표현(perceptual representations), 메모리 상태(memory states), 추론 흔적(reasoning traces), 최종 예측(final predictions)으로 특성화하는 정식화를 제안합니다.
세 가지 능력 — Watching은 세밀·포괄·오디오-비주얼·효율적 지각을, Remembering은 오프라인 및 스트리밍 메모리를, Reasoning은 텍스트 전용 및 비디오 기반 추론을 포함합니다.
자료 — 관련 연구를 지속 추적하는 GitHub 리포지토리(https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding)를 운영합니다.

한계·조건

범위 — 서베이 논문으로 새로운 방법이나 실험 결과는 포함되지 않으며, 기존 연구의 분류와 정리에 중점을 둡니다.
재현성 — 코드나 데이터셋은 제공되지 않지만, 참고 문헌과 GitHub 리포지토리를 통해 각 방법의 원본 자료에 접근 가능합니다.

편집자 한 줄

비디오 MLLM 분야가 급성장하면서 태스크별로 흩어져 있던 연구를 통합된 프레임워크로 바라볼 수 있는 좋은 출발점입니다. 특히 '기억'을 별도 축으로 분리한 점이 인상적입니다.

#video-understanding
#multimodal-llm
#survey
#peking-university

Peking University

원문 보기 →

비디오 이해 MLLM 체계적 정리 — 시청·기억·추론 능력으로 본 통합 관점

핵심 결론

방법

한계·조건

Comments