Papers·1주 전
MiniCPM-o 4.5: 9B 파라미터로 실시간 전이중 옴니모달 상호작용 구현, 엣지 디바이스에서 구동

OpenBMB가 발표한 MiniCPM-o 4.5는 9B 파라미터 규모에서 실시간 전이중(full-duplex) 옴니모달 상호작용을 구현한 오픈소스 모델입니다. 기존 MLLM이 인지와 응답을 교대로 수행하는 한계를 넘어, Omni-Flow라는 통합 스트리밍 프레임워크로 시각·청각·음성 입력을 시간축에 정렬하여 동시에 처리하고 생성 중에도 새로운 입력을 반영합니다. 또한 사용자 요청 없이도 라이브 상황을 이해하고 능동적으로 알림이나 코멘트를 내보내는 능동적 행동(proactive behavior)을 보입니다. Gemini 2.5 Flash에 근접한 비전-언어 성능을 보이며, Qwen3-Omni-30B-A3B를 옴니모달 이해와 음성 생성에서 능가하고, 12GB 미만 RAM의 엣지 디바이스에서 실시간 구동이 가능합니다.
- #multimodal
- #real-time
- #openbmb
- #edge-ai
- #proactive-ai
OpenBMB