Papers·1주 전
JD.com, 실시간 비전-언어 상호작용 모델 JoyAI-VL-Interaction 공개 — 8B 규모, 오픈소스

JD.com 오픈소스 팀이 실시간 비디오를 지속적으로 관찰하며 스스로 응답 시점을 결정하는 8B 규모의 비전-언어 상호작용 모델 JoyAI-VL-Interaction을 공개했습니다. 모델은 매초 침묵·응답·위임 중 하나를 내부적으로 결정하며, Doubao 및 Gemini의 인앱 비디오 어시스턴트보다 사람 평가에서 우세했습니다. 학습 레시피, 데이터, 배포 가능한 전체 시스템이 함께 공개된 최초의 오픈소스 사례입니다.
JD.com 오픈소스 팀이 실시간 비디오를 지속적으로 관찰하며 스스로 응답 시점을 결정하는 8B 규모의 비전-언어 상호작용 모델 JoyAI-VL-Interaction을 공개했습니다.
핵심 결론
- 태스크 — 실시간 비디오 스트리밍을 입력으로 받아, 사용자 발화 없이도 적절한 순간에 응답하거나 침묵을 유지하는 비전-언어 상호작용.
- 평가 — 6개 실제 시나리오에서 사람 평가자가 Doubao 및 Gemini의 인앱 비디오 어시스턴트보다 JoyAI-VL-Interaction을 크게 선호.
- 규모 — 8B 파라미터, 오픈소스로 공개.
방법
- 내부 결정 — 매초 침묵·응답·배경 모델 위임 중 하나를 자체적으로 결정. 사용자 프롬프트 없이도 동작.
- 학습 레시피 — 전이 가능한 학습 레시피를 함께 공개. 학습하지 않은 능력(예: 앱 화면 안내, 슬라이드 강의 즉흥)이 창발.
- 시스템 구성 — ASR/TTS, 메모리, 시각화 UI, 외부 API/에이전트와 연결 가능한 배경 브레인 등 모든 컴포넌트가 플러그인 방식.
한계·조건
- 공개 범위 — 모델, 학습 레시피, 데이터, 전체 배포 시스템이 모두 오픈소스로 공개됨.
- 비교 대상 — Doubao와 Gemini의 인앱 비디오 어시스턴트와 비교했으나, 공개된 벤치마크 수치는 없음.
- 실시간성 — 초 단위 결정을 내리지만, 지연 시간에 대한 구체적인 측정치는 논문에 명시되지 않음.
편집자 한 줄
실시간 상호작용 모델의 오픈소스화는 드문 사례라 한 번 봐둘 만합니다. 다만 8B 규모에서의 실시간 처리 비용이 어느 정도일지가 실제 도입의 관건이겠네요.
- #vision-language
- #interaction
- #open-source
- #jd
- #real-time
JD.com Open Source