Papers·1개월 전

MaineCoon: 소셜 플랫폼용 실시간 오디오-비디오 생성 모델 — 22B, 단일 GPU 47.5 FPS

MaineCoon은 소셜 인터랙션에 특화된 최초의 실시간 오디오-비디오 자회귀 모델로, 22B 파라미터에 단일 GPU에서 47.5 FPS의 스트리밍 생성과 서브초 응답을 달성했습니다. 핵심 기술로 self-resampling, 교차 모달 정렬, 도메인 선호 최적화, 강화 온라인 정책 증류(ROPD)를 도입했으며, 에이전틱 캐시 관리와 프롬프트 플래닝으로 수천 초 이상의 긴 생성에서 드리프트를 완화합니다. 다만 아직 프로토타입 단계이며, 실제 소셜 플랫폼 적용을 위한 추가 검증이 필요합니다.

소셜 플랫폼에서의 인터랙티브한 비디오 소비가 증가하는 가운데, MaineCoon은 인간 중심의 사회적 역학을 모델링하는 최초의 실시간 오디오-비디오 생성 모델입니다.

핵심 결론

태스크 — 실시간 오디오-비디오 스트리밍 생성, 단일 GPU에서 47.5 FPS, 서브초 지연 시간.
모델 — 22B 파라미터 자회귀 모델로, 이전 물리/게임 세계 모델과 달리 사회적 상호작용에 최적화.
성능 — SOTA 벤치마크에서 고품질·저지연·장시간 생성 모두 기록 갱신.

방법

자기 재표집 — Self-resampling으로 학습 안정성과 효율을 높임.
교차 모달 정렬 — 오디오-비디오 표현을 정렬하여 일관된 생성 유도.
도메인 선호 최적화 — 사회적 상호작용에 적합한 출력을 선호하도록 최적화.
ROPD — 강화 온라인 정책 증류로 실시간 추론 성능 최적화.
에이전틱 추론 — 캐시 관리와 프롬프트 플래닝으로 수천 초 이상 생성 시 드리프트 완화.

한계·조건

단계 — 프로토타입 모델로, 실제 소셜 플랫폼 적용에는 추가 검증 필요.
리소스 — 단일 GPU에서 동작하나 22B 모델이므로 고사양 GPU 필요.
공개 — 코드 및 가중치 공개 여부는 아직 불명.

편집자 한 줄

소셜 상호작용이라는 도메인 특화가 흥미롭지만, 실제 사용자 경험 평가가 빠져 있어 실용성은 더 지켜봐야 할 듯합니다.

#video-generation
#audio-visual
#real-time
#social-ai
#maine-coon

catnip

원문 보기 →

MaineCoon: 소셜 플랫폼용 실시간 오디오-비디오 생성 모델 — 22B, 단일 GPU 47.5 FPS

핵심 결론

방법

한계·조건

Comments