Papers·1개월 전

NUS, 오디오-비전 통합 모델의 첫 포괄적 서베이 — 이해·생성·상호작용 전 영역

NUS 팀이 Audio-Visual Intelligence(AVI) 분야를 대규모 기초 모델 관점에서 체계적으로 정리한 서베이를 공개했습니다. 이해(음성 인식, 음원 위치 추정), 생성(오디오 기반 비디오 합성, 비디오→오디오), 상호작용(대화, 임베디드, 에이전트)까지 아우르는 통합 분류체계를 제시하고, 토큰화, 교차 모달 융합, 자회귀·확산 기반 생성, 대규모 사전학습, 명령어 정렬, 선호 최적화 등의 방법론을 종합했습니다. 데이터셋·벤치마크·평가 지표를 비교하고 동기화, 공간 추론, 제어 가능성, 안전성 같은 미해결 과제도 짚습니다. 아직 분야가 빠르게 확장 중이라 참고 자료로 쓸 만합니다.

#audio-visual
#survey
#foundation-models
#nus

National University of Singapore

원문 보기 →

NUS, 오디오-비전 통합 모델의 첫 포괄적 서베이 — 이해·생성·상호작용 전 영역

Comments