Papers·1개월 전

LatentOmni: 오디오-비전 잠재 공간 추론으로 텍스트 CoT 대체, 오픈소스 중 최고 성능

Kling 팀이 오디오와 비전 정보를 텍스트로 압축하지 않고 잠재 공간에서 직접 추론하는 LatentOmni 프레임워크를 제안했습니다. 텍스트 기반 chain-of-thought(CoT)가 연속 신호를 이산 토큰으로 변환하며 시간적 정렬을 약화시키는 문제를 해결하기 위해, 특징 수준의 정합 손실과 Omni-Sync Position Embedding(OSPE)으로 시청각 잠재 상태를 정렬합니다. 오디오-비전 추론 벤치마크에서 Explicit Text CoT baseline을 일관되게 능가했으며, 평가된 오픈소스 모델 중 최고 성능을 기록했습니다. 다만 LatentOmni-Instruct-35K 데이터셋 구축에 많은 수작업이 필요해 재현성에 제약이 있습니다.

#audio-visual
#latent-space
#reasoning
#kling
#multimodal

Kling Team

원문 보기 →

LatentOmni: 오디오-비전 잠재 공간 추론으로 텍스트 CoT 대체, 오픈소스 중 최고 성능

Comments