Papers·2개월 전

Zhejiang University, 비디오 기하 복원 기초 모델 ViGeo — 동적 청크 어텐션으로 시간 일관성 확보

Zhejiang University 팀이 비디오 시퀀스에서 공간적으로 조밀하고 시간적으로 일관된 기하(깊이, 표면 법선, 포인트 맵)를 복원하는 피드포워드 기초 모델 ViGeo를 공개했습니다. 핵심은 동적 청크 어텐션(dynamic chunking attention)으로, 학습 시 양방향·인과적 맥락을 모두 노출하고 테스트 시 재학습 없이 어텐션 패턴을 적응시킵니다. 완성 기반 데이터 정제 프레임워크로 노이즈 있는 주석을 정제해 학습 목표를 개선했으며, 공개 데이터셋만으로 온라인·오프라인·장기 비디오 깊이 추정에서 SOTA를 달성했습니다.

Zhejiang University가 비디오 기하 복원을 위한 통합 피드포워드 모델 ViGeo를 제안했습니다. 동적 청크 어텐션과 데이터 정제 프레임워크로 시간 일관성과 정확도를 동시에 잡았습니다.

핵심 결론

태스크 — 비디오 깊이·표면 법선·포인트 맵 추정에서 온라인·오프라인·장기 비디오 모두 SOTA.
데이터 — 공개 데이터셋만 사용했으며, 별도 합성 데이터나 비공개 데이터 없이 학습.
아키텍처 — 태스크 특화 수정 없이 순수 트랜스포머 기반, 통합 모델로 스트리밍·전체 시퀀스·장기 비디오 추론 지원.

방법

동적 청크 어텐션 — 학습 시 시퀀스를 청크로 나누고 각 청크 내 양방향 어텐션, 청크 간 인과적 어텐션을 혼합. 테스트 시 청크 크기와 어텐션 패턴을 유연하게 조정 가능.
데이터 정제 — 완성 기반 프레임워크로 비디오 깊이 완성 교사 모델을 학습, 희소하고 노이즈 있는 주석을 밀집되고 시간적으로 일관된 목표로 변환.
통합 추론 — 스트리밍(온라인), 전체 시퀀스(오프라인), 긴 비디오(메모리 제한)를 하나의 모델로 처리.

한계·조건

데이터 — 공개 데이터셋만 사용했지만, 특정 도메인(실내·야간)에서 일반화 성능은 추가 검증 필요.
계산량 — 트랜스포머 기반으로 추론 시 GPU 메모리와 시간이 상당할 수 있음 (구체 수치 미공개).
코드 — 현재 Hugging Face 논문만 공개, 코드와 모델 가중치는 추후 공개 예정.

편집자 한 줄

동적 청크 어텐션 아이디어는 비디오 이해 모델의 효율성과 유연성을 높이는 데 기여할 만한 요소입니다. 데이터 정제 파이프라인도 재현 가능한 점이 좋네요.

#video-depth-estimation
#foundation-model
#attention
#zhejiang-university

Zhejiang University

원문 보기 →

Zhejiang University, 비디오 기하 복원 기초 모델 ViGeo — 동적 청크 어텐션으로 시간 일관성 확보

핵심 결론

방법

한계·조건

Comments