Papers·2개월 전

EMMA: 물리 정보 기반 멀티모달 프레임워크, 비디오·오디오에서 동역학 파라미터 직접 복원

Arizona State University IMPACT Lab이 비디오, 오디오, 이미지 시계열에서 시스템의 모든 식별 가능한 동역학 파라미터를 복원하는 물리 정보 기반 멀티모달 프레임워크 EMMA를 공개했습니다. LTC 네트워크로 잠재 동역학을 학습하고 물리 제약 손실로 미분방정식 일관성을 강제하여, 기존 단일 모달리티 방식 대비 100+ 시나리오에서 파라미터 복원 성능을 크게 향상시켰습니다. 단, 75개 Delfys 비디오 등 표준 벤치마크에 특화된 평가이며, 실제 로버·쿼드로터 시스템에서도 검증되었습니다.

ASU 팀이 비디오·오디오·이미지 시계열에서 동역학 파라미터를 직접 복원하는 물리 정보 기반 멀티모달 프레임워크 EMMA를 제안했습니다.

핵심 결론

태스크 — 비디오, 오디오, 이미지 시계열에서 시스템의 모든 식별 가능한 동역학 파라미터를 복원.
성능 — 100+ 시나리오(5개 표준 동역학 벤치마크, 75개 Delfys 비디오, 실제 로버·쿼드로터)에서 기존 단일 모달리티 및 방정식 발견 베이스라인 대비 크게 향상.
특징 — 세그멘테이션 마스크, 미분 가능 렌더링, 특수 센서 없이 강제·암시적·다변수 동역학에서 파라미터 추정 가능.

방법

핵심 아이디어 — Liquid Time-Constant (LTC) 네트워크로 이질적 모달리티에서 잠재 동역학을 학습하고, 물리 제약 손실로 지배 미분방정식과의 일관성을 강제.
파이프라인 — 통합 특징 파이프라인으로 비디오 궤적, 음향 시그니처, 차트 측정값을 정렬하여 일관된 추정 수행.
장점 — 초기 조건, 좌표계, 가려짐, 숨은 입력에 대한 가정 없이 동작.

한계·조건

벤치마크 — 표준 동역학 벤치마크와 75개 Delfys 비디오에 특화되어 있으며, 다양한 실제 환경에서의 일반화는 추가 검증 필요.
리소스 — LTC 네트워크 학습에 상당한 compute 요구 가능성 (구체적 명시 없음).
코드 — GitHub에 공개 (https://github.com/ImpactLabASU/EMMA-CVPR2026).

편집자 한 줄

멀티모달 물리 정보 학습의 실용적 사례로, 특히 숨은 입력이 있는 실제 시스템에서의 검증이 인상적입니다.

#physics-informed
#multimodal
#parameter-estimation
#dynamics
#arizona-state-university

IMPACT Lab at Arizona State University

원문 보기 →

EMMA: 물리 정보 기반 멀티모달 프레임워크, 비디오·오디오에서 동역학 파라미터 직접 복원

핵심 결론

방법

한계·조건

Comments