Papers·1개월 전

BadWorld: 라벨 없이 자율회귀 시각 세계 모델의 적대적 취약점을 드러내는 프레임워크

홍콩 폴리텍 대학 연구팀이 자율회귀 시각 세계 모델(VWM)의 적대적 공격에 대한 취약점을 평가하는 라벨 없는 프레임워크 BadWorld를 제안했습니다. 미래 비디오나 사용자 제어에 대한 사전 지식 없이도, 자가 지도 속도 공격과 궤적 적응형 이중 최적화를 통해 시각적으로 구분 불가능한 적대적 이미지가 미래 롤아웃에서 구조적 붕괴와 제어 불일치를 유발함을 보였습니다. 이는 안전이 중요한 시스템에서 VWM 배포의 위험을 드러내는 동시에 프라이버시 보호 메커니즘으로도 활용될 가능성을 시사합니다.

홍콩 폴리텍 연구팀이 자율회귀 시각 세계 모델의 적대적 취약점을 체계적으로 평가하는 라벨 없는 프레임워크 BadWorld를 공개했습니다.

핵심 결론

태스크 — 자율회귀 VWM의 적대적 강건성 평가 — 단일 컨텍스트 이미지에서 미래 롤아웃을 합성하는 모델 대상.
결과 — 시각적으로 구분 불가능한 적대적 이미지가 미래 롤아웃에서 불완전한 디노이징, 구조적 붕괴, 제어 불일치를 유발합니다.
연속 제어 및 이산 제어를 사용하는 대표적 VWM에서 심각한 구조적 취약점을 확인했습니다.

방법

자가 지도 속도 공격 — 미래 비디오에 대한 지상 실측 없이, 초기 디노이징 동역학을 직접 교란하는 속도 공격을 제안합니다.
궤적 적응형 이중 최적화 — 사용자 제어를 예측할 수 없으므로, 하드 제어 시퀀스를 적극적으로 마이닝하여 제어에 무관한 섭동을 생성합니다.
이 프레임워크는 라벨이 필요 없으며, 공격자가 미래 정보를 알 수 없는 현실적 시나리오에서도 동작합니다.

한계·조건

대상 — 자율회귀 VWM에 특화되어 있으며, 비자율회귀 모델에는 적용되지 않을 수 있습니다.
평가 — 연속 및 이산 제어를 사용하는 대표적 모델에서 검증되었으나, 모든 VWM 아키텍처에 일반화된다고 보장할 수 없습니다.
코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

적대적 공격이 프라이버시 보호로도 전환될 수 있다는 점이 흥미롭지만, 안전-critical 시스템에 VWM을 배포할 때는 추가 강건성 검증이 필요해 보입니다.

#adversarial-attack
#visual-world-models
#autoregressive
#privacy
#hong-kong-polyu

The Hong Kong Polytechnic University

원문 보기 →

BadWorld: 라벨 없이 자율회귀 시각 세계 모델의 적대적 취약점을 드러내는 프레임워크

핵심 결론

방법

한계·조건

Comments