Papers·어제
ByteDance ActWorld — 내비게이션+객체 조작 통합한 인터랙티브 월드 모델, 100K 비디오 데이터셋 공개

ByteDance 팀이 내비게이션 중심 기존 월드 모델에 객체 조작(접시 들기, 문 열기 등)을 통합한 ActWorld 를 발표했습니다. 핵심은 100K 인터랙션 비디오 데이터셋 구축과, 이벤트 전환 프레임을 유지하는 계층적 action-aware 메모리 설계로, 내비게이션 성능을 유지하면서 객체 조작 충실도를 크게 개선했습니다. 한계는 데이터셋이 특정 도메인에 편중될 가능성과, 긴 rollout 에서 메모리 비용이 증가한다는 점입니다.
ByteDance 가 내비게이션과 객체 조작을 모두 지원하는 인터랙티브 월드 모델 ActWorld 를 공개했습니다.
핵심 결론
- 태스크 — 실시간 사용자 액션에 반응하는 3D 월드 시뮬레이션 — 내비게이션(이동, 회전)과 객체 조작(집기, 열기)을 단일 모델로 처리.
- 개선폭 — 내비게이션 전용 baseline 대비 객체 조작 충실도(interaction fidelity)에서 큰 폭 개선, 시점 제어 성능은 유지.
방법
- 데이터 — 100K 인터랙션 비디오 데이터셋을 구축, 각 청크에 chain-of-thought reasoning 으로 캡션을 주석.
- 메모리 — 계층적 action-aware 메모리 설계 — 상호작용 중요도에 따라 히스토리 압축을 라우팅하고, 이벤트 업데이트와 객체 ID 토큰을 유지하는 persistent memory bank 도입.
- 프레임워크 — Chunk-autoregressive 방식으로 rollout 중간에 객체 조작을 삽입 가능.
한계·조건
- 데이터 편향 — 100K 데이터셋이 특정 장면이나 객체 유형에 편중될 가능성이 있으며, 일반화 검증이 더 필요.
- 메모리 비용 — Persistent memory bank 로 인해 긴 rollout 시 메모리 요구량이 증가하는 trade-off 존재.
- 코드 공개 — 프로젝트 페이지에서 데모와 논문 확인 가능, 코드 공개 여부는 미정.
편집자 한 줄
내비게이션만 가능했던 기존 월드 모델에 '조작 가능성'을 추가한 점이 의미 있습니다. 다만 데이터 규모와 도메인 커버리지가 아직 제한적이라, 실제 다양한 환경에서의 robustness 는 더 지켜봐야 할 듯.
- #world-models
- #interaction
- #byte-dance
- #video-generation
ByteDance