Papers·2일 전
Zhejiang大, 능동적 시점 재현 태스크 TVRBench 제안 — 9B 모델 SFT로 50.8% 성공률

Zhejiang University 팀이 Target Viewpoint Reproduction (TVR)이라는 능동적 과제를 정의하고, 실내 시뮬레이션 벤치마크 TVRBench를 공개했습니다. 최고 오픈소스·폐쇄소스 모델이 각각 7.8%, 12.0% 성공률에 그친 가운데, visual-action SFT가 9B 모델을 50.8%까지 끌어올렸고 Multi-turn GRPO가 51.4%로 추가 개선했습니다. 단, CoT-SFT와 Single-turn GRPO는 오히려 성능을 떨어뜨리는 등, 다중 시점 히스토리 처리와 병진 운동 시 매핑 부재가 주요 병목으로 지목됐습니다.
Zhejiang University 팀이 3D 환경에서 에이전트가 주어진 목표 이미지와 일치하도록 시점을 능동적으로 조정하는 TVR 태스크와 벤치마크 TVRBench를 제안했습니다.
핵심 결론
- 태스크 — TVR: 에이전트가 3D 환경에서 목표 이미지와 일치하는 시점을 찾기 위해 머리와 몸을 움직이는 능동적 과제.
- 벤치마크 — TVRBench: 실내 시뮬레이션 기반, 다양한 장면 규모와 목표 시점의 시각적 풍부함을 포함.
- 성능 — 최고 오픈소스 모델 7.8%, 폐쇄소스 모델 12.0% 성공률로 아직 해결되지 않은 문제.
방법
- 파이프라인 — 전문가 궤적 SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, on-policy Multi-turn GRPO를 포함한 통합 TVR 사후 학습 프레임워크 구축.
- 주요 발견 — Visual-action SFT가 가장 큰 성능 향상(9B 모델 50.8%), Multi-turn GRPO가 추가 개선(51.4%).
- 역효과 — CoT-SFT와 Single-turn GRPO는 오히려 폐루프 성능을 저하시킴.
한계·조건
- 병목 — 기존 모델은 다중 턴 시각적 히스토리 처리에 취약하며, 회전이 아닌 병진 운동 시 성능이 급락.
- 공개 — 코드, 데이터, 모델 모두 GitHub 공개 (https://github.com/aim-uofa/TVRBench).
- 환경 — 실내 시뮬레이션 기반으로 실제 환경과의 차이는 추가 검증 필요.
편집자 한 줄
시점 재현이라는 직관적인 과제를 정형화한 점이 흥미롭고, CoT가 오히려 독이 되는 결과는 embodied 태스크에서의 언어 추론 역할을 다시 생각하게 합니다.
- #tvr
- #embodied-ai
- #spatial-intelligence
- #zhejiang-university
- #benchmark
Zhejiang University