Papers·1개월 전

Zhejiang大, 능동적 시점 재현 태스크 TVRBench 제안 — 9B 모델 SFT로 50.8% 성공률

Zhejiang University 팀이 Target Viewpoint Reproduction (TVR)이라는 능동적 과제를 정의하고, 실내 시뮬레이션 벤치마크 TVRBench를 공개했습니다. 최고 오픈소스·폐쇄소스 모델이 각각 7.8%, 12.0% 성공률에 그친 가운데, visual-action SFT가 9B 모델을 50.8%까지 끌어올렸고 Multi-turn GRPO가 51.4%로 추가 개선했습니다. 단, CoT-SFT와 Single-turn GRPO는 오히려 성능을 떨어뜨리는 등, 다중 시점 히스토리 처리와 병진 운동 시 매핑 부재가 주요 병목으로 지목됐습니다.

Zhejiang University 팀이 3D 환경에서 에이전트가 주어진 목표 이미지와 일치하도록 시점을 능동적으로 조정하는 TVR 태스크와 벤치마크 TVRBench를 제안했습니다.

핵심 결론

태스크 — TVR: 에이전트가 3D 환경에서 목표 이미지와 일치하는 시점을 찾기 위해 머리와 몸을 움직이는 능동적 과제.
벤치마크 — TVRBench: 실내 시뮬레이션 기반, 다양한 장면 규모와 목표 시점의 시각적 풍부함을 포함.
성능 — 최고 오픈소스 모델 7.8%, 폐쇄소스 모델 12.0% 성공률로 아직 해결되지 않은 문제.

방법

파이프라인 — 전문가 궤적 SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, on-policy Multi-turn GRPO를 포함한 통합 TVR 사후 학습 프레임워크 구축.
주요 발견 — Visual-action SFT가 가장 큰 성능 향상(9B 모델 50.8%), Multi-turn GRPO가 추가 개선(51.4%).
역효과 — CoT-SFT와 Single-turn GRPO는 오히려 폐루프 성능을 저하시킴.

한계·조건

병목 — 기존 모델은 다중 턴 시각적 히스토리 처리에 취약하며, 회전이 아닌 병진 운동 시 성능이 급락.
공개 — 코드, 데이터, 모델 모두 GitHub 공개 (https://github.com/aim-uofa/TVRBench).
환경 — 실내 시뮬레이션 기반으로 실제 환경과의 차이는 추가 검증 필요.

편집자 한 줄

시점 재현이라는 직관적인 과제를 정형화한 점이 흥미롭고, CoT가 오히려 독이 되는 결과는 embodied 태스크에서의 언어 추론 역할을 다시 생각하게 합니다.

#tvr
#embodied-ai
#spatial-intelligence
#zhejiang-university
#benchmark

Zhejiang University

원문 보기 →

Zhejiang大, 능동적 시점 재현 태스크 TVRBench 제안 — 9B 모델 SFT로 50.8% 성공률

핵심 결론

방법

한계·조건

Comments