← Back to feed
Papers·2일 전

Zhejiang大, 능동적 시점 재현 태스크 TVRBench 제안 — 9B 모델 SFT로 50.8% 성공률

Zhejiang大, 능동적 시점 재현 태스크 TVRBench 제안 — 9B 모델 SFT로 50.8% 성공률

Zhejiang University 팀이 Target Viewpoint Reproduction (TVR)이라는 능동적 과제를 정의하고, 실내 시뮬레이션 벤치마크 TVRBench를 공개했습니다. 최고 오픈소스·폐쇄소스 모델이 각각 7.8%, 12.0% 성공률에 그친 가운데, visual-action SFT가 9B 모델을 50.8%까지 끌어올렸고 Multi-turn GRPO가 51.4%로 추가 개선했습니다. 단, CoT-SFT와 Single-turn GRPO는 오히려 성능을 떨어뜨리는 등, 다중 시점 히스토리 처리와 병진 운동 시 매핑 부재가 주요 병목으로 지목됐습니다.

Zhejiang University 팀이 3D 환경에서 에이전트가 주어진 목표 이미지와 일치하도록 시점을 능동적으로 조정하는 TVR 태스크와 벤치마크 TVRBench를 제안했습니다.

핵심 결론

  • 태스크TVR: 에이전트가 3D 환경에서 목표 이미지와 일치하는 시점을 찾기 위해 머리와 몸을 움직이는 능동적 과제.
  • 벤치마크TVRBench: 실내 시뮬레이션 기반, 다양한 장면 규모와 목표 시점의 시각적 풍부함을 포함.
  • 성능최고 오픈소스 모델 7.8%, 폐쇄소스 모델 12.0% 성공률로 아직 해결되지 않은 문제.

방법

  • 파이프라인전문가 궤적 SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, on-policy Multi-turn GRPO를 포함한 통합 TVR 사후 학습 프레임워크 구축.
  • 주요 발견Visual-action SFT가 가장 큰 성능 향상(9B 모델 50.8%), Multi-turn GRPO가 추가 개선(51.4%).
  • 역효과CoT-SFT와 Single-turn GRPO는 오히려 폐루프 성능을 저하시킴.

한계·조건

  • 병목기존 모델은 다중 턴 시각적 히스토리 처리에 취약하며, 회전이 아닌 병진 운동 시 성능이 급락.
  • 공개코드, 데이터, 모델 모두 GitHub 공개 (https://github.com/aim-uofa/TVRBench).
  • 환경실내 시뮬레이션 기반으로 실제 환경과의 차이는 추가 검증 필요.

편집자 한 줄

시점 재현이라는 직관적인 과제를 정형화한 점이 흥미롭고, CoT가 오히려 독이 되는 결과는 embodied 태스크에서의 언어 추론 역할을 다시 생각하게 합니다.

  • #tvr
  • #embodied-ai
  • #spatial-intelligence
  • #zhejiang-university
  • #benchmark
Zhejiang University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —