Papers·6일 전

SR-REAL: 강화학습으로 언어 추론과 3D 검출 경로를 통합한 공간 VLM

홍콩대 연구팀이 공간 VLM에 언어 전용 추론(LOR)과 3D 검출 후 추론(DTR)이라는 두 경로를 강화학습으로 통합한 SR-REAL을 제안했습니다. 단일 모델로 두 경로를 지원하며, DTR은 영역 인식 태스크에서 정밀한 3D 위치 추정으로, LOR은 일반 공간 추론에서 각각 우수한 성능을 보입니다. 벤치마크 전반에서 기존 공간 VLM 대비 유의미한 개선을 달성했으나, 콜드스타트 데이터의 품질과 혼합 비율이 안정적인 RL 최적화에 중요하다는 조건이 붙습니다.

공간 추론에서 언어적 추론과 3D 기반 추론을 강화학습으로 통합한 SR-REAL 프레임워크가 공개됐습니다.

핵심 결론

벤치 — 여러 공간 벤치마크에서 기존 spatial VLM 대비 일관된 성능 향상.
경로 — LOR(언어 추론)과 DTR(검출 후 추론)을 단일 RL 모델로 통합, 각각의 강점을 유지.
DTR은 region-aware 태스크에서 3D localization 정밀도로 우위, LOR은 일반 공간 추론에서 강점.

방법

Cold-start SFT — LOR과 DTR 각각에 맞는 chain-of-thought 데이터를 생성하고, region-to-3D 인터페이스를 노출.
RL 최적화 — 정확도와 형식 보상으로 정책을 학습, DTR에는 center 기반 detection 보상을 추가해 기하 정렬.
두 경로를 함께 학습하면 상호 보강 효과가 발생하며, 데이터 혼합 비율이 RL 안정성에 중요.

한계·조건

데이터 의존 — 고품질 혼합 cold-start 데이터가 없으면 RL 최적화가 불안정해집니다.
일반화 — 데이터셋·도메인 간 일반화는 확인됐으나, per-task 튜닝 없이도 가능한 수준입니다.
코드 — 현재 abstract만 공개, 코드 및 모델 공개 여부는 미정.

편집자 한 줄

두 추론 경로를 하나의 RL 파이프라인으로 통합한 설계가 인상적입니다. 다만 cold-start 데이터 구축 비용이 실용화의 관건이 될 듯합니다.

#spatial-vlm
#reinforcement-learning
#reasoning
#3d-detection
#hku

University of Hong Kong

원문 보기 →

SR-REAL: 강화학습으로 언어 추론과 3D 검출 경로를 통합한 공간 VLM

핵심 결론

방법

한계·조건

Comments