Papers·1개월 전

TRON: 온라인 환경 기반 시각 추론 RL — 520개 환경, 10개 벤치마크 일관 개선

University of Georgia 팀이 시각 추론 RL을 위한 온라인 환경 substrate TRON을 공개했습니다. 기존 정적 데이터셋 대신, generator-verifier 프로그램이 무한히 새로운 인스턴스를 생성하며 난이도를 조절합니다. 520개 환경(공간·수학·도형·패턴·셈)에서 Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT를 RL post-training한 결과, 10개 외부 멀티모달 추론 벤치마크에서 일관된 성능 향상을 보였습니다. 단, 환경 생성의 신뢰성과 난이도 분포 분석이 함께 제공되며, 코드는 공개 예정입니다.

University of Georgia 팀이 시각 추론 RL을 위한 온라인 환경 substrate TRON을 공개했습니다.

핵심 결론

벤치마크 — Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT에 RL post-training 적용 결과, 10개 외부 멀티모달 추론 벤치마크에서 일관된 성능 향상.
환경 규모 — 520개 환경, 5개 능력 버킷(공간·수학·도형·패턴/논리·셈) 구성.

방법

온라인 생성 — 고정 데이터셋 대신 generator-verifier 프로그램이 latent visual state를 샘플링해 이미지·질문·정답을 실시간 생성.
커리큘럼 — 현재 모델 수준에 맞춰 난이도를 조절하는 커리큘럼 지원.
전문가 모델 — 전체 버킷 학습 단일 모델과 버킷별 전문가 모델 모두 지원.

한계·조건

분석 — 생성 신뢰성, 인스턴스·레벨 다양성, 교차 환경 근접 중복, 난이도별 base-model pass rate 분석 포함.
코드 — 코드 공개 예정 — 현재는 논문과 환경 설명만 공개.
규모 — 520개 환경이지만 특정 도메인(예: OCR, 차트)은 미포함.

편집자 한 줄

온라인 환경 생성이라는 아이디어 자체는 새롭지 않지만, 시각 추론에 특화된 520개 환경을 체계적으로 구성하고 커리큘럼을 붙인 점이 실용적으로 보입니다.

#reinforcement-learning
#visual-reasoning
#online-environment
#university-of-georgia

University of Georgia

원문 보기 →

TRON: 온라인 환경 기반 시각 추론 RL — 520개 환경, 10개 벤치마크 일관 개선

핵심 결론

방법

한계·조건

Comments