← Back to feed
Papers·2일 전

TRON: 온라인 환경 기반 시각 추론 RL — 520개 환경, 10개 벤치마크 일관 개선

TRON: 온라인 환경 기반 시각 추론 RL — 520개 환경, 10개 벤치마크 일관 개선

University of Georgia 팀이 시각 추론 RL을 위한 온라인 환경 substrate TRON을 공개했습니다. 기존 정적 데이터셋 대신, generator-verifier 프로그램이 무한히 새로운 인스턴스를 생성하며 난이도를 조절합니다. 520개 환경(공간·수학·도형·패턴·셈)에서 Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT를 RL post-training한 결과, 10개 외부 멀티모달 추론 벤치마크에서 일관된 성능 향상을 보였습니다. 단, 환경 생성의 신뢰성과 난이도 분포 분석이 함께 제공되며, 코드는 공개 예정입니다.

University of Georgia 팀이 시각 추론 RL을 위한 온라인 환경 substrate TRON을 공개했습니다.

핵심 결론

  • 벤치마크Qwen3-VL-4B, Qwen2.5-VL-7B, MiMo-VL-7B-SFT에 RL post-training 적용 결과, 10개 외부 멀티모달 추론 벤치마크에서 일관된 성능 향상.
  • 환경 규모520개 환경, 5개 능력 버킷(공간·수학·도형·패턴/논리·셈) 구성.

방법

  • 온라인 생성고정 데이터셋 대신 generator-verifier 프로그램이 latent visual state를 샘플링해 이미지·질문·정답을 실시간 생성.
  • 커리큘럼현재 모델 수준에 맞춰 난이도를 조절하는 커리큘럼 지원.
  • 전문가 모델전체 버킷 학습 단일 모델과 버킷별 전문가 모델 모두 지원.

한계·조건

  • 분석생성 신뢰성, 인스턴스·레벨 다양성, 교차 환경 근접 중복, 난이도별 base-model pass rate 분석 포함.
  • 코드코드 공개 예정 — 현재는 논문과 환경 설명만 공개.
  • 규모520개 환경이지만 특정 도메인(예: OCR, 차트)은 미포함.

편집자 한 줄

온라인 환경 생성이라는 아이디어 자체는 새롭지 않지만, 시각 추론에 특화된 520개 환경을 체계적으로 구성하고 커리큘럼을 붙인 점이 실용적으로 보입니다.

  • #reinforcement-learning
  • #visual-reasoning
  • #online-environment
  • #university-of-georgia
University of Georgia
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —