← Back to feed
Papers·1주 전

LMMs-Lab, 다중 에이전트 RL로 비디오 툴 호출 병렬화 — 6개 벤치마크 평균 +7.9%

LMMs-Lab, 다중 에이전트 RL로 비디오 툴 호출 병렬화 — 6개 벤치마크 평균 +7.9%

LMMs-Lab 팀이 긴 비디오 이해를 위해 여러 시간 윈도우 크롭을 단일 턴에 병렬 호출하는 다중 에이전트 RL 프레임워크 ParaVT를 제안했습니다. 기존 순차적 툴 호출의 오류 전파와 컨텍스트 오염 문제를 해결했으며, 툴 프라이어 역설(Tool Prior Paradox)을 해결하기 위해 구조적 토큰 위치에 집중된 형식 보상과 프레임 버짓 랜덤화를 도입한 PARA-GRPO를 함께 공개했습니다. Qwen3-VL 대비 6개 벤치마크 평균 +7.9% 향상, 형식 준수율은 0.13에서 0.64로 개선되었으며 코드와 데이터, 모델 가중치가 공개되었습니다.

  • #multimodal
  • #reinforcement-learning
  • #video-understanding
  • #tool-calling
  • #lmms-lab
LMMs-Lab

Comments

— 첫 댓글을 남겨보세요 —