Papers·1개월 전

LMMs-Lab, 다중 에이전트 RL로 비디오 툴 호출 병렬화 — 6개 벤치마크 평균 +7.9%

LMMs-Lab 팀이 긴 비디오 이해를 위해 여러 시간 윈도우 크롭을 단일 턴에 병렬 호출하는 다중 에이전트 RL 프레임워크 ParaVT를 제안했습니다. 기존 순차적 툴 호출의 오류 전파와 컨텍스트 오염 문제를 해결했으며, 툴 프라이어 역설(Tool Prior Paradox)을 해결하기 위해 구조적 토큰 위치에 집중된 형식 보상과 프레임 버짓 랜덤화를 도입한 PARA-GRPO를 함께 공개했습니다. Qwen3-VL 대비 6개 벤치마크 평균 +7.9% 향상, 형식 준수율은 0.13에서 0.64로 개선되었으며 코드와 데이터, 모델 가중치가 공개되었습니다.

#multimodal
#reinforcement-learning
#video-understanding
#tool-calling
#lmms-lab

LMMs-Lab

원문 보기 →

LMMs-Lab, 다중 에이전트 RL로 비디오 툴 호출 병렬화 — 6개 벤치마크 평균 +7.9%

Comments