Papers·1개월 전

ByteDance Seed, TaskMem 공개 — 강화학습으로 멀티모달 에이전트의 장기 기억 정책 학습

ByteDance Seed 팀이 멀티모달 에이전트가 장기 기억을 선택적으로 저장하도록 RL 기반 프레임워크 TaskMem을 제안했습니다. Qwen3-VL-30B-A3B 기반으로 VideoMME, EgoLife, EgoTempo 스트리밍 벤치마크에서 VQA 정확도를 각각 6.3%, 7.0%, 5.3% 향상시켰습니다. 기억 정책을 태스크 보상으로 학습하는 2단계 훈련이 핵심이며, 배포 후 환경 태스크에 맞춰 adapter를 튜닝하는 점이 흥미롭네요. 단, 벤치마크가 원본 비디오 없이 기억만으로 질문에 답하는 설정이라 실제 환경과 괴리가 있을 수 있습니다.

ByteDance Seed가 멀티모달 에이전트의 장기 기억을 강화학습으로 최적화하는 TaskMem을 발표했습니다.

핵심 결론

벤치 — VideoMME, EgoLife, EgoTempo 스트리밍 버전에서 VQA 정확도 각각 6.3%, 7.0%, 5.3% 향상.
모델 — Qwen3-VL-30B-A3B 기반, 기억만으로 질문에 답하는 설정.

방법

2단계 훈련 — 1단계는 충실도 요건 하에 기억 품질 최적화, 2단계는 배포 후 환경 태스크로 보상 모델을 정의해 adapter 튜닝.
기억 생성을 학습 가능한 정책으로 프레임화한 점이 핵심입니다.

한계·조건

벤치 특성 — 원본 비디오 없이 기억만으로 답변하는 설정이라 실제 환경과 차이가 있을 수 있습니다.
코드 — 현재 abstract만 공개, 코드 및 데이터셋 공개 여부는 미정.

편집자 한 줄

기억 정책을 태스크 보상으로 학습하는 아이디어는 직관적이면서도 실용적입니다. 다만 배포 후 adapter 튜닝이 실제로 수렴하는지, compute cost는 얼마인지 후속 정보가 필요해 보입니다.

#multimodal
#memory
#reinforcement-learning
#bytedance
#embodied-agent

ByteDance Seed

원문 보기 →

ByteDance Seed, TaskMem 공개 — 강화학습으로 멀티모달 에이전트의 장기 기억 정책 학습

핵심 결론

방법

한계·조건

Comments