Papers·3일 전
ByteDance Seed, TaskMem 공개 — 강화학습으로 멀티모달 에이전트의 장기 기억 정책 학습

ByteDance Seed 팀이 멀티모달 에이전트가 장기 기억을 선택적으로 저장하도록 RL 기반 프레임워크 TaskMem을 제안했습니다. Qwen3-VL-30B-A3B 기반으로 VideoMME, EgoLife, EgoTempo 스트리밍 벤치마크에서 VQA 정확도를 각각 6.3%, 7.0%, 5.3% 향상시켰습니다. 기억 정책을 태스크 보상으로 학습하는 2단계 훈련이 핵심이며, 배포 후 환경 태스크에 맞춰 adapter를 튜닝하는 점이 흥미롭네요. 단, 벤치마크가 원본 비디오 없이 기억만으로 질문에 답하는 설정이라 실제 환경과 괴리가 있을 수 있습니다.
ByteDance Seed가 멀티모달 에이전트의 장기 기억을 강화학습으로 최적화하는 TaskMem을 발표했습니다.
핵심 결론
- 벤치 — VideoMME, EgoLife, EgoTempo 스트리밍 버전에서 VQA 정확도 각각 6.3%, 7.0%, 5.3% 향상.
- 모델 — Qwen3-VL-30B-A3B 기반, 기억만으로 질문에 답하는 설정.
방법
- 2단계 훈련 — 1단계는 충실도 요건 하에 기억 품질 최적화, 2단계는 배포 후 환경 태스크로 보상 모델을 정의해 adapter 튜닝.
- 기억 생성을 학습 가능한 정책으로 프레임화한 점이 핵심입니다.
한계·조건
- 벤치 특성 — 원본 비디오 없이 기억만으로 답변하는 설정이라 실제 환경과 차이가 있을 수 있습니다.
- 코드 — 현재 abstract만 공개, 코드 및 데이터셋 공개 여부는 미정.
편집자 한 줄
기억 정책을 태스크 보상으로 학습하는 아이디어는 직관적이면서도 실용적입니다. 다만 배포 후 adapter 튜닝이 실제로 수렴하는지, compute cost는 얼마인지 후속 정보가 필요해 보입니다.
- #multimodal
- #memory
- #reinforcement-learning
- #bytedance
- #embodied-agent
ByteDance Seed