Papers·2일 전
Embodied-R1.5: 8B 파라미터로 16개 벤치마크 SOTA 달성한 통합 임베디드 파운데이션 모델

Embodied-R1.5는 8B 파라미터로 24개 임베디드 VLM 벤치마크 중 16개에서 SOTA를 달성한 통합 임베디드 파운데이션 모델입니다. Planner-Grounder-Corrector 폐쇄 루프 프레임워크를 통해 단일 모델이 장기 태스크를 자율적으로 실행 및 수정할 수 있으며, Gemini-Robotics-ER-1.5 및 GPT-5.4를 능가합니다. 15B 토큰 규모의 데이터 시스템과 다중 태스크 균형 RL 레시피를 사용해 이종 태스크 간 충돌을 완화한 점이 핵심입니다. 단, 8B 모델 기준이며 더 큰 스케일에서의 성능은 보고되지 않았습니다.
Yifu Yuan 팀이 8B 파라미터로 16개 임베디드 VLM 벤치마크에서 SOTA를 달성한 통합 임베디드 파운데이션 모델 Embodied-R1.5를 공개했습니다.
핵심 결론
- 벤치마크 — 24개 임베디드 VLM 벤치마크 중 16개에서 SOTA, Gemini-Robotics-ER-1.5 및 GPT-5.4를 능가.
- VLA 성능 — 소량의 데이터로 VLA로 파인튜닝 가능, π_{0.5} 등 주요 VLA 모델을 4개 조작 벤치마크에서 능가.
- 실제 로봇 — 제로샷 실제 로봇 실험에서 명령 추종, 어포던스 그라운딩, 관절 물체 조작, 장기 복합 태스크에서 강력한 일반화 검증.
방법
- 데이터 파이프라인 — 3가지 자동 데이터 구축 파이프라인을 통해 임베디드 인지, 태스크 계획, 수정, 포인팅 등 핵심 능력의 데이터 커버리지를 확장, 15B 토큰 규모의 데이터 시스템 구축.
- 학습 레시피 — 다중 태스크 균형 RL 레시피를 설계해 이종 태스크 간 충돌을 완화.
- PGC 프레임워크 — Planner-Grounder-Corrector 폐쇄 루프 프레임워크를 통해 단일 모델이 장기 태스크를 자율적으로 실행 및 수정 가능.
한계·조건
- 모델 크기 — 8B 파라미터 기준이며, 더 큰 스케일에서의 성능은 보고되지 않음.
- 오픈소스 — 모델 가중치, 데이터셋, 학습 코드, EmbodiedEvalKit 평가 프레임워크를 모두 오픈소스로 공개.
편집자 한 줄
임베디드 AI 분야에서 통합 모델의 가능성을 보여주는 좋은 사례입니다. 다중 태스크 균형 RL 레시피가 실제로 얼마나 일반화될지는 후속 연구를 지켜봐야 할 것 같습니다.
- #embodied-ai
- #vlm
- #reinforcement-learning
- #robotics
- #open-source
Yifu Yuan