Papers·1개월 전

Embodied-R1.5: 8B 파라미터로 16개 벤치마크 SOTA 달성한 통합 임베디드 파운데이션 모델

Embodied-R1.5는 8B 파라미터로 24개 임베디드 VLM 벤치마크 중 16개에서 SOTA를 달성한 통합 임베디드 파운데이션 모델입니다. Planner-Grounder-Corrector 폐쇄 루프 프레임워크를 통해 단일 모델이 장기 태스크를 자율적으로 실행 및 수정할 수 있으며, Gemini-Robotics-ER-1.5 및 GPT-5.4를 능가합니다. 15B 토큰 규모의 데이터 시스템과 다중 태스크 균형 RL 레시피를 사용해 이종 태스크 간 충돌을 완화한 점이 핵심입니다. 단, 8B 모델 기준이며 더 큰 스케일에서의 성능은 보고되지 않았습니다.

Yifu Yuan 팀이 8B 파라미터로 16개 임베디드 VLM 벤치마크에서 SOTA를 달성한 통합 임베디드 파운데이션 모델 Embodied-R1.5를 공개했습니다.

핵심 결론

벤치마크 — 24개 임베디드 VLM 벤치마크 중 16개에서 SOTA, Gemini-Robotics-ER-1.5 및 GPT-5.4를 능가.
VLA 성능 — 소량의 데이터로 VLA로 파인튜닝 가능, π_{0.5} 등 주요 VLA 모델을 4개 조작 벤치마크에서 능가.
실제 로봇 — 제로샷 실제 로봇 실험에서 명령 추종, 어포던스 그라운딩, 관절 물체 조작, 장기 복합 태스크에서 강력한 일반화 검증.

방법

데이터 파이프라인 — 3가지 자동 데이터 구축 파이프라인을 통해 임베디드 인지, 태스크 계획, 수정, 포인팅 등 핵심 능력의 데이터 커버리지를 확장, 15B 토큰 규모의 데이터 시스템 구축.
학습 레시피 — 다중 태스크 균형 RL 레시피를 설계해 이종 태스크 간 충돌을 완화.
PGC 프레임워크 — Planner-Grounder-Corrector 폐쇄 루프 프레임워크를 통해 단일 모델이 장기 태스크를 자율적으로 실행 및 수정 가능.

한계·조건

모델 크기 — 8B 파라미터 기준이며, 더 큰 스케일에서의 성능은 보고되지 않음.
오픈소스 — 모델 가중치, 데이터셋, 학습 코드, EmbodiedEvalKit 평가 프레임워크를 모두 오픈소스로 공개.

편집자 한 줄

임베디드 AI 분야에서 통합 모델의 가능성을 보여주는 좋은 사례입니다. 다중 태스크 균형 RL 레시피가 실제로 얼마나 일반화될지는 후속 연구를 지켜봐야 할 것 같습니다.

#embodied-ai
#vlm
#reinforcement-learning
#robotics
#open-source

Yifu Yuan

원문 보기 →

Embodied-R1.5: 8B 파라미터로 16개 벤치마크 SOTA 달성한 통합 임베디드 파운데이션 모델

핵심 결론

방법

한계·조건

Comments