Papers·2일 전
RLDX-1: 다중 모달 통합 아키텍처로 복잡한 조작 태스크에서 π₀.5 대비 2배 이상 성능

RLDX-1은 Multi-Stream Action Transformer(MSAT) 아키텍처를 기반으로 시각-언어-행동 모델(VLA)의 한계를 극복한 범용 로봇 정책입니다. MSAT는 모달리티별 스트림과 교차 모달 self-attention을 통해 동작 인식, 메모리 기반 의사결정, 물리적 감지 등 다양한 기능을 통합합니다. ALLEX 휴머노이드 태스크에서 86.8% 성공률을 기록하며 π₀.5와 GR00T N1.6의 약 40%를 크게 앞질렀지만, 희소 조작 시나리오의 합성 데이터와 실시간 추론 최적화 등 시스템 수준의 설계가 함께 기여한 점을 고려해야 합니다.
- #vla
- #dexterous-manipulation
- #humanoid
- #multi-modal
- #robotics
RLWRLD