Papers·어제
FlowR2A: 보상 조건부 생성 모델로 주행 계획의 점수 기반·앵커 기반 패러다임 통합 — NAVSIM v1/v2 SOTA

FlowR2A는 점수 기반 방법의 밀집 보상과 앵커 기반 방법의 동적 제안 생성을 통합한 생성 모델로, NAVSIM v1 및 v2 벤치마크에서 최고 성능을 달성했습니다. 핵심은 시뮬레이션 보상을 판별적 조건이 아닌 생성적 조건으로 재구성하고, flow-matching 디코더로 궤적-보상 쌍의 분포를 학습하는 점입니다. 단, 벤치마크 특화 결과이며 실제 주행 환경에서의 일반화는 추가 검증이 필요합니다.
FlowR2A는 점수 기반과 앵커 기반 주행 계획의 간극을 보상 조건부 생성 모델로 메운 연구입니다.
핵심 결론
- 벤치마크 — NAVSIM v1 및 v2에서 SOTA 달성, 다중 모달 제안의 품질이 기존 대비 크게 향상.
- 태스크 — 멀티모달 주행 계획 — 안전, 진행, 승차감, 규칙 준수를 동시에 최적화.
방법
- 보상 조건부 생성 — 시뮬레이션 보상을 판별적 타깃에서 생성적 조건으로 바꿔, flow-matching 디코더가 밀집 궤적-보상 쌍의 분포를 학습.
- 세밀한 조건화 — 타임스텝별 보상 조건화와 보상 노이즈 증강으로 안전 제약과 진행 목표를 균형.
- 테스트타임 샘플링 — 보상 가이드 및 앵커 샘플링으로 제어 가능한 고품질 제안 생성.
한계·조건
- 벤치 특화 — NAVSIM 벤치마크 기반 결과로, 실제 주행 환경에서의 일반화는 추가 검증 필요.
- 코드 공개 — 현재 논문 및 Hugging Face 페이지 공개, 코드는 추후 공개 예정.
편집자 한 줄
보상 조건부 생성으로 두 패러다임을 통합한 설계는 깔끔하지만, 실제 차량에 적용되려면 실시간성과 안전 보장이 추가로 확인되어야 할 만합니다.
- #driving-planning
- #flow-matching
- #navsim
- #multimodal
- #generative-model
Xirui Li