Papers·2일 전
HABC: 온라인 RL로 VLA 정책 미세조정 시 이진 성공/실패 신호를 분해하는 계층적 어드밴티지 가중 행동 복제

Tongyan Fang 팀이 제안한 HABC는 VLA 정책의 온라인 RL 미세조정에서 단일 이진 성공/실패 신호를 생존성과 효율성이라는 두 목표로 분리하고, 상태 적응형 게이트로 균형을 맞춰 세 가지 접촉이 많은 양팔 작업에서 SFT 대비 성공률을 36→92%, 44→88%, 12→38%로 향상시켰습니다. 핵심은 각 목표에 대해 별도의 critic head를 학습하고, 사람의 개입 구간에서도 올바른 신호를 할당하는 개입 인식 크레딧 할당을 도입한 점입니다. 다만 실제 로봇 실험에서 3개 작업에 국한되었고, 학습에 필요한 온라인 롤아웃 비용이 상당할 것으로 보입니다.
온라인 RL로 사전학습된 VLA 정책을 미세조정할 때, 에피소드당 단일 이진 성공/실패 신호만으로는 전이 수준의 세밀한 피드백을 제공하기 어렵다는 문제를 해결한 연구입니다.
핵심 결론
- 성능 — 세 가지 접촉이 많은 양팔 작업(예: 나사 조이기, 상자 열기)에서 SFT 기준 성공률 36%, 44%, 12%를 각각 92%, 88%, 38%로 끌어올렸습니다.
- 비교 — 기존 단일 어드밴티지 방식이나 단순 행동 복제 대비 일관된 개선을 보였습니다.
방법
- 계층적 어드밴티지 — 생존성(viability)과 효율성(efficiency)이라는 두 목표에 대해 별도의 critic head를 학습하고, 상태 적응형 게이트 g_t로 두 어드밴티지를 혼합합니다.
- 개입 인식 할당 — 사람이 개입한 구간과 자율 구간을 분리하여, 에피소드 결과가 잘못 전파되지 않도록 합니다.
- 손실 가중 — 혼합된 어드밴티지를 행동 복제 손실에 가중치로 적용하여, 정책을 업데이트합니다.
한계·조건
- 작업 범위 — 세 가지 양팔 작업에만 검증되어, 다양한 로봇 작업으로의 일반화는 추가 실험이 필요합니다.
- 온라인 비용 — 온라인 RL 롤아웃을 위해 실제 로봇 데이터가 필요하므로, 학습 비용이 높을 수 있습니다.
- 코드 — 논문에는 코드 공개 여부가 명시되지 않았습니다.
편집자 한 줄
이진 신호를 두 축으로 분해하는 아이디어는 직관적이면서도 효과적입니다. 다만 작업 수가 적고, 복잡한 장기 과제에서도 통할지는 더 봐야겠네요.
- #vla
- #reinforcement-learning
- #robot-learning
- #huggingface
Tongyan Fang