← Back to feed
Papers·어제

QGF: 테스트 타임에만 정책 최적화하는 RL — diffusion 정책, 훈련 안정성 유지

QGF: 테스트 타임에만 정책 최적화하는 RL — diffusion 정책, 훈련 안정성 유지

Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다. 사전 훈련된 reference flow 정책과 가치 함수 critic을 이용해, 테스트 시 가치 그래디언트로 정책을 유도하여 고가치 행동을 생성합니다. 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법을 능가하고, 훈련 타임 알고리즘과 경쟁할 만한 성능을 보이면서도 계산 비용이 훨씬 낮습니다. 다만 이 방법은 사전 훈련된 가치 함수의 정확도에 크게 의존하며, 고차원 연속 제어 태스크에 국한되어 검증되었습니다.

Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다.

핵심 결론

  • 성능QGF는 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법(Diffusion-QL 등)을 능가하고, 훈련 타임 알고리즘(IQL, CQL)과 경쟁할 만한 성능을 보였습니다.
  • 비용훈련 타임 알고리즘보다 계산 비용이 훨씬 낮아 실용적입니다.

방법

  • 구성reference flow 정책은 behavioral cloning으로 사전 훈련하고, 가치 함수 critic도 offline 데이터로 사전 훈련합니다.
  • 테스트테스트 시, 가치 함수의 그래디언트를 사용해 reference 정책의 denoising 과정을 guided sampling하여 고가치 행동을 생성합니다.
  • 추가 정책 학습 없이, 안정적인 supervised 훈련을 유지하면서 RL 최적화를 수행하는 점이 핵심입니다.

한계·조건

  • 의존성사전 훈련된 가치 함수의 정확도에 크게 의존하며, 가치 함수가 부정확할 경우 성능이 저하될 수 있습니다.
  • 범위고차원 연속 제어 태스크(예: D4RL, Meta-World)에서만 검증되었으며, 이산 행동 공간이나 이미지 기반 태스크로의 일반화는 확인되지 않았습니다.
  • 코드논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

테스트 타임 최적화 아이디어는 간결하지만, 가치 함수의 품질이 bottleneck이 될 수 있어 실제 적용 시 주의가 필요합니다.

  • #reinforcement-learning
  • #diffusion
  • #flow-matching
  • #offline-rl
  • #robot-control
Zhiyuan Zhou
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —