Papers·어제
QGF: 테스트 타임에만 정책 최적화하는 RL — diffusion 정책, 훈련 안정성 유지

Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다. 사전 훈련된 reference flow 정책과 가치 함수 critic을 이용해, 테스트 시 가치 그래디언트로 정책을 유도하여 고가치 행동을 생성합니다. 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법을 능가하고, 훈련 타임 알고리즘과 경쟁할 만한 성능을 보이면서도 계산 비용이 훨씬 낮습니다. 다만 이 방법은 사전 훈련된 가치 함수의 정확도에 크게 의존하며, 고차원 연속 제어 태스크에 국한되어 검증되었습니다.
Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다.
핵심 결론
- 성능 — QGF는 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법(Diffusion-QL 등)을 능가하고, 훈련 타임 알고리즘(IQL, CQL)과 경쟁할 만한 성능을 보였습니다.
- 비용 — 훈련 타임 알고리즘보다 계산 비용이 훨씬 낮아 실용적입니다.
방법
- 구성 — reference flow 정책은 behavioral cloning으로 사전 훈련하고, 가치 함수 critic도 offline 데이터로 사전 훈련합니다.
- 테스트 — 테스트 시, 가치 함수의 그래디언트를 사용해 reference 정책의 denoising 과정을 guided sampling하여 고가치 행동을 생성합니다.
- 추가 정책 학습 없이, 안정적인 supervised 훈련을 유지하면서 RL 최적화를 수행하는 점이 핵심입니다.
한계·조건
- 의존성 — 사전 훈련된 가치 함수의 정확도에 크게 의존하며, 가치 함수가 부정확할 경우 성능이 저하될 수 있습니다.
- 범위 — 고차원 연속 제어 태스크(예: D4RL, Meta-World)에서만 검증되었으며, 이산 행동 공간이나 이미지 기반 태스크로의 일반화는 확인되지 않았습니다.
- 코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
테스트 타임 최적화 아이디어는 간결하지만, 가치 함수의 품질이 bottleneck이 될 수 있어 실제 적용 시 주의가 필요합니다.
- #reinforcement-learning
- #diffusion
- #flow-matching
- #offline-rl
- #robot-control
Zhiyuan Zhou