Papers·1개월 전

QGF: 테스트 타임에만 정책 최적화하는 RL — diffusion 정책, 훈련 안정성 유지

Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다. 사전 훈련된 reference flow 정책과 가치 함수 critic을 이용해, 테스트 시 가치 그래디언트로 정책을 유도하여 고가치 행동을 생성합니다. 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법을 능가하고, 훈련 타임 알고리즘과 경쟁할 만한 성능을 보이면서도 계산 비용이 훨씬 낮습니다. 다만 이 방법은 사전 훈련된 가치 함수의 정확도에 크게 의존하며, 고차원 연속 제어 태스크에 국한되어 검증되었습니다.

Zhiyuan Zhou 연구팀이 diffusion·flow 기반 정책을 RL에 통합할 때 발생하는 훈련 불안정성을 피하기 위해, 테스트 타임에서만 정책 최적화를 수행하는 QGF(Q-Guided Flow)를 제안했습니다.

핵심 결론

성능 — QGF는 단일 태스크 및 목표 조건부 offline RL 벤치마크에서 기존 테스트 타임 RL 방법(Diffusion-QL 등)을 능가하고, 훈련 타임 알고리즘(IQL, CQL)과 경쟁할 만한 성능을 보였습니다.
비용 — 훈련 타임 알고리즘보다 계산 비용이 훨씬 낮아 실용적입니다.

방법

구성 — reference flow 정책은 behavioral cloning으로 사전 훈련하고, 가치 함수 critic도 offline 데이터로 사전 훈련합니다.
테스트 — 테스트 시, 가치 함수의 그래디언트를 사용해 reference 정책의 denoising 과정을 guided sampling하여 고가치 행동을 생성합니다.
추가 정책 학습 없이, 안정적인 supervised 훈련을 유지하면서 RL 최적화를 수행하는 점이 핵심입니다.

한계·조건

의존성 — 사전 훈련된 가치 함수의 정확도에 크게 의존하며, 가치 함수가 부정확할 경우 성능이 저하될 수 있습니다.
범위 — 고차원 연속 제어 태스크(예: D4RL, Meta-World)에서만 검증되었으며, 이산 행동 공간이나 이미지 기반 태스크로의 일반화는 확인되지 않았습니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

테스트 타임 최적화 아이디어는 간결하지만, 가치 함수의 품질이 bottleneck이 될 수 있어 실제 적용 시 주의가 필요합니다.

#reinforcement-learning
#diffusion
#flow-matching
#offline-rl
#robot-control

Zhiyuan Zhou

원문 보기 →

QGF: 테스트 타임에만 정책 최적화하는 RL — diffusion 정책, 훈련 안정성 유지

핵심 결론

방법

한계·조건

Comments