Papers·1주 전
KAIST, 사전 학습된 flow policy 의 안정적 off-policy RL 미세 조정 — TRQAM, 50개 OGBench 태스크에서 68% 성공률

KAIST 팀이 사전 학습된 flow policy 를 off-policy RL 로 안정적으로 미세 조정하는 Trust Region Q-Adjoint Matching (TRQAM) 을 제안했습니다. 기존 QAM 은 critic 오차 증폭으로 모델 붕괴가 잦았는데, TRQAM 은 경로 공간 KL 을 λ 파라미터로 제어하는 projected dual descent 를 도입해 이 문제를 해결합니다. 50개 OGBench 태스크에서 offline RL 성공률 68% 로, 기존 최고 baseline (46%) 을 크게 앞질렀습니다.
KAIST 연구진이 사전 학습된 flow policy 를 off-policy RL 로 안정적으로 미세 조정하는 TRQAM 을 제안했습니다.
핵심 결론
- 성능 — 50개 OGBench 태스크에서 offline RL 성공률 68% 로, 기존 최고 baseline (46%) 을 22%p 상회합니다.
- 범위 — offline RL 과 offline-to-online RL 모두에서 일관되게 우수한 성능을 보였습니다.
방법
- 핵심 아이디어 — 경로 공간 KL 을 λ 파라미터로 제어하는 projected dual descent 를 SOC 동역학에 통합했습니다.
- 이론적으로 경로 공간 KL 이 λ 의 closed-form 함수로 표현됨을 증명하여, 사전 정책으로부터의 편차를 정밀하게 제어할 수 있습니다.
- 기존 QAM 의 critic 오차 증폭 문제를 trust-region 제약으로 완화한 셈입니다.
한계·조건
- 태스크 — OGBench 벤치마크에 국한된 평가이며, 더 다양한 도메인에서의 검증이 필요합니다.
- 코드 — 현재 논문에는 코드 공개 여부가 명시되지 않았습니다.
편집자 한 줄
flow matching 기반 policy 의 off-policy RL 이 실용화되려면 critic 안정성이 관건인데, TRQAM 은 그 방향에서 의미 있는 진전입니다.
- #off-policy-rl
- #flow-matching
- #trust-region
- #kaist
KAIST AI