Papers·2일 전
Discriminator-Guided RL — 매칭 손실의 구조적 한계를 우회하는 확산 모델 정렬

Meta AI 팀이 확산·흐름 매칭 모델의 구조적 한계를 지적하며, 사전학습 표현 공간에서 판별기 로짓을 보상으로 사용하는 Discriminator-Guided RL (DRL)을 제안했습니다. SiT에서 guidance-free FID를 9.38에서 2.62로, DINOv3 FD를 88.2에서 19.3으로 개선했으며, 인간 선호 보상도 추가 학습 없이 향상시켰습니다. 단, 판별기와 사전학습 모델에 의존하므로 해당 표현 공간의 편향이 결과에 영향을 줄 수 있다는 한계가 있습니다.
매칭 손실은 샘플 품질과 괴리가 있는데, RL이 이를 우회한다는 통찰에서 출발해 판별기 보상으로 데이터 분포를 직접 타겟팅합니다.
핵심 결론
- 태스크 — 확산·흐름 매칭 모델의 guidance-free 샘플링 품질 개선.
- 수치 — SiT: FID 9.38→2.62, DINOv3 FD 88.2→19.3. 모든 백본(SiT, JiT, REPA, RAE)에서 일관된 향상.
- 부가 효과 — 인간 선호 보상도 추가 학습 없이 개선되며, 후속 선호 기반 정렬 시 fidelity와 alignment의 Pareto frontier도 향상.
방법
- 핵심 아이디어 — 사전학습 표현 공간(예: DINOv2)에서 데이터와 모델 샘플을 구분하는 판별기를 학습하고, 그 로짓을 KL-정규화 RL의 보상으로 사용.
- 직관 — 판별기 로짓은 데이터와 모델 분포 간 로그-우도비 추정치로, 데이터 분포를 타겟으로 하는 최적 보상 역할을 합니다.
- 사전학습 공간 — 저차원 의미 공간으로 제한해 판별기가 지각적으로 의미 있는 방향에 집중하도록 유도.
한계·조건
- 의존성 — 사전학습 표현 공간의 품질에 성능이 민감하며, 해당 공간의 편향이 결과에 반영될 수 있습니다.
- 계산량 — 판별기 학습과 RL 파인튜닝이 추가로 필요하나, 논문에서는 기존 방법 대비 큰 오버헤드는 없다고 주장.
- 코드 — Hugging Face Papers 링크로 공개되었으나, 저장소는 아직 비공개 상태.
편집자 한 줄
매칭 손실의 근본적 한계를 짚고 RL로 우회한 점이 깔끔합니다. 다만 판별기 보상이 인간 선호와 항상 일치하지는 않을 수 있어, 실제 서비스 적용 시 추가 검증이 필요해 보입니다.
- #diffusion
- #flow-matching
- #rl
- #alignment
- #meta
AI at Meta