Papers·1주 전
FlowBP: 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 통합 서로게이트 궤적 프레임워크

Tencent 연구팀이 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 통합 서로게이트 궤적 프레임워크 FlowBP를 제안했습니다. 직접 보상 역전파 방식의 메모리 및 그래디언트 폭주 문제를 해결하기 위해, 역전파 궤적 자체를 설계 대상으로 삼아 세 가지 변형(FlowBP-Sparse, FlowBP-Bridge, FlowBP-Lagrange)을 구현했습니다. SD3.5-M, FLUX.1-dev, FLUX.2-Klein-base 모델에서 선호도, 품질, 구성적 메트릭 대부분에서 직접 그래디언트 기준선을 능가했습니다.
Tencent 연구팀이 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 FlowBP 프레임워크를 공개했습니다.
핵심 결론
- 벤치 — SD3.5-M, FLUX.1-dev, FLUX.2-Klein-base에서 선호도, 품질, 구성적 메트릭 대부분에서 직접 그래디언트 기준선을 능가.
- 효율 — 메모리 사용을 active-set 크기로 제한하고, 그래디언트 체이닝을 최대 1 Jacobian factor로 제한합니다.
방법
- 서로게이트 궤적 — 역전파 궤적 자체를 설계 대상으로 삼아, 캐시된 rollout과 선택적 재전파 속도를 이용해 경량 backward surrogate를 구축합니다.
- 네 가지 선택 — 보상 모델 입력, active set, 통합 가중치, 브리지 커플링을 분리하여 기존 직접 그래디언트 방법을 특수 사례로 포함합니다.
- 세 가지 변형 — FlowBP-Sparse(희소 Euler 재구성), FlowBP-Bridge(제어된 브리지 커플링), FlowBP-Lagrange(고차 leap quadrature)를 구현했습니다.
한계·조건
- 범위 — 텍스트-이미지 플로우 매칭 모델에 특화되어 있으며, 다른 생성 모델로의 일반화는 추가 검증이 필요합니다.
- 코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
서로게이트 궤적을 설계 대상으로 삼는 관점이 깔끔하고, 세 가지 변형이 각각 다른 trade-off를 제공하는 점이 흥미롭네요.
- #flow-matching
- #human-preferences
- #reward-backpropagation
- #tencent
- #text-to-image
Tencent