Papers·1주 전

FlowBP: 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 통합 서로게이트 궤적 프레임워크

Tencent 연구팀이 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 통합 서로게이트 궤적 프레임워크 FlowBP를 제안했습니다. 직접 보상 역전파 방식의 메모리 및 그래디언트 폭주 문제를 해결하기 위해, 역전파 궤적 자체를 설계 대상으로 삼아 세 가지 변형(FlowBP-Sparse, FlowBP-Bridge, FlowBP-Lagrange)을 구현했습니다. SD3.5-M, FLUX.1-dev, FLUX.2-Klein-base 모델에서 선호도, 품질, 구성적 메트릭 대부분에서 직접 그래디언트 기준선을 능가했습니다.

Tencent 연구팀이 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 FlowBP 프레임워크를 공개했습니다.

핵심 결론

벤치 — SD3.5-M, FLUX.1-dev, FLUX.2-Klein-base에서 선호도, 품질, 구성적 메트릭 대부분에서 직접 그래디언트 기준선을 능가.
효율 — 메모리 사용을 active-set 크기로 제한하고, 그래디언트 체이닝을 최대 1 Jacobian factor로 제한합니다.

방법

서로게이트 궤적 — 역전파 궤적 자체를 설계 대상으로 삼아, 캐시된 rollout과 선택적 재전파 속도를 이용해 경량 backward surrogate를 구축합니다.
네 가지 선택 — 보상 모델 입력, active set, 통합 가중치, 브리지 커플링을 분리하여 기존 직접 그래디언트 방법을 특수 사례로 포함합니다.
세 가지 변형 — FlowBP-Sparse(희소 Euler 재구성), FlowBP-Bridge(제어된 브리지 커플링), FlowBP-Lagrange(고차 leap quadrature)를 구현했습니다.

한계·조건

범위 — 텍스트-이미지 플로우 매칭 모델에 특화되어 있으며, 다른 생성 모델로의 일반화는 추가 검증이 필요합니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

서로게이트 궤적을 설계 대상으로 삼는 관점이 깔끔하고, 세 가지 변형이 각각 다른 trade-off를 제공하는 점이 흥미롭네요.

#flow-matching
#human-preferences
#reward-backpropagation
#tencent
#text-to-image

Tencent

원문 보기 →

FlowBP: 텍스트-이미지 플로우 매칭 모델의 인간 선호 정렬을 위한 통합 서로게이트 궤적 프레임워크

핵심 결론

방법

한계·조건

Comments