← Back to feed
Papers·6일 전

BiDPO: 복합 프롬프트 T2I 생성을 위한 이중 선호도 최적화 — 속성·관계·개수 정확도 15%↑

BiDPO: 복합 프롬프트 T2I 생성을 위한 이중 선호도 최적화 — 속성·관계·개수 정확도 15%↑

Zhuohan Liu 팀이 복합적 텍스트 프롬프트(속성 바인딩, 객체 관계, 개수)를 정확히 반영하는 T2I 생성을 위한 BiDPO 프레임워크를 제안했습니다. 대규모 선호도 데이터셋 BiComp를 구축하고, Diffusion DPO를 확장해 이미지와 텍스트 선호도를 동시 최적화한 점이 핵심입니다. 여러 벤치마크에서 기존 방법 대비 일관된 개선을 보였으나, 데이터셋 규모와 품질 관리 비용이 상당하다는 한계가 있습니다.

복합 프롬프트에서 속성·관계·개수를 정확히 반영하는 T2I 생성을 위한 이중 선호도 최적화 프레임워크 BiDPO가 공개되었습니다.

핵심 결론

  • 태스크복합적 텍스트 프롬프트(속성 바인딩, 객체 관계, 개수)에 대한 T2I 생성 정확도 향상.
  • 성능T2I-CompBench 등 여러 벤치마크에서 기존 방법 대비 10~15% 포인트 개선.
  • 모델기존 SD 계열 모델에 적용 가능하며, 추가 학습 없이 파인튜닝만으로 동작.

방법

  • 데이터자동 파이프라인으로 구축한 대규모 선호도 데이터셋 BiComp — 엄격한 품질 관리 포함.
  • 최적화Diffusion DPO를 확장해 이미지와 텍스트 선호도를 공동 최적화하는 BiDPO 손실 함수.
  • 영역 가이드: 복합 개념과 관련된 영역에 집중하도록 region-level guidance를 추가해 미세 정렬을 강화.

한계·조건

  • 리소스BiComp 데이터셋 구축에 상당한 계산 및 수작업 품질 검증 비용이 듭니다.
  • 일반화벤치마크는 주로 정적인 프롬프트에 국한되어 동적·개방형 프롬프트에서의 성능은 추가 검증 필요.
  • 코드현재 코드 및 데이터셋은 공개 예정 — 논문 내 일부 예시만 확인 가능.

편집자 한 줄

선호도 기반 파인튜닝이 복합 프롬프트 문제에 효과적임을 잘 보여주지만, 데이터 구축 비용이 실용화의 걸림돌이 될 수 있겠네요.

  • #t2i
  • #diffusion
  • #preference-optimization
  • #compositional-generation
  • #bidpo
Zhuohan Liu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —