Papers·3개월 전

ByteDance Seed, 이미지 편집용 추론 보상 모델 Edit-R1 공개 — FLUX.1-kontext 성능 향상

ByteDance Seed 팀이 이미지 편집 태스크를 위한 추론 기반 보상 모델 Edit-R1을 제안했습니다. 기존 편집 보상 모델이 전반적 점수만 제공하는 한계를 넘어, Edit-RRM이 명령어를 여러 원칙으로 분해하고 각각을 평가해 해석 가능한 세밀한 보상을 생성합니다. SFT로 CoT 보상 궤적을 생성한 후 GCPO 알고리즘으로 인간 선호 데이터를 학습했고, GRPO로 편집 모델을 훈련해 FLUX.1-kontext 등에서 성능 향상을 확인했습니다. 단, 3B에서 7B로 스케일링 시 성능이 지속 개선되는 추세지만, 실용화를 위해서는 더 큰 모델과 다양한 편집 태스크에 대한 검증이 필요해 보입니다.

#image-editing
#reward-model
#reinforcement-learning
#bytedance
#reasoning

ByteDance Seed

원문 보기 →

ByteDance Seed, 이미지 편집용 추론 보상 모델 Edit-R1 공개 — FLUX.1-kontext 성능 향상

Comments