← Back to feed
Papers·어제

ARM: 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집 통합 — RL 정렬로 WISE 0.50→0.56

ARM: 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집 통합 — RL 정렬로 WISE 0.50→0.56

ARM은 이산 의미 시각 토크나이저와 7B 자회귀 모델을 결합해 이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합했습니다. 강화학습(RL)으로 텍스트-이미지 생성과 편집 태스크를 최적화한 결과, WISE 종합 점수가 0.50에서 0.56으로, GEdit-Bench-EN G_O가 5.75에서 6.68로 개선되었고, 두 태스크 간 시너지도 관찰되었습니다. 코드는 GitHub에 공개되었습니다.

ARM은 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집을 통합한 접근법을 제시합니다.

핵심 결론

  • 태스크이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합.
  • 성능RL 적용 후 WISE 0.50→0.56, GEdit-Bench-EN G_O 5.75→6.68로 개선.
  • 시너지텍스트-이미지 생성과 편집 간 교차 태스크 시너지 관찰.

방법

  • 토크나이저이산 의미 시각 토크나이저를 다중 목적(의미 식별력, 언어 정렬, 충실한 재구성)으로 학습.
  • 모델7B 자회귀 모델을 대규모 텍스트·이미지 토큰 시퀀스로 사전학습.
  • 정렬RL을 통해 시각 품질, 명령 준수, 편집 일관성 등 태스크 수준 목표 최적화.

한계·조건

  • 규모7B 모델 기준이며, 더 큰 스케일에서의 일반화는 추가 검증 필요.
  • 벤치WISE와 GEdit-Bench-EN에 특화된 평가로, 다른 벤치마크에서의 성능은 미공개.
  • 코드GitHub에 공개되었으나, 학습 코드 및 전체 데이터셋 접근성은 제한적일 수 있음.

편집자 한 줄

이산 토크나이저와 RL의 조합이 생성과 편집 모두에 긍정적인 영향을 준 점이 인상적입니다. 다만 벤치마크 범위가 좁아 일반화 가능성은 좀 더 지켜봐야겠네요.

  • #autoregressive-model
  • #image-generation
  • #reinforcement-learning
  • #multimodal
  • #tokenizer
Junke Wang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —