Papers·1개월 전

ARM: 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집 통합 — RL 정렬로 WISE 0.50→0.56

ARM은 이산 의미 시각 토크나이저와 7B 자회귀 모델을 결합해 이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합했습니다. 강화학습(RL)으로 텍스트-이미지 생성과 편집 태스크를 최적화한 결과, WISE 종합 점수가 0.50에서 0.56으로, GEdit-Bench-EN G_O가 5.75에서 6.68로 개선되었고, 두 태스크 간 시너지도 관찰되었습니다. 코드는 GitHub에 공개되었습니다.

ARM은 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집을 통합한 접근법을 제시합니다.

핵심 결론

태스크 — 이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합.
성능 — RL 적용 후 WISE 0.50→0.56, GEdit-Bench-EN G_O 5.75→6.68로 개선.
시너지 — 텍스트-이미지 생성과 편집 간 교차 태스크 시너지 관찰.

방법

토크나이저 — 이산 의미 시각 토크나이저를 다중 목적(의미 식별력, 언어 정렬, 충실한 재구성)으로 학습.
모델 — 7B 자회귀 모델을 대규모 텍스트·이미지 토큰 시퀀스로 사전학습.
정렬 — RL을 통해 시각 품질, 명령 준수, 편집 일관성 등 태스크 수준 목표 최적화.

한계·조건

규모 — 7B 모델 기준이며, 더 큰 스케일에서의 일반화는 추가 검증 필요.
벤치 — WISE와 GEdit-Bench-EN에 특화된 평가로, 다른 벤치마크에서의 성능은 미공개.
코드 — GitHub에 공개되었으나, 학습 코드 및 전체 데이터셋 접근성은 제한적일 수 있음.

편집자 한 줄

이산 토크나이저와 RL의 조합이 생성과 편집 모두에 긍정적인 영향을 준 점이 인상적입니다. 다만 벤치마크 범위가 좁아 일반화 가능성은 좀 더 지켜봐야겠네요.

#autoregressive-model
#image-generation
#reinforcement-learning
#multimodal
#tokenizer

Junke Wang

원문 보기 →

ARM: 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집 통합 — RL 정렬로 WISE 0.50→0.56

핵심 결론

방법

한계·조건

Comments