Papers·어제
ARM: 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집 통합 — RL 정렬로 WISE 0.50→0.56

ARM은 이산 의미 시각 토크나이저와 7B 자회귀 모델을 결합해 이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합했습니다. 강화학습(RL)으로 텍스트-이미지 생성과 편집 태스크를 최적화한 결과, WISE 종합 점수가 0.50에서 0.56으로, GEdit-Bench-EN G_O가 5.75에서 6.68로 개선되었고, 두 태스크 간 시너지도 관찰되었습니다. 코드는 GitHub에 공개되었습니다.
ARM은 이산 표현 기반 자회귀 모델로 이미지 이해·생성·편집을 통합한 접근법을 제시합니다.
핵심 결론
- 태스크 — 이미지 이해, 생성, 편집을 단일 next-token 예측 프레임워크로 통합.
- 성능 — RL 적용 후 WISE 0.50→0.56, GEdit-Bench-EN G_O 5.75→6.68로 개선.
- 시너지 — 텍스트-이미지 생성과 편집 간 교차 태스크 시너지 관찰.
방법
- 토크나이저 — 이산 의미 시각 토크나이저를 다중 목적(의미 식별력, 언어 정렬, 충실한 재구성)으로 학습.
- 모델 — 7B 자회귀 모델을 대규모 텍스트·이미지 토큰 시퀀스로 사전학습.
- 정렬 — RL을 통해 시각 품질, 명령 준수, 편집 일관성 등 태스크 수준 목표 최적화.
한계·조건
- 규모 — 7B 모델 기준이며, 더 큰 스케일에서의 일반화는 추가 검증 필요.
- 벤치 — WISE와 GEdit-Bench-EN에 특화된 평가로, 다른 벤치마크에서의 성능은 미공개.
- 코드 — GitHub에 공개되었으나, 학습 코드 및 전체 데이터셋 접근성은 제한적일 수 있음.
편집자 한 줄
이산 토크나이저와 RL의 조합이 생성과 편집 모두에 긍정적인 영향을 준 점이 인상적입니다. 다만 벤치마크 범위가 좁아 일반화 가능성은 좀 더 지켜봐야겠네요.
- #autoregressive-model
- #image-generation
- #reinforcement-learning
- #multimodal
- #tokenizer
Junke Wang