Papers·어제
UniAR: 단일 시각 토크나이저로 이해와 생성을 통합한 통합 자회귀 프레임워크

Qwen 팀이 단일 이산 시각 토크나이저를 통해 이미지 이해와 생성을 통합하는 UniAR 프레임워크를 제안했습니다. 기존 방식은 이해용과 생성용 토크나이저를 분리해 표현 공간이 나뉘는 문제가 있었는데, UniAR는 사전학습된 비전 인코더에 다중 레벨 특징 융합과 lookup-free 비트양자화를 적용해 하나의 토크나이저로 고수준 의미와 저수준 디테일을 모두 보존합니다. 병렬 비트 예측으로 시퀀스 길이를 줄여 생성 속도를 높이고, 확산 기반 디코더로 고품질 이미지를 복원합니다. 대규모 사전학습 후 SFT와 RL을 거쳐 이미지 생성 및 편집에서 SOTA를 달성했으며, 다중모달 이해 벤치마크에서도 경쟁력을 보였습니다.
Qwen 팀이 단일 시각 토크나이저로 이해와 생성을 통합하는 UniAR 프레임워크를 공개했습니다.
핵심 결론
- 통합 — 단일 이산 시각 토크나이저로 이해와 생성을 통합, 기존 분리 방식 대비 표현 공간 일관성 확보.
- 성능 — 이미지 생성 및 편집에서 SOTA, 다중모달 이해 벤치마크에서도 경쟁력 유지.
방법
- 토크나이저 — 사전학습된 비전 인코더에 다중 레벨 특징 융합과 lookup-free 비트양자화를 적용, 고수준 의미와 저수준 디테일을 보존.
- 자회귀 모델 — 병렬 비트 예측(parallel-bitwise-prediction)으로 공간적으로 그룹화된 다중 레벨 시각 코드를 함께 예측, 시퀀스 길이를 크게 줄여 생성 가속.
- 디코더 — 확산 기반 시각 디코더가 이산 시각 토큰으로부터 고품질 이미지를 복원.
한계·조건
- 규모 — 대규모 사전학습과 SFT, RL을 필요로 하므로 학습 비용이 상당할 것으로 보입니다.
- 코드 — 프로젝트 페이지는 공개되었으나 코드와 모델 가중치 공개 여부는 아직 확인되지 않았습니다.
편집자 한 줄
단일 토크나이저로 이해와 생성을 통합한 점이 깔끔하고, 병렬 비트 예측으로 시퀀스 길이를 줄인 아이디어가 인상적입니다. 다만 학습 비용이 높아 재현성에 주의가 필요해 보입니다.
- #unified-model
- #autoregressive
- #visual-tokenizer
- #image-generation
- #qwen
Qwen