Papers·1개월 전

ByteDance Seed, Representation Forcing 제안 — VAE 없이 픽셀 공간 통합 멀티모달 모델, 생성 품질 유지

ByteDance Seed 팀이 VAE 없이 픽셀 공간에서 이미지 생성과 이해를 통합하는 Representation Forcing(RF) 기법을 제안했습니다. RF는 디코더가 픽셀 전에 중간 표현 토큰을 autoregressive하게 예측하도록 강제해, 외부 생성 잠재 공간 없이도 VAE 기반 통합 모델과 동등한 생성 품질을 달성합니다. 이해 태스크에서는 오히려 VAE 변형보다 우수했지만, 추가 학습 비용이 든다는 점이 단서입니다.

ByteDance Seed 팀이 VAE 없이 픽셀 공간에서 이미지 생성과 이해를 통합하는 Representation Forcing(RF) 기법을 제안했습니다.

핵심 결론

생성 — 픽셀 공간 RF 모델이 VAE 기반 최신 통합 모델과 동등한 생성 품질을 달성했습니다.
이해 — 이미지 이해 태스크에서 RF가 VAE 변형보다 일반적으로 더 나은 성능을 보였습니다.

방법

핵심 아이디어 — 디코더가 픽셀을 생성하기 전에 중간 시각 표현(representation) 토큰을 autoregressive하게 예측하도록 강제합니다.
이 표현 토큰이 컨텍스트에 남아 동일한 백본 내에서 픽셀 확산(pixel diffusion)을 안내합니다.
표현을 인식 출력에서 생성 목표로 전환함으로써 외부 생성 잠재 공간(VAE)이 필요 없어집니다.

한계·조건

학습 비용 — RF는 추가적인 autoregressive 표현 예측 단계를 도입하므로 학습 비용이 증가할 수 있습니다.
범위 — 현재 실험은 특정 데이터셋과 모델 크기에 국한되어 있으며, 일반화 검증이 더 필요합니다.
코드 — 논문에서 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

VAE 병목을 제거하면서도 품질을 유지한 점은 인상적이지만, 학습 비용 증가분이 실용성에 어떤 영향을 미칠지 지켜볼 필요가 있겠네요.

#unified-multimodal
#representation-forcing
#byte-dance
#image-generation
#pixel-space

ByteDance Seed

원문 보기 →

ByteDance Seed, Representation Forcing 제안 — VAE 없이 픽셀 공간 통합 멀티모달 모델, 생성 품질 유지

핵심 결론

방법

한계·조건

Comments