Papers·1주 전
Tsinghua-LeapLab, 텍스트·얼굴 재현력 높인 이산 토크나이저 InsightTok — 16x 다운샘플링에서도 가독성 유지

Tsinghua-LeapLab 팀이 텍스트와 얼굴 같은 세밀한 패턴을 보존하는 이산 시각 토크나이저 InsightTok을 제안했습니다. 기존 토크나이저가 일반 재구성 손실에 최적화되어 글자 가독성과 얼굴 특징을 잃는 문제를 지적하며, 지역화된 내용 인지 지각 손실(localized content-aware perceptual loss)을 도입해 16x 다운샘플링, 16k 코드북 조건에서도 텍스트·얼굴 재현에서 이전 모델을 크게 앞질렀습니다. 이 토크나이저로 학습한 오토리그레시브 생성기 InsightAR도 더 선명한 텍스트와 정확한 얼굴 디테일을 생성했지만, 일반 재구성 품질과의 트레이드오프나 계산 비용에 대한 분석은 논문에서 추가로 확인할 필요가 있습니다.
- #tokenizer
- #discrete-image-generation
- #autoregressive
- #tsinghua
Tsinghua-LeapLab