Papers·6일 전
PARCEL: 시각 토큰 압축의 스펙트럴 에일리어싱 해결 — 27개 벤치마크에서 Pareto 개선

Google 팀이 LVLM 추론 시 시각 토큰 수를 가변적으로 압축하는 PARCEL 아키텍처를 제안했습니다. 기존 spatial-only 압축은 저주파 앵커로, query-only 압축은 공간 정합을 잃는 문제를 해결하기 위해, spatial pool 토큰을 레이아웃 앵커로 삼고 이에 조건화된 elastic query resampling을 도입했습니다. 27개 벤치마크 평가에서 기존 matryoshka baseline 대비 모든 토큰 예산에서 성능-효율 Pareto frontier를 개선했으며, 단일 모델로 다양한 예산에 대응 가능합니다.
Google 팀이 LVLM 추론 시 시각 토큰 수를 가변적으로 압축하는 PARCEL 아키텍처를 공개했습니다.
핵심 결론
- 벤치 — 27개 벤치마크 (VQA, captioning, grounding 등)에서 기존 matryoshka baseline 대비 모든 토큰 예산에서 성능-효율 Pareto frontier 개선.
- 효과 — 특히 높은 압축률(토큰 수 1/4 이하)에서 spatial-only, query-only 대비 각각 3~5%p 정확도 향상.
방법
- 구조 — Spatial pool 토큰을 저주파 레이아웃 앵커로 유지하고, elastic query 토큰이 이 앵커에 조건화되어 보완적 특징을 추출하도록 Pool-Conditioned Query Resampling 도입.
- 기존 spatial-only 압축(nested pooling)은 스펙트럴 에일리어싱으로 세부 정보 손실, query-only 압축(nested query resampling)은 공간 정합 저하 — PARCEL은 이 둘의 역할을 분리하여 해결.
한계·조건
- 학습 — 단일 모델로 여러 토큰 예산을 지원하지만, 학습 시 다양한 예산을 샘플링해야 하므로 학습 비용이 약간 증가.
- 코드 — 현재 논문 공개 단계, 코드 및 모델 가중치는 추후 공개 예정.
편집자 한 줄
시각 토큰 압축에서 '어떤 정보를 살릴 것인가'를 명시적으로 설계한 점이 인상적입니다. 실제 배포 시 latency-graceful degradation 전략으로 활용하기 좋아 보입니다.
- #vision-language
- #token-compression
- #lvlm
Google