Papers·1주 전
Adobe, DiT 기반 이미지 편집에서 토큰 압축으로 최대 3.13x 속도 향상

Adobe 팀이 Diffusion Transformer(DiT) 기반 이미지 편집의 latency 문제를 해결하는 HiLo-Token 프레임워크를 제안했습니다. 마스크 영역은 모든 토큰을 유지하고, 외부 영역은 고주파 토큰만 선택적으로 보존하며 저주파는 16x 다운샘플링 토큰으로 대체합니다. A100-80GB 기준 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에서 각각 3.13x, 2.59x, 1.67x의 DiT 속도 향상을 달성했으며, 생성 품질 저하는 없었습니다. 단, 8 timestep으로 증류된 모델 기준이며, 마스크 비율이 클수록 속도 향상이 줄어듭니다.
Adobe가 Photoshop/ Lightroom의 Generative Fill 같은 기능의 핵심 병목인 DiT 모델을 최대 3배 이상 가속하는 토큰 압축 기법을 공개했습니다.
핵심 결론
- 속도 향상 — A100-80GB에서 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에 대해 DiT 모듈 기준 3.13x, 2.59x, 1.67x 가속.
- 품질 — 생성 품질 저하 없음 — FID나 CLIP score 등 정량적 지표에서 regression이 없다고 보고.
- 적용 대상 — 8 timestep으로 증류된 DiT 기반 이미지 편집 모델; 마스크 비율이 클수록 속도 향상폭은 감소.
방법
- 핵심 아이디어 — 입력에 적응적으로 토큰 예산을 배분 — 편집 영역(마스크)은 모든 토큰 유지, 배경은 고주파 영역만 선택.
- 고주파 선택 — 공간 주파수(spatial frequency) 기반으로 중요한 지역 디테일을 담은 토큰만 보존.
- 저주파 처리 — 저주파 영역은 16x 다운샘플링된 이미지의 토큰으로 대체, 전반적인 구조 정보 유지.
- 마스크 확장 — 사용자 마스크를 dilation하여 편집 영역 주변의 맥락도 함께 보존.
한계·조건
- 벤치마크 — 수백 개의 대표 샘플로 평가했으나, Adobe 내부 데이터셋 기준 — 공개 벤치마크 결과는 아님.
- 모델 의존성 — 8 timestep 증류 모델에 최적화; 더 많은 step에서는 효과가 다를 수 있음.
- 코드 공개 — 논문 발표 시점에 코드 공개 여부 불명.
편집자 한 줄
DiT의 latency 병목을 실용적으로 해결한 점이 인상적입니다. 마스크 비율에 따른 속도 차이가 명확해, 실제 서비스에서 동적 토큰 예산 적용이 가능할지 궁금하네요.
- #diffusion-transformer
- #token-compression
- #image-editing
- #adobe
- #latency-optimization
Adobe