Papers·1개월 전

Adobe, DiT 기반 이미지 편집에서 토큰 압축으로 최대 3.13x 속도 향상

Adobe 팀이 Diffusion Transformer(DiT) 기반 이미지 편집의 latency 문제를 해결하는 HiLo-Token 프레임워크를 제안했습니다. 마스크 영역은 모든 토큰을 유지하고, 외부 영역은 고주파 토큰만 선택적으로 보존하며 저주파는 16x 다운샘플링 토큰으로 대체합니다. A100-80GB 기준 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에서 각각 3.13x, 2.59x, 1.67x의 DiT 속도 향상을 달성했으며, 생성 품질 저하는 없었습니다. 단, 8 timestep으로 증류된 모델 기준이며, 마스크 비율이 클수록 속도 향상이 줄어듭니다.

Adobe가 Photoshop/ Lightroom의 Generative Fill 같은 기능의 핵심 병목인 DiT 모델을 최대 3배 이상 가속하는 토큰 압축 기법을 공개했습니다.

핵심 결론

속도 향상 — A100-80GB에서 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에 대해 DiT 모듈 기준 3.13x, 2.59x, 1.67x 가속.
품질 — 생성 품질 저하 없음 — FID나 CLIP score 등 정량적 지표에서 regression이 없다고 보고.
적용 대상 — 8 timestep으로 증류된 DiT 기반 이미지 편집 모델; 마스크 비율이 클수록 속도 향상폭은 감소.

방법

핵심 아이디어 — 입력에 적응적으로 토큰 예산을 배분 — 편집 영역(마스크)은 모든 토큰 유지, 배경은 고주파 영역만 선택.
고주파 선택 — 공간 주파수(spatial frequency) 기반으로 중요한 지역 디테일을 담은 토큰만 보존.
저주파 처리 — 저주파 영역은 16x 다운샘플링된 이미지의 토큰으로 대체, 전반적인 구조 정보 유지.
마스크 확장 — 사용자 마스크를 dilation하여 편집 영역 주변의 맥락도 함께 보존.

한계·조건

벤치마크 — 수백 개의 대표 샘플로 평가했으나, Adobe 내부 데이터셋 기준 — 공개 벤치마크 결과는 아님.
모델 의존성 — 8 timestep 증류 모델에 최적화; 더 많은 step에서는 효과가 다를 수 있음.
코드 공개 — 논문 발표 시점에 코드 공개 여부 불명.

편집자 한 줄

DiT의 latency 병목을 실용적으로 해결한 점이 인상적입니다. 마스크 비율에 따른 속도 차이가 명확해, 실제 서비스에서 동적 토큰 예산 적용이 가능할지 궁금하네요.

#diffusion-transformer
#token-compression
#image-editing
#adobe
#latency-optimization

Adobe

원문 보기 →

Adobe, DiT 기반 이미지 편집에서 토큰 압축으로 최대 3.13x 속도 향상

핵심 결론

방법

한계·조건

Comments