← Back to feed
Papers·1주 전

Adobe, DiT 기반 이미지 편집에서 토큰 압축으로 최대 3.13x 속도 향상

Adobe, DiT 기반 이미지 편집에서 토큰 압축으로 최대 3.13x 속도 향상

Adobe 팀이 Diffusion Transformer(DiT) 기반 이미지 편집의 latency 문제를 해결하는 HiLo-Token 프레임워크를 제안했습니다. 마스크 영역은 모든 토큰을 유지하고, 외부 영역은 고주파 토큰만 선택적으로 보존하며 저주파는 16x 다운샘플링 토큰으로 대체합니다. A100-80GB 기준 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에서 각각 3.13x, 2.59x, 1.67x의 DiT 속도 향상을 달성했으며, 생성 품질 저하는 없었습니다. 단, 8 timestep으로 증류된 모델 기준이며, 마스크 비율이 클수록 속도 향상이 줄어듭니다.

Adobe가 Photoshop/ Lightroom의 Generative Fill 같은 기능의 핵심 병목인 DiT 모델을 최대 3배 이상 가속하는 토큰 압축 기법을 공개했습니다.

핵심 결론

  • 속도 향상A100-80GB에서 소/중/대 마스크 비율(6.38%/15.92%/35.36%)에 대해 DiT 모듈 기준 3.13x, 2.59x, 1.67x 가속.
  • 품질생성 품질 저하 없음 — FID나 CLIP score 등 정량적 지표에서 regression이 없다고 보고.
  • 적용 대상8 timestep으로 증류된 DiT 기반 이미지 편집 모델; 마스크 비율이 클수록 속도 향상폭은 감소.

방법

  • 핵심 아이디어입력에 적응적으로 토큰 예산을 배분 — 편집 영역(마스크)은 모든 토큰 유지, 배경은 고주파 영역만 선택.
  • 고주파 선택공간 주파수(spatial frequency) 기반으로 중요한 지역 디테일을 담은 토큰만 보존.
  • 저주파 처리저주파 영역은 16x 다운샘플링된 이미지의 토큰으로 대체, 전반적인 구조 정보 유지.
  • 마스크 확장사용자 마스크를 dilation하여 편집 영역 주변의 맥락도 함께 보존.

한계·조건

  • 벤치마크수백 개의 대표 샘플로 평가했으나, Adobe 내부 데이터셋 기준 — 공개 벤치마크 결과는 아님.
  • 모델 의존성8 timestep 증류 모델에 최적화; 더 많은 step에서는 효과가 다를 수 있음.
  • 코드 공개논문 발표 시점에 코드 공개 여부 불명.

편집자 한 줄

DiT의 latency 병목을 실용적으로 해결한 점이 인상적입니다. 마스크 비율에 따른 속도 차이가 명확해, 실제 서비스에서 동적 토큰 예산 적용이 가능할지 궁금하네요.

  • #diffusion-transformer
  • #token-compression
  • #image-editing
  • #adobe
  • #latency-optimization
Adobe
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —