Papers·5일 전

ByteDance PerceptionDLM — 확산 언어 모델로 병렬 영역 캡셔닝, 속도 3.3x

ByteDance 팀이 확산 언어 모델(DLM) 기반의 PerceptionDLM을 공개했습니다. 기존 MLLM이 영역을 순차 처리하는 반면, 구조적 어텐션 마스킹과 효율적 프롬프트로 여러 영역을 동시에 캡셔닝합니다. 새로 구축한 ParaDLC-Bench에서 캡션 품질은 유지하면서 속도는 최대 3.3배 향상되었습니다. 단, 벤치마크가 DLC-Bench를 확장한 수준이라 실제 다양성은 더 검증이 필요해 보입니다.

ByteDance 팀이 확산 언어 모델(DLM)의 병렬 디코딩 특성을 활용해 여러 영역을 동시에 인식하는 PerceptionDLM을 발표했습니다.

핵심 결론

벤치 — ParaDLC-Bench에서 기존 순차 방식 대비 속도 3.3x, 캡션 품질(SPICE)은 0.1p 이하 손실.
모델 — PerceptionDLM-Base는 오픈소스 diffusion MLLM 중 SOTA를 달성한 기반 모델입니다.

방법

병렬 마스킹 — 구조적 어텐션 마스킹으로 여러 영역의 토큰을 동시에 생성, 시퀀스 및 토큰 수준 병렬화를 구현했습니다.
프롬프트 — 효율적 프롬프트 설계로 각 영역의 위치 정보를 모델에 주입, 별도의 순차 처리 없이 병렬 추론을 가능하게 했습니다.

한계·조건

벤치 — ParaDLC-Bench는 DLC-Bench를 확장한 것으로, 영역 수가 제한적(최대 5개)입니다.
재현 — 코드, 모델, 데이터셋은 공개되었으나, 학습에는 대규모 GPU 클러스터가 필요할 수 있습니다.

편집자 한 줄

확산 언어 모델을 시각 인식에 적용한 점은 참신하지만, 벤치마크 규모가 작아 일반화 가능성은 좀 더 지켜봐야겠네요.

#multimodal
#diffusion
#perception
#bytedance

ByteDance

원문 보기 →

ByteDance PerceptionDLM — 확산 언어 모델로 병렬 영역 캡셔닝, 속도 3.3x

핵심 결론

방법

한계·조건

Comments