Papers·2주 전
Peking University, OSP-Next로 T2V 생성 가속 — sparse attention + 병렬화 + 8-bit 양자화로 VBench 83.73%

Peking University 팀이 diffusion transformer 기반 텍스트-비디오 생성 모델 OSP-Next를 공개했습니다. Skiparse-2D Attention이라는 고정 패턴 sparse attention을 도입해 full attention 대비 효율을 높였고, Sparse Sequence Parallelism(SSP)으로 통신량을 75% 줄였습니다. H200 GPU에서 5초 720P 기준 최대 1.64배 단일 GPU 가속을 달성했으며, VBench 총점 83.73%로 Wan2.1 baseline을 넘겼습니다. 단, sparse attention은 공간 차원에 국한된 fixed-pattern이라 temporal attention까지 커버하지는 않습니다.
Peking University가 diffusion transformer 기반 T2V 생성 모델 OSP-Next를 공개했습니다. 핵심은 sparse attention, 병렬화, 8-bit 양자화, 강화학습을 통합한 효율적 구조입니다.
핵심 결론
- 성능 — VBench 총점 83.73%로 Wan2.1 baseline을 상회합니다.
- 속도 — H200 GPU에서 5초 720P 기준 단일 GPU 1.64배, 8 GPU 1.52배 속도 향상.
방법
- Skiparse-2D Attention — 공간 차원에서 token-wise 및 group-wise sparse attention을 적용하는 fixed-pattern 메커니즘. FlashAttention과 호환됩니다.
- Sparse Sequence Parallelism — 서브시퀀스를 rank에 분할하고 단일 All-to-All 통신으로 sparse 패턴을 전환, Ulysses SP 대비 통신량 75% 감소.
- HiF8 양자화 — 8-bit 양자화와 sparse fine-tuning을 안정적으로 결합한 기법.
- Mix-GRPO — 강화학습 기반 post-training으로 sparse 모델의 성능을 개선.
한계·조건
- sparse 패턴 — 공간 차원에 국한된 fixed-pattern으로, temporal attention은 full attention을 유지합니다.
- 하드웨어 — H200 GPU 및 Ascend 950PR에서 검증되었으며, 다른 하드웨어에서의 성능은 추가 확인이 필요합니다.
- 코드 — 현재 Hugging Face 논문 페이지만 공개, 코드 및 모델 가중치는 추후 공개 예정으로 보입니다.
편집자 한 줄
sparse attention과 병렬화를 동시에 챙긴 설계가 인상적입니다. 다만 fixed-pattern의 일반화 가능성은 후속 연구를 지켜봐야 할 듯합니다.
- #diffusion-transformer
- #text-to-video
- #sparse-attention
- #quantization
- #peking-university
Peking University