Papers·2일 전
Ultralytics YOLO26 — NMS-free end-to-end 실시간 비전, COCO 57.5 mAP @ 1.7 ms

Ultralytics가 NMS-free end-to-end 추론과 DFL 제거로 헤드를 가볍게 만든 YOLO26을 공개했습니다. MuSGD 옵티마이저, Progressive Loss, STAL 레이블 할당을 도입해 COCO에서 40.9~57.5 mAP를 1.7~11.8 ms T4 TensorRT latency로 달성, 정확도-지연시간 Pareto frontier를 앞당겼습니다. 단, 5개 스케일 모두 동일한 학습 레시피를 사용해 특정 벤치마크에 과적합되지 않았다는 점은 장점이나, 학습 시간이 기존 YOLO 대비 1.5배 정도 더 필요하다는 단서가 붙습니다.
Ultralytics가 NMS-free end-to-end 추론과 DFL 제거로 헤드를 가볍게 만든 YOLO26을 공개했습니다.
핵심 결론
- 벤치 — COCO에서 40.9~57.5 mAP, T4 TensorRT latency 1.7~11.8 ms로 이전 YOLO 대비 Pareto frontier 개선.
- 모델 — 5개 스케일(n/s/m/l/x)로 detection, instance segmentation, pose estimation, oriented detection, classification 지원.
- 개방형 — YOLOE-26x는 LVIS minival에서 text prompting으로 40.6 AP 달성.
방법
- 듀얼 헤드 — NMS-free end-to-end 추론을 위해 dual-head 설계 채택, DFL을 완전히 제거해 헤드 경량화.
- MuSGD — LLM 학습에서 영감을 받은 hybrid Muon-SGD optimizer로 수렴 속도 개선.
- Progressive Loss — 학습 중 inference-time head 쪽으로 supervision을 점진적으로 이동.
- STAL — 작은 객체에도 positive label을 보장하는 label assignment 전략.
한계·조건
- 학습 시간 — 기존 YOLO 대비 학습 시간이 약 1.5배 더 소요 (600 epoch 기준).
- 하드웨어 — 벤치마크는 T4 TensorRT 기준, 다른 GPU에서는 latency 변동 가능.
- 코드 — GitHub(ultralytics/ultralytics)에 코드와 모델 공개 완료.
편집자 한 줄
NMS-free와 DFL 제거는 실제 배포 파이프라인을 단순화하는 실용적인 개선입니다. 다만 학습 비용 증가분이 성능 이득 대비 합리적인지는 사용자 환경에 따라 다를 듯합니다.
- #yolo
- #real-time
- #object-detection
- #ultralytics
- #nms-free
Ultralytics