Papers·어제
NVIDIA, 병렬 박스 디코딩으로 VLM 시각적 그라운딩·검출 속도·정확도 동시 개선

NVIDIA 연구진이 VLM의 시각적 그라운딩과 객체 검출을 하나의 프레임워크로 통합한 LocateAnything을 공개했습니다. 기존의 토큰 단위 순차 디코딩 대신 박스·점 같은 기하 요소를 원자 단위로 한 번에 디코딩하는 Parallel Box Decoding(PBD)을 도입해 처리량을 높이고 정확도를 유지했습니다. 1억 3800만 개 이상의 학습 샘플로 구성된 대규모 데이터셋 LocateAnything-Data도 함께 공개했으며, 다양한 벤치마크에서 high-IoU 정확도와 디코딩 속도 모두에서 이점을 확인했습니다. 다만 데이터셋 규모가 크다는 점 외에 학습 비용이나 재현성에 대한 구체적인 정보는 아직 부족합니다.
NVIDIA가 VLM의 시각적 그라운딩과 객체 검출을 통합한 LocateAnything을 발표했습니다. 핵심은 기하 요소를 한 번에 디코딩하는 병렬 박스 디코딩(PBD)으로, 속도와 정확도를 동시에 잡았습니다.
핵심 결론
- 통합 프레임워크 — LocateAnything은 시각적 그라운딩과 객체 검출을 하나의 VLM으로 처리하며, PBD를 통해 기존 순차 디코딩 대비 처리량을 크게 향상시킵니다.
- 정확도 — High-IoU localization quality에서 다양한 벤치마크에 걸쳐 개선을 보였습니다. 구체적인 수치는 논문에서 확인 가능합니다.
방법
- Parallel Box Decoding — 바운딩 박스나 점 같은 기하 요소를 하나의 원자 단위로 보고, 한 번의 디코딩 스텝으로 전체 박스를 생성합니다. intra-box 기하 일관성을 유지하면서 병렬성을 극대화합니다.
- 데이터 엔진 — 1억 3800만 개 이상의 학습 샘플로 구성된 LocateAnything-Data를 큐레이션했습니다. 데이터 다양성을 높여 고정밀 위치 추정에 기여합니다.
한계·조건
- 학습 비용 — 대규모 데이터셋을 사용했지만, 구체적인 학습 시간이나 GPU 사용량은 공개되지 않았습니다.
- 재현성 — 코드와 데이터셋의 공개 여부는 아직 확인되지 않았습니다. 논문 내에서도 상세한 구현 세부사항이 부족한 부분이 있습니다.
편집자 한 줄
PBD 아이디어 자체는 직관적이지만, 대규모 데이터와의 시너지가 실제로 어느 정도인지 후속 연구에서 더 명확해질 듯합니다.
- #vision-language-model
- #visual-grounding
- #object-detection
- #nvidia
- #parallel-decoding
NVIDIA