Papers·3개월 전

Vision Banana: Image generation pretraining achieves SOTA on 2D/3D vision tasks via instruction tuning

NVIDIA 연구진이 이미지 생성 사전학습이 강력한 시각 표현을 학습함을 입증하며, 2D/3D 이해 과제에서 SOTA를 달성한 Vision Banana를 공개했다. Nano Banana Pro 모델을 소량의 비전 태스크 데이터로 instruction-tuning하고, 출력 공간을 RGB 이미지로 파라미터화하여 지각을 생성으로 재구성했다. Segment Anything Model 3와 Depth Anything 시리즈를 능가하거나 필적하는 성능을 보였으며, 경량 튜닝만으로 생성 능력을 유지한다.

#image generation
#vision understanding
#instruction tuning
#nvidia

Valentin Gabeur

원문 보기 →

Vision Banana: Image generation pretraining achieves SOTA on 2D/3D vision tasks via instruction tuning

Comments