Papers·2일 전
NVIDIA ProCUA-SFT: 310만 step SFT 데이터셋으로 UI-TARS 7B OSWorld 45.0% 달성

NVIDIA 팀이 desktop computer-use agent(CUA)를 위한 310만 step 규모의 SFT 데이터셋 ProCUA-SFT를 공개했습니다. 기존 AgentNet(22.5K human trajectories)으로는 오히려 성능이 떨어졌으나, ProCUA-SFT로 UI-TARS 7B를 fine-tuning한 결과 OSWorld 성공률이 26.3%에서 45.0%로 18.7%p 향상되었습니다. 데이터는 93K 합성 trajectory에서 자동 파이프라인으로 생성되었으며, precondition 검증과 step-prefix 샘플링이 핵심입니다.
NVIDIA가 desktop CUA를 위한 310만 step SFT 데이터셋 ProCUA-SFT를 공개하며, UI-TARS 7B의 OSWorld 성능을 26.3%에서 45.0%로 끌어올렸습니다.
핵심 결론
- 태스크 — Desktop computer-use agent (CUA) — screenshot 기반 GUI 조작.
- 벤치 — OSWorld 성공률: UI-TARS 7B base 26.3% → ProCUA-SFT 45.0% (+18.7%p). AgentNet(22.5K human)으로는 8-10%로 오히려 하락.
- 데이터 — 3.1M step-level SFT samples, 93K synthetic trajectories, 2,484 application 조합.
방법
- 자동 파이프라인 — 실제 콘텐츠(SpreadsheetBench의 912개 스프레드시트, Zenodo10K의 1만개 프레젠테이션, OSWorld config)로 시드된 live desktop에서 grounded task를 합성.
- 단일 VLM — Kimi-K2.5가 goal generator, precondition judge, trajectory executor 역할을 모두 수행해 planner-actor 간극을 없앰.
- step-prefix 샘플링 — 각 trajectory를 step-prefix sample로 확장해 inference 시 context layout을 정확히 재현.
한계·조건
- 리소스 — Kimi-K2.5 같은 강력한 VLM이 필요해 재현 비용이 낮지 않음.
- 벤치 범위 — OSWorld 외 다른 벤치마크(예: Windows, macOS)에서의 일반화는 아직 보고되지 않음.
- 코드/데이터 — ProCUA-SFT는 Hugging Face에 공개 예정 (현재 abstract만 열람 가능).
편집자 한 줄
AgentNet으로 negative transfer가 발생한 점이 인상적입니다. 합성 데이터의 품질과 다양성이 human trajectory보다 중요할 수 있다는 신호네요.
- #computer-use-agent
- #sft
- #dataset
- #nvidia
NVIDIA