Papers·1주 전
GeneralVLA-2: Peking University, 3D 재구성과 장기 메모리 개선으로 로봇 조작 계획 성능 향상

Peking University 팀이 GeneralVLA-2를 발표했습니다. 3D 재구성에서 GeoFuse-MV3D로 CD와 LPIPS를 각각 2.20%, 2.02% 줄이고 PSNR과 SSIM을 2.36%, 1.03% 높였으며, 장기 메모리 KnowledgeBank를 개선해 Terminal-Bench SR에서 4.53%, SWE-Bench resolve rate에서 3.73% 향상, AS는 각각 4.95%, 5.65% 감소시켰습니다. 핵심은 기하학 사전 정보를 활용한 다중 뷰 3D 재구성과 품질·신뢰도·충돌 관리 메타데이터를 갖춘 메모리 시스템입니다. 단, 평가가 GSO-30, Terminal-Bench 2.0, SWE-Bench Verified 등 특정 벤치마크에 국한되어 실제 로봇 환경에서의 일반화는 추가 검증이 필요합니다.
Peking University 팀이 GeneralVLA의 두 가지 병목을 해결한 GeneralVLA-2를 공개했습니다.
핵심 결론
- 3D 재구성 — GeoFuse-MV3D는 MV-SAM3D 대비 CD 2.20%, LPIPS 2.02% 감소, PSNR 2.36%, SSIM 1.03% 증가.
- 메모리 — KnowledgeBank 개선으로 Terminal-Bench SR 4.53%, SWE-Bench resolve rate 3.73% 향상, AS 각각 4.95%, 5.65% 감소.
방법
- GeoFuse-MV3D — 기하학 사전 정보(soft visual-hull)를 입력 뷰 마스크로 검증하고 축별 정제를 통해 외형은 유지하며 기하학만 융합.
- KnowledgeBank — 명시적 품질, 신뢰도, 생명주기, 검증자, 충돌 메타데이터를 추가하고 정밀도 지향 검색으로 업그레이드.
한계·조건
- 벤치마크 — GSO-30, Terminal-Bench 2.0, SWE-Bench Verified 등 특정 벤치마크 평가로 실제 로봇 환경 일반화는 추가 검증 필요.
- 코드 — GitHub 공개 (https://github.com/AIGeeksGroup/GeneralVLA-2), 웹사이트도 제공.
편집자 한 줄
기하학 사전 정보를 활용한 3D 재구성과 메모리 관리 체계가 인상적이지만, 실제 로봇 조작 태스크에서의 성능은 아직 확인되지 않았습니다.
- #robot-manipulation
- #3d-reconstruction
- #memory
- #peking-university
- #vla
Peking University