银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

xxn 阅读：1203 2025-01-10 16:03:28 评论：0

IT之家 1 月 10 日最新消息指出，银河通用日前（1 月 9 日）宣布，联手北京智源人工智能研究院（BAAI）以及北京大学和香港大学的专家研究团队，发布了首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

IT之家的解释指出：“具身智能”是将人工智能整合到机器人等物理实体中，赋予它们感知、学习以及与环境动态交互的能力。

据介绍，GraspVLA 模型的培训包括预先培训和后续培训两个部分。其中，预先培训过程完全基于合成数据，培训数据量达到有史以来最大规模 —— 十亿帧「视觉-语言-动作」对，以掌握泛化闭环抓取能力并实现基础模型。

在预先培训之后，该模型可以直接在未曾见过的各种真实场景和物体上进行零样本测试，从模拟到现实（Sim2Real），官方声称可以满足大多数产品需求；对于特定需求，后续培训只需少量样本学习，即可将基础能力迁移到特定场景，既保持高度泛化性，同时形成符合产品需求的专业技能。

官方公布了 VLA 需达到的基础模型所需满足的七大泛化“金标准”：光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

▲ 光照泛化，二倍速播放

▲ 背景泛化，三倍速播放

▲ 平面位置泛化，二倍速播放

▲ 空间高度泛化，二倍速播放

▲ 动作策略泛化，三倍速播放

▲ 动态干扰泛化，二倍速播放

▲ 物体类别泛化，三倍速播放

广告声明：文中包含的外部链接（如超链接、二维码、口令等形式）旨在提供更多信息，节省您的选择时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。