首个机器人 4D 世界模型来了:智元机器人团队提出 EnerVerse 架构
IT之家 1 月 8 日报道,如何在任务指导和实时观察的基础上,实现机器人未来动作的规划是具身智能领域的核心挑战,其发展受到“模态对齐”以及“数据稀缺”的影响。智元机器人团队提出了一个创新的 EnerVerse 架构,该架构通过自回归扩散模型(autoregressive diffusion),在生成未来的具身空间时,引导机器人完成复杂任务。
据了解,EnerVerse 不同于传统的视频生成模型,它深度结合了具身任务的实际需求,创新性地引入了稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV),在提升4D生成能力的同时,实现了动作规划性能的质的飞跃。
智元机器人官方发布信息称,实验结果显示,EnerVerse不仅能够生成未来空间,还在机器人动作规划的任务中实现了当前最先进(SOTA)表现。IT之家从智元官方了解到,目前项目主页和论文《EnerVerse:设想机器人操作的具身未来空间》已正式上线,相关模型和数据集即将开源。
EnerVerse的核心科研团队来自智元机器人研究院的具身算法团队。论文的共同一作黄思渊,是上海交通大学与上海人工智能实验室的联合培养博士生,导师为CUHK-MMLab的李鸿升教授。他在博士期间的研究领域涵盖多模态大模型的具身智能及高效智能体的研究,并在CoRL、MM、IROS、ECCV等顶级学术会议上,以第一作者或共同第一作者身份发表过多篇论文。另一位共同一作是智元机器人的具身算法专家陈立梁,负责具身空间智能与世界模型的研究。
广告声明:文中包含的外部链接(如超链接、二维码、口令等),旨在提供更多信息,帮助节省筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。