英伟达机器人跳 APT 舞流畅丝滑,科比 C 罗招牌动作完美复刻
科比、詹姆斯和C 罗的机器人版现身了!
只见「科比」优雅后仰投篮,令对手感到震惊。
与此同时,「C 罗」和「詹姆斯」展现了他们经典的庆祝动作。
以上展示只是开始,这款人形机器人还可以进行侧跳、前跳和踢腿,甚至完成深蹲和拉伸等动作。
更令人瞩目的是,它能够跳 APT 舞,精彩绝伦。
与波士顿动力的Atlas相比,如今的人形机器人已经发展到人们难以想象的程度。正如Figure公司的创始人所说,人形机器人即将迎来 iPhone 的时代。
那么,实现「机器人界的科比」的背后,究竟有什么秘密技术呢?
来自CMU与NVIDIA的华人研究团队提出了ASAP,一个「real2sim2real」模型,使机器人能够非常流畅地执行完整的身体控制动作。
该模型分为两大阶段 —— 预训练与后训练。
在预训练阶段,透过转换的人体数据,机器人在模拟环境中进行运动跟踪策略的预训练。
在后训练阶段,这些策略被部署到实际世界,并收集实际数据,从而训练出一个delta动作模型,以弥补力学差异。
接着,ASAP将此delta动作模型集成到模拟器内,对预训练策略进行微调,使之与实际世界的动力学保持一致。
英伟达的高级研究科学家Jim Fan兴奋地表示,他们通过强化学习使机器人成功模仿C 罗、詹姆斯和科比的动作!
这些神经网络模型目前正运行于英伟达GEAR实验室的真实硬件上。
网络上大多数机器人演示视频经过加速处理,而我们特意放慢速度,呈现每个流畅动作的细节。
ASAP模型采取了“真实→仿真→真实”的方法,成功实现人形机器人流畅的全身控制。
我们最初在仿真环境中进行了预训练,但面临众所周知的仿真与现实差距,人工设计的物理方程无法准确模拟真实世界的动态特性。
我们的解决方案简单而有效:将预训练策略应用于实体机器人进行数据采集,随后在仿真中回放这些动作记录。尽管回放过程中不可避免会有偏差,但这些误差正好成为修正物理差异的关键数据源。通过额外的神经网络学习这些差异参数,实际上是在对传统物理引擎进行“动态校准”,使机器人能够利用GPU的并行计算能力,获得近乎真实的大规模训练体验。
未来是混合仿真时代的到来:继承经典仿真引擎数十年打磨的精确优势,并融合现代神经网络捕捉复杂现实世界的超众能力,实现二者的协同进化。
一直以来,sim2real是实现空间与具身智能的关键路径之一,广泛应用于机器人仿真评估。
而real2sim2real直接打破了繁琐的动作微调难关,弥合sim2real的差距,使机器人能够模仿多样的人类动作。
Jim Fan畅想说道,2030年的人形机器人奥运会将会是一场盛会!
一些网友也表示期待,希望能够看到它们在拳击中的表现。
ASAP,拥抱机器人奥运的曙光
由于仿真与现实之间的动力学差异,使得人形机器人要实现灵活协调的全身运动难度极大。
现有方法如系统识别(SysID)和领域随机化(DR)通常需要大量时间调整参数,或者生成的策略过于保守,动作为难以实现灵活性。
本文提及的ASAP(Aligning Simulation and Real Physics)是一个两阶段框架,旨在解决动力学不匹配带来的难题,达成敏捷的人形机器人全身动作。
ASAP演示了许多以往难以实现的高难度动作,展现出delta动作学习在缩小仿真与现实间的差距的巨大潜力。
ASAP为“sim-to-real”提供了一条充满希望的道路,为研发更灵活、敏捷的人形机器人指明了方向。
ASAP的具体流程如下:
运动跟踪预训练与真实轨迹收集:从真实演员视频中提取动作并重定向至机器人,预训练多个运动跟踪策略,生成真实世界的运动轨迹。
Delta动作模型训练:基于真实世界轨迹的数据,训练delta动作模型,缩小仿真状态与实际状态之间的差距。
策略微调:完成delta动作模型训练后,将其集成至模拟器,使模拟器能够匹配现实物理特性,接着对之前的运动跟踪策略进行微调。
真实世界的部署:最终,将微调后的策略直接运用于真实环境,此时delta动作模型不再需要。
两个阶段:预训练 + 后续训练
ASAP涵盖预训练阶段和后续训练阶段。
在预训练阶段,研究团队利用真实运动视频作为数据来源,在仿真环境内训练运动跟踪策略。
首先将这些运动数据重定向到人形机器人,再训练一个基于相位条件的运动跟踪策略,使机器人模仿转向后的动作。但若将该策略部署到实际硬件上,因动力学的差异,机器人的表现会下降。
为解决这一问题,后续训练阶段需收集真实环境运行数据,包括身体感知状态及由动作捕捉系统记录的位置。然后在仿真环境中回放这些数据,动力学的差异将以跟踪误差的方式显现。
接下来,训练一个delta动作模型,通过缩小真实与仿真状态的差异来学习如何纠正这些偏差。这个模型实质上是动力学误差的修正项。
最后,研究者结合delta动作模型对预训练策略进行微调,使其更好地适配现实物理环境,从而实现更稳定、灵活的运动控制。
总的来看,研究的贡献如下:
提出了ASAP框架:利用强化学习与真实世界数据来训练delta动作模型,有效减少了仿真与现实的差距。
在真实环境中成功部署全身控制策略,实现了许多之前人形机器人难以达到的动作。
在仿真与现实环境的大量实验中,ASAP有效降低了动力学不匹配问题,提升了机器人动作的敏捷性,同时显著减少了运动跟踪误差。
为了促进不同架构间的顺畅迁移,研究者开发并开源了多模拟器训练及评估代码库,以加快后续研究进展。
评估结果
在评估中,研究者广泛实验了三种策略迁移:从IsaacGym到IsaacSim,从IsaacGym到Genesis,以及从IsaacGym到真实的Unitree G1人形机器人。
接下来,他们针对三大问题进行了深入分析。
Q1:ASAP是否能优于其他基线方法以补偿动力学失调?
表III中的量化结果表明,ASAP在所有动作播放长度上均优于OpenLoop基线,实现了更低的Eg-mpjpe和Empjpe值,表明其与测试环境轨迹的对齐度更好。
尽管SysID有助于解决短时间的动力学差异,但随累积误差增大,其在长期场景的表现不佳。
DeltaDynamics在长期场景中相比SysID与OpenLoop有所改善,但仍存在过拟合问题,正如图5中显示的随时间放大的级联错误所示。
然而,ASAP通过学习有效的策略调整填补动力学差距,展现了其优秀的泛化能力。
与此同时,作者在Genesis模拟器中观察到了类似的趋势,ASAP在所有指标相较于基线均显著改善。
这些结果强调了学习增量动作模型在减少物理差距及提高开环重放性能方面的有效性。
Q2:ASAP是否能够在策略微调方面,优于SysID与DeltaDynamics?
为了解决问题2,研究者评估了不同方法在策略微调强化学习以提升测试环境性能方面的有效性。
如表IV所示,ASAP在两个模拟器(IsaacSim和Genesis)的所有难度级别(简单、中等、困难)中持续优于Vanilla、SysID和DeltaDynamics等基线。
对于简单级别,ASAP在IsaacSim(Eg-mpjpe=106与Empjpe=44.3)和Genesis(Eg-mpjpe=125与Empjpe=73.5)均达成最低的Eg-mpjpe和Empjpe,这同时还伴随最低的加速度(Eacc)和速度(Evel)误差。
在更具挑战性的任务中,如困难级别,最新方法仍展现出出色性能,显著降低了运动跟踪误差。
例如,本身在Genesis中实现了Eg-mpjpe=129和Empjpe=77.0,相较于SysID和DeltaDynamics大幅提升。
此外,ASAP在两个模拟器中始终保持100%的成功率,而DeltaDynamics在更困难的环境中则成功率较低。
为进一步展示ASAP的优势,研究者在图7中提供了逐步视觉化的比较,对比ASAP与未经微调直接部署的强化学习策略。
这些可视化显示,ASAP成功适应新的动力学环境,保持稳定的跟踪性能,而基线方法则因时间累积误差,跟踪能力逐渐降低。
这些结果强调了新方法在解决仿真到现实差距方面的适应性和鲁棒性,同时有效防止过拟合。
研究结果验证了ASAP是一种有效的范式,能够提高闭环性能,并确保在复杂的现实场景中进行可靠部署。
Q3:ASAP能否适应sim2real迁移?
为解决第三个问题,研究者在真实的Unitree G1机器人上检验ASAP的有效性。
由于传感器输入噪声、机器人建模误差和执行器差异等因素,仿真与现实的差距比各个模拟器间的差异更加显著。
为评估ASAP在解决这些差距中的有效性,他们比较了ASAP与Vanilla基线在两个典型运动跟踪任务(踢腿与「Silencer」)中的闭环表现,这些任务展现出明显的仿真到现实差距。
为了展示所学习的增量动作模型对分布外运动的适应性,作者对勒布朗·詹姆斯的「Silencer」动作进行了策略微调,如图1和图8所示。
结果表明ASAP在分布内及分布外的人形机器人运动跟踪任务中均优于基线方法,在所有关键指标(Eg-mpjpe、Empjpe、Eacc与Evel)上都实现了显著的误差减小。
这些发现表明ASAP在提升敏捷人形机器人运动跟踪的仿真到现实迁移有效性方面的潜力。
随后,研究者对三个主要问题进行了全面的分析。
首先,如何最佳训练ASAP的增量动作模型?
具体来说,他们探讨了数据集大小、训练时域和动作范数的权重对开环与闭环性能的影响,并在下图10中给出了所有因素下的实验结果。
其次,如何最佳利用ASAP的增量动作模型?
如图11所示,强化学习微调在部署过程中实现了最低的跟踪误差,优于未经过训练的方法。
两种不利用强化学习的方法都显得短视,并且存在分布外问题,这限制了它们在实际应用中的有效性。
Q6:ASAP为何有效,如何发挥作用?
研究者验证了ASAP优于基于随机动作噪声的微调,并可视化了Delta动作模型在各个关节上的平均输出幅度。
通过调整噪声强度参数,可以有效降低整体跟踪误差(MPJPE)。
图13可视化了在IsaacSim训练所得的Delta动作模型的平均输出,结果揭示不同关节的动力学误差并不均匀,特别是在踝关节及膝关节上的误差显著。
作者介绍
Tairan He(何泰然)
共同作者Tairan He是卡内基梅隆大学机器人研究所的二年级博士生,导师是Guanya Shi(石冠亚)和Changliu Liu(刘畅流),同时也是NVIDIA GEAR小组的一员,由Jim Fan和Yuke Zhu共同领导。
他在上海交通大学获得计算机科学学士学位,指导教授是Weinan Zhang(张伟楠)。还曾在微软亚洲研究院任职。
他的研究目标是创造提升人们生活质量的机器人,核心关注如何构建出能够获得与人类相当运动能力与语义理解的机器人,并让其在各类环境中灵活适应、保证安全可靠,具备通用性及敏捷性以执行多种实用任务,采用以计算能力和数据规模为基础的机器学习方法。
Jiawei Gao(高嘉伟)
共同作者Jiawei Gao目前在CMU攻读研究生学位,曾在清华大学获得学士学位,并参与了与Gao Huang教授、Jiangmiao Pang博士和Guanya Shi教授合作的强化学习算法及其相关项目。
他热衷思考人类智能的起源,并希望能构建可像人类般学习和推理的机器,致力于研究通用决策算法,助力机器在复杂物理环境中进行交互、学习和适应。
除了研究兴趣外,Gao也对历史、哲学与社会学等领域颇有兴趣,此外,他还学习钢琴长达十年,热爱西方古典音乐,最喜欢的作曲家是贝多芬与马勒,同时也喜欢旅行与摄影。
Wenli Xiao
共同作者Wenli Xiao是卡内基梅隆大学机器人研究所的硕士生,由Guanya Shi教授与John Dolan教授指导。
他目前在NVIDIA GEAR实验室担任研究实习生,研究主题是人形机器人的基础模型。
在此之前,他在香港中文大学(深圳)获得电子信息工程学士学位。
Yuanhang Zhang(张远航)
共同作者Yuanhang Zhang目前是CMU机器人研究所的硕士生,目前在LeCAR Lab进行研究,导师是Guanya Shi教授。
此前,他在上海交通大学获得工学学士学位,期间由Hesheng Wang教授及Danping Zou教授指导。
本科时,他担任SJTU VEX机器人俱乐部的编程小组负责人,并参与多个无人车(UV)与无人机(UAV)相关竞赛。
参考资料:
https://x.com/DrJimFan/status/1886824152272920642
https://agile.human2humanoid.com/
本文来自微信公众号:新智元(ID:AI_era),原题《英伟达机器人跳 APT 舞惊艳全网,科比 C 罗完美复刻!CMU 00 后华人共同一作》
广告声明:文内的外部链接(包括超链接、二维码、口令等形式)旨在提供更多信息,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。