Meta 最新触觉机械手登 Science 子刊封面，操作未知物体精度最高提升 94%

xxn 阅读：70142 2024-11-14 18:02:55 评论：0

现在，只要将一个陌生物体丢给机械手，它就能像人类一样轻松地拿捏了 ——

罐头、乐高积木、大象玩偶、骰子，除了苹果，这些都不在话下：

来源于Meta FAIR 团队最新的NeuralFeels 技术，通过融合触觉和视觉，机械手可以更精准地操作未知物体，精度提升了高达94%！

这一研究还荣登《Science Robotics》封面，同时团队还推出了包含70个实验的新测试基准FeelSight。

如何使机械手精确操作未知物体？

让机械手拿取常见的魔方、水果等已经不再是问题，但如何让机器人更好地处理未知物体一直是一个研究挑战。

一个主要原因在于目前的机械手训练过于依赖视觉，且仅限于处理已知的物体，但现实中很多物体可能因视觉遮挡而训练效果缓慢。

团队通过开发一种名为NeuralFeels的创新技术，为机器人在复杂环境中的物体感知和操作带来了新的突破。

这一技术到底是如何实现的呢？我们一起来看看技术细节 ——

融合了触觉的多模态感知

NeuralFeels技术的创新之处在于结合了视觉和触觉，通过多模态融合，让机械手可以不断对未知物体进行3D建模，更准确地估计手持物体的姿势和形状。

具体处理流程如下图所示，前端实现了视觉和触觉的鲁棒分割和深度预测，后端将此信息整合为一个神经场，同时通过体积采样进一步优化姿势。

在遮挡视角下，视觉和触觉的融合有助于提升跟踪性能，还可以通过无遮挡的局部视角进行跟踪。团队在摄像机视角的球面上量化了这些收益。

从下图可以观察到，在视觉严重遮挡时，触觉作用更明显，在几乎无遮挡时，触觉则起微调作用。

前端深度学习策略

首先来看看NeuralFeels技术的前端（Front end），它采用了基于深度学习的分割策略和触觉Transformer，可以精确提取目标物体的深度信息。

用运动学分割一切

神经优化极大地依赖目标物体的深度信息，因此团队设计了前端，能够从视觉中鲁棒地提取目标物体的深度信息。虽然在RGB-D相机中深度信息是现成的，但为了应对严重遮挡的情况，团队还引入了基于强大视觉基础模型的动态感知分割策略。

触觉Transformer

最近的研究表明，使用ViT进行自然图像的密集深度预测更为有效，因此团队提出了触觉Transformer，用于通过视觉和触觉预测接触深度，这个Transformer在模拟中训练，可用于多个真实世界的DIGIT传感器。机械手可以利用内置摄像头感知发光的胶垫，通过监督学习获取接触深度。

后端姿态优化

NeuralFeels的后端（Back end）模块通过使用Theseus的自定义测量因子，将前端的中间输出转换为非线性最小二乘问题进行优化。

形状和姿态优化器

后端模块从前端模块获取中间输出，并进行对象模型构建。这一过程将通过视觉-触觉深度流的样本反复地执行地图和姿态优化步骤。在本研究中的地图优化器中，瞬时NGP模型的权重完全描述了物体的3D几何结构。

神经SLAM

在真实世界和模拟中，团队构建了一个不断发展的神经Signed Distance Function（SDF），整合了视觉和触觉，并可以同时跟踪物体。下图展示了对应的RGB-D和触觉图像的输入流，以及相应的姿态重建。

神经跟踪：给定形状的对象姿态估计

当目标对象存在相对应的CAD模型时，NeuralFeels能够实现出色的多模态姿态跟踪能力。即使存在不精确的视觉分割和稀疏的触觉信号，在已知物体形状的姿态跟踪实验中，该技术也能够实现低误差的姿态跟踪，平均姿态误差可降至2毫米左右。

NeuralFeels大大提升了机械手性能

为了评估NeuralFeels技术的性能，研究团队进行了多次实验，涉及14种不同物体，在模拟和真实环境中，相关的FeelSight测试集也已发布！

实验中采用多种评估指标，包括对称平均欧几里得距离（ADD-S）用于评估姿态跟踪误差，以及用于衡量形状重建精度和完整性的F分数等。

结果令人惊喜的是，NeuralFeels技术在以下3个方面表现出色：

1.物体重建精度大幅提升

在物体重建方面，研究显示，结合触觉信息后，表面重建精度在模拟环境中平均提高了15.3%，在真实环境中提高了14.6%。

最终重建结果显示，在模拟环境中的中位误差为2.1毫米，在真实环境中为3.9毫米。这表明NeuralFeels技术可以有效地利用触觉信息补充视觉信息，以更准确地重建物体形状。

2.物体姿态跟踪更加精准

在物体姿态跟踪方面，NeuralFeels技术相比仅使用视觉信息的基线方法有显著改进。

在模拟环境中，姿态跟踪精度提高了21.3%，真实环境中提高了26.6%。

即使在已知物体形状的姿态跟踪实验中，即使存在不准确的视觉分割和稀疏的触摸信号，该技术仍能实现低误差的姿态跟踪，平均姿态误差可降至约2毫米。

此外，触觉信息在降低平均姿态误差方面发挥着重要作用，在模拟环境中，使误差率降低了22.29%，在真实环境中降低了3.9%。

3.应对复杂场景表现出色

在面对严重遮挡和视觉深度噪声等具有挑战性的场景时，NeuralFeels技术同样表现出色。

在模拟的200个不同相机视角的遮挡实验中，平均跟踪性能提升了21.2%，在严重遮挡情况下，提升幅度可达94.1%！

在视觉深度噪声模拟实验中，随着噪声增加，融合触觉信息能够有效降低误差分布，使机器人能够在视觉信息不理想的情况下准确跟踪物体姿态。

研究意义

NeuralFeels技术的创新在于融合了多模态数据，结合了在线神经场，这些技术使机器人在操作未知物体时能够更准确地跟踪姿态和重建形状。

与复杂传感器相比，团队使用更少的硬件实现了空间感知组合，该方法也比端到端感知方法更易解释。

尽管仍有一些改进空间，例如在长期跟踪中可能会出现小误差累积导致的问题，但NeuralFeels技术在提升机械手操作精度方面效果显著。

未来，研究人员计划进一步优化技术，如通过基于特征的前端获取更粗略的初始化，加入长期闭环检测以减少姿态误差的累积，以及通过控制神经SLAM的输出进行通用灵巧性研究等。

这将大大提升机器人在复杂环境下的操作性能，包括家庭、仓库和制造业等领域！

参考资料：

[1]https://www.science.org/doi/10.1126/scirobotics.adl0628
[2]https://suddhu.github.io/neural-feels/

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。