听声辨物！不再只靠视觉和触觉，机器人用“耳朵”听来区分不同物体

登录注册

听声辨物！不再只靠视觉和触觉，机器人用“耳朵”听来区分不同物体

来源:网络
更新日期:2020-08-17

摘要：人们很少只用一种感觉来理解世界，但机器人通常只依靠视觉，并且越来越多地依靠触觉。近年来，研究人员开发了越来越多的计算技术，使机器人具有类似人类的能力。然而，到目前为止发展

人们很少只用一种感觉来理解世界，但机器人通常只依靠视觉，并且越来越多地依靠触觉。近年来，研究人员开发了越来越多的计算技术，使机器人具有类似人类的能力。然而，到目前为止发展起来的大多数技术仅仅注重于人为地再现视觉和触觉，而忽略了其它的感觉，如听觉。

现在，卡耐基梅隆大学的研究人员发现，机器人的感知能力可以通过增加另一种感官来显著提高：听觉。

卡内基梅隆大学 ( CMU ) 的一个研究小组最近进行了一项研究，探索利用声音开发具有更先进传感能力的机器人的可能性。他们的论文发表在《机器人技术 : 科学与系统》上，介绍了迄今为止最大的声音 - 动作 - 视觉数据集，该数据集是作为一个名为 Tilt-Bot 的机器人平台收集的，并与各种各样的物体进行交互。

在机器人学习中，我们通常只使用视觉输入来进行感知，但人类有更多的感官模式，而不仅仅是视觉。开展这项研究的研究人员之一 Lerrel Pinto 说。声音是学习和理解我们的物理环境的关键组成部分。所以，我们问了这个问题 : 声音能给机器人带来什么 ? 为了回答这个问题，我们创造了 Tilt-Bot，一个机器人可以与物体互动，并收集大规模的视听数据集的互动。

研究人员收集了 15000 多个 Tilt-Bot 与 60 个不同物体互动的视觉和音频数据。这使得他们能够汇编一个新的图像和音频数据集，可以帮助训练机器人在动作、图像和声音之间建立联系。

在论文中，Pinto 和他的同事们使用这个数据集来探索机器人应用中声音和动作之间的关系，收集了许多有趣的发现。首先，他们发现分析物体移动和撞击表面的声音记录可以让机器区分不同的物体，例如区分金属螺丝刀和金属扳手。

Pinto 解释说 : 我们研究的一个令人兴奋的初步结果是，仅凭声音就可以识别出物体的类型，准确率接近 80%。我们还证明，机器可以学习基于声音的物体表示，这可以帮助机器人解决以后的任务。例如，当识别空酒杯的声音时，机器人会明白操作空酒杯和操作满酒杯需要不同的动作。

有趣的是，Pinto 和他的同事们发现，在解决机器人任务时，声音记录有时能比视觉表现提供更有价值的信息，因为它们也可以用来有效地预测一个物体的未来运动。在一系列使用机器人在训练中没有遇到过的物体的实验中，他们发现机器人与这些物体交互时收集到的嵌入音频可以预测正向模型 ( 也就是前向模型 ) 。 ( 例如，如何在未来最好地操纵一个物体 ) 比被动的视觉嵌入好 24%。

其它领域的大量初步工作表明，声音可能有用，但它在机器人技术上有多大用处尚不清楚。Pinto 补充说，研究结果令人鼓舞，这可能会为未来的机器人装备工具手杖，使它们能够敲击想要识别的物体。

研究人员在上个月的虚拟机器人科学与系统会议上展示了他们的发现。其他团队成员包括机器人学副教授 Abhinav Gupta，以及现任 Facebook 人工智能研究中心匹兹堡实验室科学家的 Dhiraj Gandhi。

研究人员创建的这个大型数据集，同时记录 60 种常见物品的视频和音频，比如玩具积木、手工工具、鞋子、苹果和网球，当这些物品在托盘上滑动或滚动并撞到托盘侧面时。此后，他们发布了这个数据集，对 15000 个互动进行了分类，供其他研究人员使用。

研究小组采用 Tilt-Bot 的实验设备来捕捉这些互动。Tilt-Bot 是一个附在 Sawyer 机器人手臂上的方形托盘。这是建立大型数据集的有效方法 ; 他们可以在托盘中放置一个物体，让 Sawyer 花上几个小时在不同倾斜程度的随机方向移动托盘，同时摄像头和麦克风记录下每个动作。

他们还收集了托盘之外的一些数据，使用 Sawyer 推动表面上的物体。

尽管这个数据集的规模是前所未有的，其他研究人员也研究了智能代理如何从声音中收集信息。例如，机器人学助理教授奥利弗克罗默 ( Oliver Kroemer ) 领导了一项研究，通过摇动一个容器，利用声音来估计大米或意大利面等颗粒状物质的数量，或者估计这些物质从勺子中流出的量。

Pinto 说，声音对机器人的有用性并不令人惊讶，尽管他和其他人对声音被证明如此有用感到惊讶。例如，他们发现，机器人可以利用它所学到的一组物体的声音来预测之前未见过的物体的物理特性。

他说 : 我认为真正令人兴奋的是，当它失败的时候，它是在你预期会失败的事情上失败。例如，机器人不能用声音分辨红色积木和绿色积木。但如果是不同的物体，比如一块积木和一个杯子，它就能搞清楚。

这个研究小组收集的数据集可以最终帮助开发机器人，这些机器人可以根据在周围环境中收集的音频和图像来选择自己的动作和对象操作策略。Pinto 和他的同事们现在正计划进一步研究声音分析的潜力，以创造出更先进的能力的机器人。

Pinto 说 : 这项工作只是将声音整合到机器人中的第一步。在我们未来的工作中，我们将着眼于声音和行动的更多实际应用。

编译 / 前瞻经济学人 APP 资讯组

原文来源：

https://techxplore.com/news/2020-08-action-ears-eyes-robot-perception.html

https://techxplore.com/news/2020-08-exploring-interactions-action-vision-robotics.html