新网Logo
首页>互联网热点>

像特朗普一样?新 AI 模型可以让机器人边说话边配合标志性手势

登录 注册

像特朗普一样?新 AI 模型可以让机器人边说话边配合标志性手势

  • 来源:网络
  • 更新日期:2020-08-18

摘要:AI 正变得越来越智能,许多机器人产品已经可以和人有效交流。但是,要完全复制人类的交流,AI 要做的不仅是知道该说什么,还应该模仿正常人说话时的行为——比如说,大家一听到特朗普

AI 正变得越来越智能,许多机器人产品已经可以和人有效交流。但是,要完全复制人类的交流,AI 要做的不仅是知道该说什么,还应该模仿正常人说话时的行为——比如说,大家一听到特朗普的声音,就会想到他标志性的手势。

卡内基梅隆大学的研究人员最近进行了一项研究,希望虚拟助手和机器人在和人交流时,能像人一样配合一些自然手势。他们将这种可以自动适配交流内容、产生自然手势的模型叫做 Mix-StAGE。目前论文发表在预印本平台 arXiv,并计划于于 2020 年欧洲计算机视觉会议 ( ECCV ) 上发表。

Mix-StAGE 的关键思想是将许多不同样式的手势纳入一个通用的手势空间。此手势空间包含所有可能的手势,这些手势按样式分组。Mix-StAGE 的后半部分学习如何在与输入语音信号同步的同时预测任何给定样式的手势,这一过程称为样式转移。

Mix-StAGE 经过培训可以为多个说话者产生有效的手势,学习每个说话者的独特风格特征并产生与这些特征匹配的手势。另外,该模型可以为另一位演讲者的语音生成一个演讲者风格的手势。例如,它可以生成与说话者 A 所讲的手势相符的手势,而手势通常由说话者 B 使用。

与以前的方法要求每种样式都需要一个单独的模型不同,新方法能够用一个模型 ( 即涉及较少的内存 ) 来表示许多手势样式。

为了训练 Mix-StAGE,研究人员汇编了一个名为 Pose-Audio-Transcript-Style ( PATS ) 的数据集,其中包含 25 个说话的人的语音记录,总计 250 个小时以上,并且与手势匹配。在目前的研究中,当生成手势时,模型专注于语音的非语言部分 ( 例如,韵律 ) 。下一步则是将语音的言语部分作为另一种输入。

译 / 前瞻经济学人 APP 资讯组

参考资料:

[ 1 ] https://techxplore.com/news/2020-08-mix-stage-gestures-accompany-virtual-agent.html

[ 2 ] https://arxiv.org/abs/2007.12553