谷歌开测语音支付,张嘴就能付钱真能现实吗

  • 来源:网络
  • 更新日期:2020-05-28

摘要:随着技术的进步,如今移动支付的手段也早已呈现出日新月异的景象,从早前输入繁琐的密码,现在已经有了更加方便安全的指纹与人脸识别。不过现在在智能手机上已经很常见的声纹识别

随着技术的进步,如今移动支付的手段也早已呈现出日新月异的景象,从早前输入繁琐的密码,现在已经有了更加方便安全的指纹与人脸识别。不过现在在智能手机上已经很常见的声纹识别,却很少被应用到支付领域。而在近日有消息显示,谷歌方面已经开始着手在旗下产品中,落地这项 张嘴就能付钱 的语音支付功能。

据相关媒体的报道显示,目前谷歌已经正在测试一项新功能,将允许消费者使用语音匹配(Voice Match)进行授权确认支付。而谷歌方面也证实,并不是所有的购买都会提供语音识别,现阶段这项功能仅适用于 APP 内购与餐厅订单,并不适用于谷歌购物(Google Shopping)。

按照该报道中的说法,这一语音支付功能原本计划在今年 I/O 开发者大会上发布,但由于疫情的原因只能跳过发布直接开始测试。目前在位于 Google Assistant (谷歌语音助手)的支付界面中,就能看到 Confirm with Voice Match 的选择。

事实上,语音支付这项技术其实并不新潮,甚至于比语音助手所依赖的自然语言处理 ( NLP)更加古老。没错,语音支付与自然语言处理尽管说都与语音相关,但二者却有着天壤之别,语音支付的本质是进行声纹识别,但声纹识别显然并不等于语音识别。

而声波传输是利用声音作为传输方式的一种数据通信模式,比如我们说话的过程,就可以理解为把信号编码成声音的过程。而聆听的过程,则是把音频信号解码成语言文字的过程,所使用的汉字与拼音之间的对应关系,其实就相当于是音频协议。

但声纹识别则是个性识别,需要通过提取语音中的声纹特性,判断说话的人是谁,也就是解决 谁在说话 的问题。而语音识别是共性识别,判断的是说话的内容,解决 说了什么 的问题。显而易见,在语音支付中最重要的,是判断说出支付命令的人是谁。

由于每个人的发声器官在尺寸与形态方面大概率不会完全一致,因此这些差异也导致了发声气流的改变,进而产生了声纹的差异。所以我们才能 未见其人,先闻其声 ,通过音色、音调和说话习惯,可以判断声音主人的身份,因此同理也能用算法提取语音信息中明显的、抽象高维的声纹特征,并用深度学习来训练模型,进而利用具备独特性的生物特征,来证明 我是我自己 这样的命题。

事实上,使用声纹识别来完成语音支付的过程很简单。就是用户发出带有确定命令的声波,终端设备获取这一声波并转化为会话(Session),并将具体的商品信息以及交易号发送到谷歌后台,其在服务器端匹配了声纹信息后就能开始进行交易操作,最后再将完成交易的信息,推送到谷歌语音助手中。

而在谷歌此次确认测试语音支付之前,亚马逊方面在去年秋天就已经开始允许用户使用语音命令在自家的 Alexa 上支付账单,一旦用户使用类似 Alexa,支付我的移动账单 来批准交易,Alexa 将使用 Amazon Pay 支付账单金额,并通过用户注册的手机号码发送确认。此外,国内市场的天猫精灵也早已可以使用语音支付,根据阿里方面公布的数据显示,仅在去年双十一期间,天猫精灵上就共有 105 万笔订单是通过说话的方式支付成功。

不过谷歌想要实现的,显然并不仅仅是在自家 Google Home 智能音箱上使用语音支付,而是瞄准了适配场景更为广阔的智能语音助手。不过谷歌能想到的,亚马逊与阿里难道想不到吗?在智能语音助手上全面接入语音支付,毫无疑问会大幅度提升用户的使用体验,毕竟相比于人脸与指纹识别,声纹识别的便捷性要高得多。

但亚马逊与阿里选择将这一功能局限到智能音箱这种通常放在家中的设备上,其实极有可能是有一番深意的。语音相比于指纹或者面部信息来说由于有着可控性更低的因素,毕竟用户可以自主决定是将手指放在指纹识别模块上,或将脸放在镜头前,但却无法这样控制声音的传播。

更为重要的一点是,指纹信息很难被采集,面部识别通常需要配备活体检测,但是声纹识别不仅很容易收集,同时也很难判断用户在说出支付命令时的状态。再加上如今 AI 技术已经全面扩散,通过深度学习模型、波形编辑工具,拼接出指定内容的语音数据,几乎完全可以复刻出用户的声纹频谱。

并且语音支付的安全问题不仅仅只出现在客户端,服务端同样面临也有一定的风险。语音支付可以看做是一次数据交互,例如 cookie 机制所采用的是在客户端保持状态的方案,而 Session(会话)机制采用的是在服务器端保持状态的方案,在用户第一次访问服务器时会为客户端创建一个 Session,并通过特殊算法算出一个 Session 的 ID,用于标识对象。

然而由于语音支付并不是一次性行为,用户下次与服务器进行数据交互就需要通过 SessionID 来完成。然而,SessionID 的实现机制导致了其可能会遭到劫持,比如说经典的 XSS 跨站点脚本攻击、网络嗅探、代理人劫持等不同攻击模式,如果 SessionID 被劫持,黑客就能获得目标用户的合法会话,那么接下来就能像信用卡盗刷一样掏空被盗者的钱包。

因此这或许也是谷歌自己坦言,如果反馈与性能都太过负面,该功能甚至可能不会向公众推出的重要原因之一。因此在谷歌没有解决至关重要的安全性问题之前,想要张张嘴就能完成购物体验,或许暂时只能在智能音箱上得以实现了。

【本文图片来自网络】