Siri不如对手？苹果AI负责人辩解：我坚信苹果会成为AI领导者

登录注册

Siri不如对手？苹果AI负责人辩解：我坚信苹果会成为AI领导者

来源:网络
更新日期:2020-08-07

摘要：在长期秘密开发AI功能之后，苹果对ML的重视在过去几年里大大提高。苹果人工智能首席执行官、前谷歌员工约翰詹南德雷亚(John Giannandrea)【腾讯科技编者按】机器学习(ML)和人

在长期秘密开发AI功能之后，苹果对ML的重视在过去几年里大大提高。

苹果人工智能首席执行官、前谷歌员工约翰詹南德雷亚(John Giannandrea)

【腾讯科技编者按】机器学习(ML)和人工智能(AI)现在几乎渗透到iPhone的每一项功能中，但苹果并没有像其他竞争对手那样大肆兜售这些技术。从历史上看，苹果在这一领域始终没有获得领先的声誉。这在某种程度上是因为人们将AI与数字助手联系起来，评论家经常称Siri不如谷歌Google Assistant或亚马逊Alexa有用。对于ML，许多科技爱好者表示，更多的数据意味着更好的模型，但苹果在数据收集方面并不像谷歌那样出名。

尽管如此，苹果在其出货的大多数设备中都包含了用于ML任务的专用硬件。当苹果高管上台介绍iPhone、iPad或Apple Watch的新功能时，机器智能驱动的功能越来越多地主导着其发布会上的主旨演讲。今年晚些时候，搭载苹果自主研发处理器Mac电脑的推出，也将为该公司的笔记本电脑和台式机带来许多相同的机器智能开发。

在苹果Apple Silicon发布后，苹果负责ML和AI的高级副总裁约翰詹南德雷亚(John Giannandrea)以及产品营销副总裁鲍勃博尔彻(Bob Borcher)接受了专访。他们描述了苹果的AI理念，解释了ML如何驱动某些功能，以及所有基于AI和ML的新功能对隐私的影响，并热情地为苹果设备上的AI/ML战略进行了辩论。

苹果的AI战略

詹南德雷亚和博尔彻都是在过去几年加入苹果的，两人之前都曾在谷歌工作。实际上，博尔彻在离开一段时间后重新加入了苹果，他在2009年之前一直担任iPhone的高级营销总监。2018年，詹南德雷亚从谷歌跳槽加盟苹果的消息被广泛报道，他曾是谷歌AI和搜索部门的负责人。

谷歌和苹果是截然不同的两家公司。谷歌以参与AI研究社区而闻名，在某些情况下还领导着AI研究社区，而苹果过去的大部分工作都是关起门自己研究。近年来，随着ML为苹果设备中的许多功能提供动力，以及苹果增加了与AI社区的接触，这种情况发生了变化。

詹南德雷亚表示：“当我加入苹果的时候，我已经是iPad的用户了，我很喜欢苹果的手写笔。所以，我会追着软件团队问：‘好吧，研究笔迹的ML团队在哪里？我找不到他们’。”事实证明，他正在寻找的团队其实并不存在。他说，考虑到ML是当今这一功能可用的最好工具之一，这令人感到惊讶。

詹南德雷亚继续称：“我知道有很多公司和机构都在研发ML，苹果也应该去做。然而令人惊讶的是，并不是所有的事情都在苹果真正进行中。但在过去的两三年里，这种情况发生了戏剧性的变化。老实说，我真的认为，在未来几年里，iOS或苹果的体验中没有一个角落不会被ML所改变。”

当被问及为何觉得苹果是最适合他的地方，詹南德雷亚的回答同时也是对该公司AI战略的简洁总结：“我认为苹果一直代表着创造力和技术的交叉。我认为，当你考虑构建智能体验时，垂直集成，从应用到框架再到硅的集成都是非常重要的。在我看来，这是一个旅程，我认为这就是我们拥有的计算设备的未来，它们是智能的，然后智能就消失了。”

博尔彻也加入了进来，他补充说：“这显然是我们的方法，我们所做的一切都是：‘让我们专注于好处是什么，而不是你是如何做到的。’在最好的情况下，它会自动完成这个过程，然后消失，你只需要关注发生了什么，而不是它是如何发生的。”

再一次谈到笔迹的例子，詹南德里亚指出，苹果在构建机器智能驱动的功能和产品方面处于最有利的地位，可以“引领行业”。他说：“我们推出了苹果手写笔，我们推出了iPad和各种软件。这是做一件非常非常好的工作的独一无二的机会。我们到底在做什么非常非常好的工作？让人们做笔记，并在数字纸上创造性地思考。我感兴趣的是看到这些经验在世界上大规模使用。”

詹南德里亚将这与谷歌进行了对比。他说：“谷歌是一家令人惊叹的公司，有一些非常棒的技术专家在那里工作。但从根本上说，他们的商业模式是不同的，他们并不以打造亿万人使用的消费者体验而闻名。”

苹果如何使用ML

在最近的营销演示中，苹果习惯于将iPhone、Apple Watch或iPad的一些功能改进归功于ML，但它很少涉及太多细节，而且大多数购买iPhone的人无论如何都没有看过这些演示。这与谷歌形成了鲜明的对比，例如，谷歌将AI置于其向消费者发送的大部分信息的中心。

虽然计算机可以比人类更快或更准确地处理某些数据，但它们最终仍然不是智能的。传统的计算机编程模式包括在任何时候提前告诉计算机要做什么：如果确实发生了这种情况，那么就这样做。但是，如果发生了其他事情，即使是很小的变化呢？嗯，程序员可以非常有创意和细致地定义复杂的行为，但机器不能自己做出判断。

而有了ML，除了告诉计算机要做什么之外，程序员还会给它一个与任务相关的数据集和一种分析该数据集的方法。然后，他们给它时间来进化，根据积极或消极的反馈，随着时间的推移，在标记或解释数据方面变得更加准确。这允许机器在算法上对它以前没有遇到过的数据做出明智的猜测，当然，前提是新数据与它被训练的数据相似的话。

如今，当大型科技公司谈论AI时，他们通常指的是ML。ML是AI的一个子集，许多备受赞誉的功能（比如图像识别）都是由称为“深度学习”的ML驱动的。在苹果的软件和设备中使用ML的例子不胜枚举，其中大多数都是在过去几年里才出现的。

当用户使用苹果手写笔绘图时，ML被用来帮助iPad的软件区分用户是不小心将手掌按在屏幕上，还是故意按下提供输入的按键。它用于监控用户的使用习惯，以优化设备电池续航时间和充电时机，既可以延长用户两次充电之间的时间，也可以保护电池的长期生存能力。它还被用来提供应用程序推荐。

然后是Siri，这可能是任何iPhone用户都会立即感觉到的AI。ML推动了Siri的几个方面，从语音识别到Siri试图提供有用的答案等。精明的iPhone用户可能还会注意到，Photos应用程序能够自动将照片分类到预先制作的图库中，或者当你在应用程序的搜索域中输入一个名叫Jane的朋友的照片时，准确地给出她的照片，这一点也得益于ML。

在其他情况下，很少有用户会意识到ML正在发挥作用。例如，每次轻触快门按钮时，iPhone可能会快速连续拍摄多张照片。然后，经过ML训练的算法分析每一幅图像，并将它认为每幅图像中最好的部分合成到一个结果中。

AI是Apple Watch中苹果洗手辅助功能的幕后推手

长期以来，手机一直包括图像信号处理器(ISP)，用于数字化和实时提高照片质量，但苹果在2018年加快了这一进程，让iPhone中的ISP与该公司最近添加的专注于ML的处理器神经引擎密切合作。

詹南德雷亚谈了苹果在其最近软件和产品中使用ML的一些方式，他列举了一系列例子：“有一大堆由ML提供动力的新体验，包括语言翻译，或者我们关于健康的新功能，比如睡眠和洗手，以及我们过去发布的关于心脏健康的东西等等。我认为iOS中不使用ML的地方越来越少。”

他还称：“如果你不做些预测性的工作，你很难找到体验的一部分。比如，应用程序预测，或者键盘预测，或者现代智能手机摄像头在幕后进行大量的ML操作以找出他们所说的‘显著性’，也就是说，图片中最重要的部分是什么？或者，如果你想象做背景模糊，你就是在做肖像模式。所有这些都得益于苹果核心平台内置的核心ML功能。”

博尔彻也指出，可访问性功能是重要的例子。他说:“正因为如此，它们才得以从根本上获得并成为可能。像声音探测能力这样的东西，对这个特定的社区来说堪称是改变游戏规则的功能，它是可能实现的，因为随着时间的推移，投资会越来越多，内置的能力也越来越强大。”

此外，你可能已经注意到，苹果在过去几年的软件和硬件更新都强调了增强现实（AR）功能。多亏了ML，这些功能中的大多数都成为可能。詹南德雷亚说：”ML在AR中被大量使用。那里的难题是所谓的SLAM，也就是同步定位和测绘。所以，试着理解一下，如果你有一台装有激光雷达扫描仪的iPad，当你四处走动时，它会看到什么？为它实际看到的东西建立一个3D模型。今天使用的是ML，它需要能够在设备上进行，因为用户希望能够实时进行。如果你挥舞着你的iPad，然后可能不得不在数据中心这样做，这是没有意义的。所以总的来说，我的看法是，特别是深度学习给了我们从原始数据到关于这些数据语义的能力。”

苹果越来越多地在设备上、在苹果神经引擎(ANE)等硬件上或在公司定制的GPU(图形处理单元)上执行ML任务。詹南德雷亚和博尔彻都认为，正是这种方法使苹果的战略在竞争对手中显得独树一帜。

ML需要在设备上完成

詹南德雷亚和博尔彻都认为，上述设想的功能是可能实现的，因为所有的工作都是在设备上本地完成的。他们有一种共同的说法，将ML归结为更多的数据意味着更好的模型，这反过来意味着更好的用户体验和产品。

这就是为什么旁观者经常指出谷歌、亚马逊或Facebook可能是AI领域统治者的原因之一。这些公司运营着大量的数据收集引擎，部分原因是它们运营并完全了解已经成为世界大部分地区关键数字基础设施的东西。按照这一标准，有些人认为苹果的表现不太可能那么好，因为它的商业模式不同，而且它已经公开承诺限制数据收集。

对此，詹南德雷亚解释称：“我理解这种认为数据中心的大型模型在某种程度上更准确的想法，但从技术上讲，实际上它是错误的。最好在接近数据的地方运行模型，而不是到处移动数据。不管是位置数据（比如你在做什么）还是锻炼数据（你手机里的加速度计在做什么），最好离数据的来源近一点，这样也保护了隐私。”

詹南德雷亚和博尔彻都多次就在数据中心做这项工作对隐私的影响提出了一些观点，但前者称，本地处理也与性能有关。詹南德雷亚说：“另一个大问题是延迟。如果你要向数据中心发送东西，以帧速率传输真的很难。所以，我们的应用商店里有很多应用程序可以做一些事情，比如姿势估计，比如识别人的走动，以及识别他们的腿和手臂的位置。这是我们提供的一个高级API。本质上，只有当你可以以帧速率来做这件事时，这才是有用的。”

他给出了另一个消费者用例示例：“你正在拍照，而在你用相机拍照之前的那一刻，相机会实时地看到一切。它可以帮助你决定何时拍照。如果你想在服务器上做出决定，你必须将每一张照片都发送到服务器上，以决定如何拍照。这没有任何意义，对吧？因此，有很多用户想要构建的体验，最好在边缘设备上实现。”

当被问及苹果如何选择何时在设备上做一些事情时，詹南德雷亚的回答很简单：“什么时候我们可以达到或超过我们在服务器上可以做的事情的质量。”

此外，两位苹果高管都将苹果的定制芯片，特别是自iPhone 8和iPhone X以来包含在iPhone中的苹果神经引擎(ANE)芯片，归功于在这种设备上处理的先决条件。神经引擎是苹果设计的一个八核神经处理单元(NPU)，用于处理某些类型的ML任务。

詹南德雷亚说：“这是一个多年的旅程，因为五年前在边缘领域还没有硬件可以做到这一点。ANE的设计是完全可扩展的。iPad上的ANE比手机或Apple Watch更大，但我们的应用程序和开发者应用程序的CoreML API层在整个产品线上基本上是一样的。”

当苹果公开谈论神经引擎时，该公司分享了性能数据，比如2018年A 12芯片的每秒5万亿次操作。但它并没有具体说明芯片的架构。从字面上看，它就是苹果演示文稿幻灯片上的一个黑匣子。

展示阶段的苹果神经引擎

有鉴于此，对于能否更多地阐明神经引擎是如何工作的，詹南德雷亚拒绝透露太多细节。相反，他说，应用程序开发者可以从CoreML收集到他们需要知道的所有信息，CoreML是一种软件开发API，为开发者提供访问iPhone ML功能的途径。

詹南德雷亚说：“CoreML developer API非常清楚地概述了我们支持的ML模型、运行时模型的种类。我们支持越来越多的内核。你从任何流行的ML工具，比如PyTorch或TensorFlow中选择CoreML作为目标，然后基本上就能编译出你的模型，然后把它交给CoreML。CoreML的工作是找出在哪里运行该模型。也许在ANE上运行模型是正确的，但是在GPU上运行模型或者在CPU上运行模型也是可行的。我们的CPU也有ML优化功能。”

在采访中，两位高管都指出第三方开发者的应用程序与苹果自家应用程序一样多。这里的战略不仅仅是推动苹果开发的服务和功能，它至少向广大开发者社区开放了部分功能。自2008年应用商店（App Store）首次上线以来，苹果一直依赖开发者在其平台上创新。该公司经常借用那些开发者在更新自己内部开发的应用程序时想出的想法。

当然，并不是只有苹果的设备内置了ML芯片。例如，三星、华为和高通都在其片上系统(System-on-a-Chip)中包含NPU。谷歌也向开发者提供ML API。尽管如此，谷歌的战略和商业模式还是有明显的不同。安卓手机在本地执行的ML任务几乎不是那么广泛。

搭载Apple Silicon的Mac电脑

詹南德雷亚和博尔彻接受采访的重点并不是几周前该公司在WWDC上宣布的重大事项，即将推出搭载苹果自主研发芯片Apple Silicon的Mac电脑。但当被问及苹果围绕自家芯片设计Mac的众多原因之一可能是加入了神经引擎时，博尔彻说：“我们将首次拥有一个公共平台，一个可以支持我们自己和开发者想要做的事情的硅片平台。这将解锁我们能想到的一些有趣的东西，但更重要的是，可能会在其他开发者前进的过程中为他们解锁许多东西。”

从技术上讲，这是首款搭载Apple Silicon的Mac电脑，即开发者过渡工具包

对于苹果的ML工具和硬件将如何在Mac上使用，詹南德雷亚给出了一个具体的例子：“我不知道你是否看过国情咨文中的演示，但基本上的想法是：给定一段视频，逐帧地检查视频，然后进行物体检测。你可以在我们的硅片上比在传统平台上快一个数量级以上。然后，你会说：‘好吧，那很有趣，但这有什么用呢？’想象一下一个视频编辑器，你有一个搜索框，你可以说：‘给我找桌子上的披萨。’它就会擦到那个框上。这些都是我想你会看到人们想出来的体验。我们非常希望开发者使用这些框架，让我们惊讶于他们能用它做些什么。”

苹果在其开发者大会上表示，计划从今年晚些时候开始发货配备自家处理器的Mac电脑。

继续关注隐私？

在过去的几年里，隐私始终是苹果向用户发送信息的首要内容。它在主旨演讲和营销材料中被一次又一次地提到，iOS中充斥着关于保护隐私的提醒，这个话题也经常在采访中出现，这一次也是如此。

詹南德雷亚说：“人们很担心AI，因为他们不太理解它到底是什么。他们认为它比实际更有能力，或者他们想到了那些有关AI的科幻观点，像比尔盖茨（Bill Gates）和埃隆马斯克（Elon Musk）等有影响力的人都说这是一项危险的技术。”詹南德雷亚认为，其他大型科技公司对AI的炒作对这些公司的营销努力是负面的，而不是积极的，“因为人们对这项技术感到担忧”。

术语“AI”在这里可能没有帮助。它唤起了流行文化中的恶意形象，比如“天网”或HAL 9000。但大多数应用AI专家会告诉你，这种黑暗幻想与现实相去甚远。由ML驱动的技术有很多风险，例如继承和放大人类的偏见，但在不久的将来，似乎不太可能出现流氓和暴力攻击人类的情况。

ML实际上并不像人类预想的那样，让机器变得更加智能。由于这个原因和其他原因，许多AI专家(包括詹南德雷亚)提出了其他术语，如“机器智能”，这些术语与人类智能不能相提并论。但不管是什么名称，ML都可能带来一个非常真实和现实的危险：破坏用户的隐私。有些公司积极收集用户的个人数据，并将其上传到数据中心，以ML和培训为理由。

如上所述，苹果在用户设备上进行大量的本地数据收集和处理。詹南德雷亚明确地将这一决定与隐私问题联系在一起。他说：“我认为我们在这一点上有非常明确的立场，那就是我们将在尽可能多的情况下在你的设备上进行这种ML操作，数据不会离开你的设备。我们有非常明确的声明，说明为什么我们认为我们的设备更安全或更好，或者应该更值得信任。”

他使用“文本到语音”作为这一理念在实践中的一个具体例子：“如果你说这样的话，‘给我读一下鲍勃发来的信息’，文本到语音的合成是在设备上进行的，是在神经引擎和CPU相结合进行的。正因为如此，我们从未看到鲍勃发给你的邮件内容，因为你的手机正在读出它，而不是服务器在读出它。所以，那条信息的内容从未传到服务器上。”

詹南德雷亚还称：“这是一个很好的例子，说明先进技术实际上改善了用户效用，因为语音是在设备上合成的，所以即使你断开了连接，它仍然可以工作。还有隐私保护，这实际上真的很难做到。为了让现代高质量的文本到语音功能在一个可以放在口袋里的设备上合成，需要完成许多真正艰苦的工程。”

当然，在很多情况下，你必须使用一些用户数据来培训ML。那么，苹果到底是如何使用它所处理的用户数据的呢？詹南德雷亚解释说：“一般来说，我们有两种方法来构建模型。一个是我们收集和标记数据的地方，这在许多情况下都是合适的。还有一种情况是，我们要求用户捐赠他们的数据。最著名的例子是Siri，当你设置iPhone时，我们会问：‘你愿意帮助改进Siri吗？’这是一种将数据捐赠给我们，然后其中很小一部分可能用于培训的情况。但我们在这里谈论的很多事情是，我们可以收集足够的数据来训练这个模型，基本上可以处理每个人的笔迹，而根本不需要使用任何消费者数据。”

其中一些要求使用用户数据的提示是最近添加的。去年夏天，一份报告显示，Siri正在记录用户在意外激活后说的话，同时负责Siri功能质量保证的承包商正在听到其中一些录音。苹果的回应是，在用户明确选择通过共享录音来改善Siri之后，苹果承诺只存储与Siri相关的音频，然后将所有的质量保证都带到了内部。

在被问及苹果在处理这些数据时与承包商有什么不同时，詹南德雷亚回答说：“我们有很多保障措施。例如，有一个识别音频是否针对智能助手的过程，该过程与实际查看音频的过程完全分开。因此，我们在内部做了很多工作，以确保我们不会捕获（然后实际上是丢弃）任何意外的音频。”

他还称：“但是如果你不愿意捐赠数据帮助改善Siri的性能，那么你就永远不会把意外的录音做得更好。如你所知，ML要求不断改进它。因此，我们实际上在将工作带到内部的同时，对我们的工作流和流程进行了大量检修。我非常有信心，我们有一个非常好的流程，可以在保护隐私的情况下改进Siri。”

很明显，苹果正在寻求将隐私保护作为其设备的一项关键功能。在詹南德雷亚看来，这给人的印象是真正的信念。但它也可能在市场上帮助苹果，因为它在移动领域的最大竞争对手在隐私方面的记录要糟糕得多，随着用户越来越担心AI对隐私的影响，这留下了一个机会。

在采访中，詹南德雷亚和博尔彻都重申了苹果战略的两点：1)在本地执行ML任务更有效率；2)这样做更能“保护隐私”，詹南德雷亚在谈话中重复了几次这个具体的措辞。

走到聚光灯下

在长期秘密开发AI功能之后，苹果对ML的重视在过去几年里大大提高。该公司定期出版论文，进行学术赞助和实验室赞助，推出奖学金，参加AI/ML会议等。苹果最近重新开通了一个ML博客，在那里分享了一些研究成果。它也一直在大举招聘，在ML领域招聘工程师和其他人，包括两年前招募到詹南德里亚本人。

还记得詹南德雷亚说他很惊讶ML没有被用来支持识别苹果手写笔笔迹的事情吗？他接着看到了实现这一目标的团队的创建。与其他团队一起，他们在ML驱动的手写方面取得了进展，这是iPad OS 14的基石。

詹南德雷亚说：“我们在苹果有很多令人惊叹的ML研发人员，我们会继续聘用他们。我发现吸引世界级人才到苹果非常容易，因为在我们的产品中，越来越明显的是，ML对于我们想要为用户打造的体验至关重要。”短暂停顿后，他补充道：“我想我遇到的最大问题是，我们许多最雄心勃勃的产品都是我们不能谈论的产品，所以告诉别人，‘来做有史以来最雄心勃勃的事情吧，但我不能告诉你它是什么。’这是一种销售挑战。”

如果大型科技公司和风险投资是可信的，那么AI和ML在未来几年只会变得更加无处不在。无论结果如何，詹南德里亚和博尔彻明确表示：ML现在已被植入苹果产品的大部分操作中，也在消费者日常使用的许多功能中发挥了作用。随着今年秋天开始在Mac电脑上安装神经引擎，ML在苹果担任的角色可能变得日益重要。（腾讯科技审校/金鹿）