Google让人工智能具选择性注意力，提升其泛化能力

登录注册

Google让人工智能具选择性注意力，提升其泛化能力

来源:网络
更新日期:2020-06-23

摘要：Google研究人员在GECCO 2020会议上，发布具有自注意力（Self-attention）瓶颈的人工智能代理AttentionAgent，研究人员运用不注意视盲（Inattentional Blindness），让AttentionAgent具有

Google研究人员在GECCO 2020会议上，发布具有自注意力（Self-attention）瓶颈的人工智能代理AttentionAgent，研究人员运用不注意视盲（Inattentional Blindness），让AttentionAgent具有选择性注意力，能够忽略不重要的细节，相较于传统方法，代理泛化学习参数少了1,000倍，可以更好地处理复杂的计算机视觉任务。

不注意视盲是一种人类心理现象，由于选择性注意力，因此人们会漏看视野里部分东西，Google提到，这种选择性注意机制，让人们可以专注于重要的事物上，而不分心于无关紧要的细节，他们相信这种机制可以让人们浓缩感官信息，成为一种够简洁的形式，用于未来的决策上。

尽管选择性注意力看起来像是种限制，但Google认为，从自然界观察到的这种瓶颈，可用于改善机器学习设计，通过模仿让人工智能学习，生物能够高性能解决任务的方法。过去的深度增强学习，都让人工智能代理能够访问完整的视觉输入，而Google现在以注意力限制，来减少人工智能代理访问视觉输入，以提高系统性能，不只可以大幅减少需要的参数，而且因为代理看不见部分视觉输入，因此刚好能避掉那些可能造成混淆的内容，而且查看代理把注意力集中在什么部分，还可以为其决策提供视觉的可解释性。

过去也有类似的研究，利用稀疏性来限制输入内容，而AttentionAgent则是从人类的不注意视盲获得灵感，当大脑付出努力参与任务时，大部分的注意力会集中在与任务相关的元素上，暂时对其他信号视而不见。为了要实现这件事，Google将输入的图像分割成几个小区块，然后修改自注意力架构来模拟小区块间的投票，选出重要的子集，AttentionAgent会忽略不重要的部分，仅利用重要区块做决策。

关键要素除了视觉输入的截取之外，关联这些要素随时间变化的能力也很重要，像是棒球比赛中的打者，必须利用视觉信号来连续关注棒球的位置，以预测能够打击到球的位置，AttentionAgent则会利用长短期记忆（LSTM）模型，从重要的视觉区块中截取信息，并在每个时步决定一个行动，LSTM会关注输入串行变化，并利用这项信息关注关键要素在不同时的演变。

重要区块的可视化，可让研究人员知道人工智能下决策的方法，并说明大多数的选择，是合理且符合人类主动，可作为系统开发阶段，好用的分析和调试工具，另外，Google提到，人工智能代理学会忽略非关核心任务的信息，因此经修改还可以推广应用到小环境任务。

Google的这项研究，证明仅让人工智能代理访问重要的区块，无视场景其余的部分，可以提升代理泛化（Generalize），用于解决其他任务能力，像是在VizDoom TakeCover环境接受训练的人工智能代理，也能够在其他墙壁较高、地板贴图不同，或是更多令人分心标志的环境下生存。

这样的成果可以被应用在自动驾驶上，应用晴天资料集学习驾驶的代理，也能够将驾驶技能转移到晚上或是下雨天，AttentionAgent不仅能够解决CarRacing-v0任务，在其他恶劣环境中，也能达到相近的性能，泛化需要的参数比惯用的方法少1,000倍。

不过，即便AttentionAgent能够适应环境修改，仍有其限制，像是原本周围都是绿地的赛车背景，一旦换成YouTube视频便会失效，又或是更换成均匀的噪声时，人工智能代理的注意力模块便会失效，Google提到，他们用于选择重要视觉区块的方法仍不够强健，不足以应对更复杂的任务，因此他们接下来会发展，能从视觉输入截取有意义特征的方法。