清华大学领衔，99 页报告揭秘人机交互的发展状况及未来发展趋势

登录注册

清华大学领衔，99 页报告揭秘人机交互的发展状况及未来发展趋势

来源:网络
更新日期:2020-06-10

摘要：第一次使用手机语音助手的时候，它总是会在我兴冲冲地问一个问题之后，令人失望地回答一句：“我好像听不懂你在说什么……”后来技术演进，它终于能够通过我

第一次使用手机语音助手的时候，它总是会在我兴冲冲地问一个问题之后，令人失望地回答一句：“我好像听不懂你在说什么……”

后来技术演进，它终于能够通过我的一些关键词，听懂我说什么了。但一板一眼，一字一句，程式化十足。

不可否认，人工智能正在变得越来越“聪明”，也越来越贴近人类，未来它会是什么样子呢？

近日，清华由清华大学人工智能研究院、北京智源人工智能研究院和清华-中国工程知识智能联合研究中心发布了《人工智能之人机交互》报告（以下简称《报告》），《报告》梳理了其概念定义和发展历程，重点研究了主要技术的发展情况、领域专家现状和应用领域，并探讨了人机交互未来发展趋势。

如果您想获得本报告的全文pdf，请在雷锋网(公众号：雷锋网)(公众号：雷锋网)(公众号：雷锋网(公众号：雷锋网))微信（leiphone-sz）回复关键词“609报告”提龋

文档来源：清华大学人工智能研究院

一、人机交互发展史

1、概念

人机交互（Human-Computer Interaction, HCI），作为一个术语，首次使用是在由 Stuart K. Card，Allen Newell 和 Thomas P. Moran 撰写的著作“The Psychology of Human-Computer Interaction”里，它是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机交互界面通常是指用户可见的部分，用户通过人机交互界面与系统交流，并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一，它与认知学、人机工程学、心理学等学科领域有密切的联系。

人机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会、深入群体，达到广泛应用的技术门槛。任何一种新交互技术的诞生，都会带来其新的应用人群、新的应用领域，带来巨大的社会经济效益。

从企业的角度，改善人机交互能够提高员工的生产效率，学习人机交互能够降低产品的后续支持成本。

在个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。

在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术进行社会活动，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向。

2、发展历程

过去的几十年间，人机界面经历了从命令行界面到图形用户界面两个主要发展阶段的演变；近年来，人机界面的发展越来越强调交互的自然性，即用户的交互行为与其生理和认知的习惯相吻合，随之出现的主要的交互界面形式为触摸交互界面和三维交互界面。

命令行界面

基于命令行界面（Command-line Interface, CLI），用户使用键盘按照一定的规则输入字符，以形成可供机器识别的命令和参数，并触发计算机进行执行。

其优点是由于键盘输入相对较高的准确率，以及几乎不需要冗余的操作，所以熟练的用户可以达到非常高的交互效率，同时，通过规则的设计，命令行界面也能支持丰富灵活的指令形式。

命令行界面的缺点在于交互非常不直观，由于机器命令与自然语言的构造规则往往相去甚远，所以用户需要记忆大量的指令，有时甚至需要具备计算机领域的专业知识和技能，才能达到较高的使用效率。这对于新手用户而言大大提升了学习成本，也显著影响了普通用户使用命令行界面时的体验。

图形用户界面

图形用户界面一般包括窗口（Window）、图标（Icon）、菜单（Menu）和指针（Pointer）这四类主要的交互元素。用户通过控制指针来对窗口、图标和菜单等显示元素进行指点（Pointing）操作，从而完成交互任务。广义的图形用户界面泛指一切用图形表征程序命令和数据的界面系统，但在狭义上，图形用户界面一般指个人电脑（PC）上的二维 WIMP 界面。此时，用户与界面交互的设备一般是键盘和鼠标。

图形用户界面的一大优势是摆脱了抽象的命令，通过利用人们与物理世界交互的经验来与计算机交互，从而显著降低了用户的学习和认知成本。然而，由于图形用户界面的基本操作是指点，即用户需要使用指针来选择交互目标，因而其往往对用户指点操作的精度有较高的要求。此外，由于鼠标设备所在的控制域（Motor Space）与界面显现的显示域（Visual Space）是分离的，因而用户需要对目标进行间接的交互操作（Indirect Manipulation），从而更加增加了交互的难度。

触摸交互界面

触摸交互界面一般包括页面（Page）、控件（Widget）、图标（Icon）和手势（Gesture）这四类主要的交互元素。用户通过触摸、长按、拖拽等方式直接操控手指接触的目标，或者通过绘制手势的方式触发交互指令。

目前，触摸界面主要存在于智能手机和可穿戴设备（如智能手表）等设备上。触摸交互界面的优势是充分利用了人们触摸物理世界中物体的经验，将间接的交互操作转化为直接的交互操作（ Direct Manipulation），从而在保留了一部分触觉反馈的同时，进一步降低了用户的学习和认知成本。

然而，触摸操作受困于著名的“胖手指问题”，即由于手指本身的柔软，以及手指点击时对于屏幕显示内容的遮挡，在触屏上点击时往往难以精确地控制落点的位置，输入信号的粒度远远低于交互元素的响应粒度。同时，由于触摸交互界面的形态仍然为二维界面，所以这限制了一些与三维交互元素的交互操作。

三维交互界面

用户一般通过身体（如手部或身体关节）做出一些动作（如空中的指点行为，或者肢体的运动轨迹等），以与三维空间中的界面元素进行交互，计算机通过捕捉用户的动作并进行意图推理，以触发对应的交互功能。

目前，三维交互界面主要存在于体感交互、虚拟现实、增强现实等交互场景中。

三维交互界面的优势是进一步突破了二维交互界面的限制，将交互扩展到三维空间中。因此，用户可以按照与物理世界中相同的交互方式，与虚拟的三维物体进行交互，从而进一步提升交互自然度，降低学习成本。

不过，三维交互的挑战在于由于完全缺乏触觉反馈，所以用户动作行为中的噪声相对较大，而且交互动作与身体的自然运动较难区分，因而输入信号的信噪比相对较低，较难进行交互意图的准确推理，限制了交互输入的准确度。

此外，由于相对于图形用户界面和触摸交互界面，动作交互的幅度一般较大，所以交互的效率也较低，同时更容易让用户感到疲劳。

二、技术发展方向

目前，人机交互技术主要发展方向包括以下几个类别：

触控交互、声控交互、动作交互、眼动交互、虚拟现实输入、多模式交互以及智能交互等。

1、触控交互

显示器从仅向用户输出可视信息到成为一种交互界面装置主要是归因于触控功能与显示器的一体化模式，尤其是在移动装置上的使用。

目前有四种技术方式能实现触控交互。

电阻式触控技术

电阻触摸屏通过压力感应原理来实现对屏幕进行操作和控制。当手指触摸屏幕时，薄膜下层的 ITO 会和玻璃上层的 ITO 有一个接触点，在 X 轴方向就其中一面导电层导通了 5V 均匀电压场，此时采样得到的电压由零变为一个正电压值，感应器检测到电压导通，传出相应的电信号，进行模/数转换，最终将转换后的电压值与 5V 相比，即可计算出触摸点的 X 轴坐标值。同理可以计算出 Y 轴的坐标值，这样就完成了点选的动作，并呈现在屏幕上。

电容式触控技术

当手指触摸电容式触摸屏时，在工作面接通高频信号，此时手指与触摸屏工作面形成一个耦合电容，这相当于导体，因为工作面上有高频信号，手指触摸时在触摸点吸走一个小电流，这个小电流分别从触摸屏的四个角上的电极流出，流经四个电极的电流与手指到四角的直线距离成比例，控制器通过对四个电流比例的计算，即可得出接触点坐标值。

红外触控技术

当手指触摸屏幕时，红外光线将被阻断，依次选通红外发射管及其对应的红外接收管，在屏幕上方形成一个红外线矩阵平面，从而致使红外接收端的电压产生变化，红外接收端的电压经过 A/D 转换送达控制端，控制端将据此进行计算得出触摸位置。

表面声波触控技术

表面声波式触摸屏主要依靠安装在强化玻璃边角上的超声波换能器来实现触摸控制的。当手指触摸显示屏时，手指阻挡了一部分声波能量的传播，此时接收波形将会发生变化，在波形图上可以看见即某一时刻波形发生衰减，通过这个衰减信号控制器就可以计算出触摸点位置。

2、声控交互

语音识别

语音识别是将音频数据转化为文本或其他计算机可以处理的信息的技术。主要由 4 个部分组成：特征提娶声学模型、语言模型和解码器搜索。

语音合成

语音合成就是将一系列的输入文字信号序列经过适当的韵律处理后，送入合成器，产生出具有尽可能丰富表现力和高自然度的语音输出，从而使计算机或相关的系统能够发出像“人”一样自然流利声音的技术。

语音合成的发展经历了机械式语音合成、电子式语音合成和基于计算机的语音合成发展阶段。语音合成具体分为规则驱动方和数据驱动方。

3、动作交互

目标获取是人机交互过程中的最基本的交互任务，用户向计算机指明想要交互的目标，其他的交互命令均在此基础上完成。随着交互界面的发展，在很多自然交互界面上，如远距离大屏幕，虚拟现实和增强现实设备等，传统的交互设备（如鼠标，键盘）无法继续用来完成目标获取任务。

因此，在这些界面上，研究者探索使用动作交互完成目标获取任务的可能方式。主要的输入方式分为直接和间接两种。

直接的动作选取要求用户通过接触目标位置的方式对其进行选取，例如在增强现实应用中，用户通过以手部接触的方式完成虚拟物体的选龋

间接的目标选取方式则需要用户通过身体部分的位置和姿态来控制和移动光标，再借助光标指示目标的位置进行选龋其中，一个广泛应用的光标控制方法是光线投射。

手势识别

手势可定义为人手或者手和手臂相结合所产生的各种姿态和动作，它分为静态手势（指姿态，单个手形）和动态手势（指动作，由一系列姿态组成），前者对应模型空间里的一个点，后者对应一条轨迹。相应地，可以将手势识别分为静态手势识别和动态手势识别。

姿势识别

姿势识别常用的算法有三类：（1）基于模板匹配的身体姿势识别方法；（2）基于状态空间的身体姿势识别方法；（3）基于语义描述的身体姿势识别方法。

4、眼动交互

利用人工智能技术提高眼动计算的精度和效率，对人的感知和认知状态进行深入理解，构建“人在回路”的智能人机交互框架，实现用户主导的自动化系统、基于人机共生的 AI 系统。

常用的几种眼动交互方式主要有一下几种：

驻留时间触发

驻留时间触发是指当注视点的驻留时间达到一定程度后，可以利用视线代替鼠标点击或键盘按钮等传统输入设备，触发相应的执行操作。驻留时间触发多用于控制图形界面或定位鼠标光标等，是一种较为流行的眼动交互方式，它也能够反映用户有意识的控制意图，以更好地完成交互。

平滑追随运动

平滑追随运动多发生于观察场景中有缓慢移动的物体或目标，视线会产生平滑追随的运动状态。平滑追随运动是一种连续反馈的状态，眼睛捕捉运动目标的信号，将目标运动速度、方向、角度等信息反馈给大脑，再控制眼球跟随目标物体发生相对运动。在此过程中也会存在一些无意识眼跳等其他行为，在没有运动目标的场景下，一般不会产生该眼动行为，因此平滑追踪触发一般不是一种常用的眼动交互方式。

眨眼

使用眨眼行为进行交互时，需要识别有意识的眨眼，例如眨眼频率超过一定程度，或一次眨眼过程中眼睛闭合的时间超过某个阈值。眨眼触发较为简单，但是当人眼处于长时间闭合状态时，由于眼动追踪仪无法捕捉瞳孔，可能会导致注视点的丢失，在一定程度上会影响眼控系统精度。

眼势

眼势是在眼跳的基础上提出的，但与眼跳的不同之处在于，眼跳往往是人在观察场景或对象时发生的一种无意识的视线转移，其眼跳的起点和终点都未知，依赖于人的视觉注意。而眼势被定义为一系列有序的视线行程，每一个行程是两个固定注视点或注视区域的有意的视线移动。因此，眼势作为一种新的眼动交互方式，可以反映人的有意识触发意图。不同路径的行程可以定义不同的眼势，不同的眼势可以映射为不同的交互指令。眼势可以分为单行程眼势和多行程眼势。

5、虚拟现实输入

文本输入作为应用中重要的交互技术，为应用提供了重要的交互体验。目前已经开发了多种适用于虚拟现实的文本输入技术，现有的 VR 文本输入技术主要有实体键盘技术、虚拟键盘技术、新型输入技术（手部输入技术、圆形键盘输入技术、立体输入技术）。

6、多模态交互

不同形式的输入组合（例如，语音、手势、触摸、凝视等）被称为多模态交互模式，其目标是向用户提供与计算机进行交互的多种选择方式，以支持自然的用户选择。相比于传统的单一界面，多模态界面可以被定义为多个输入模态的组合，这些组合可以分为 6 种基本类型：

互补型：当两个或多个输入模态联合发布一个命令时，它们便会相得益彰。

重复型：当两个或多个输入模态同时向某个应用程序发送信息时，它们的输入模态是冗余的。通过让每个模态发出相同的命令，多重的信息可以帮助解决识别错误的问题，并加强系统需要执行的操作。

等价型：当用户具有使用多个模态的选择时，两个或多个输入模态是等价的。例如，用户可以通过发出一个语音命令，或从一个虚拟的调色板中选择对象来创建一个虚拟对象。这两种模态呈现的是等效的交互，且最终的结果是相同的。

专业型：当某一个模态总是用于一个特定的任务时它就成了专业的模态，因为它是比较合适该任务的，或者说对于该任务来说它是当仁不让的。

并发型：当两个或多个以上的输入模态在同一时间发出不同的命令时，它们是并发的。例如，用户在虚拟环境用手势来导航，与此同时，使用语音命令在该环境中询问关于对象的问题。并发型让用户可以发出命令并执行命令，其体现为在做晚餐的同时也可也以打电话的真实世界的任务。

转化型：当两个输入模态分别从对方获取到信息时它们就会将信息转化，并使用此信息来完成一个给定的任务。多模态交互转化的最佳例子之一是在一键通话界面里，语音模态从一个手势动作获得信息，告诉它应激活通话。

7、信息无障碍中的智能交互技术

信息无障碍（information accessibility）是一个学科交叉的技术和应用领域，旨在用信息技术弥补残障人士生理和认知能力的不足，让他们可以顺畅地与他人、物理世界和信息设备进行交互。

从研究和应用水平上看，信息无障碍总体还处于比较初步的状态。

在应用上，针对信息访问和设备使用，具有基本功能的技术可以被应用，但效果和效率等可用性指标都不高；在现实生活中，针对听障人士与他人交流、盲人独立出行等，能支撑的新技术还处于原型和概念阶段。

三、未来趋势分析

1、技术趋势

技术趋势分析描述了技术的出现、变迁和消亡的全过程，可以帮助研究人员理解领域的研究历史和现状，快速识别研究的前沿热点问题。通过技术趋势分析可以发现当前该领域的热点研究话题 TOP10 是：Virtual Reality、 Augmented Reality、Social Media、Social Interaction、Interaction Design、Mobile Device、Social Network、Ubiquitous Computing、Mobile Phone、Interaction Technique.

2、国家趋势

国家趋势分析显示当前人机交互领域研究热度 TOP10 的国家分别是：United States、United Kingdom、Germany、Canada、China、Japan、South Korea、Australia、France、Netherla.

3、机构趋势

机构趋势分析显示当前人机交互领域研究热度 TOP10 的机构分别是：Carnegie Mellon University、Washington College、University of California、Stanford University、University of Michigan、Massachusetts Institute of Technology、Georgia Institute of Technology、Cornell University、Seoul National University、Yonsei University.

人机交互作为终端产品引领技术，其作用已经为产业界所普遍认识，多种自然交互技术和新型交互终端相继面世，但图形用户界面仍是交互的主导模式。计算无所不在，人机交互的研究和开发空间很大，自然高效的交互是发展趋势，需要综合地探索自然交互技术的科学原理，建立明确的优化目标，结合智能技术，发展高效可用的自然交互技术。

雷锋网雷锋网雷锋网