屏下摄像头效果不好？微软：上神经网络，还原更真实的可视会议效果

登录注册

摘要：选自 microsoft.com作者：Sehoon Lim 等机器之心编译参与：泽南如何实现真正的眼神交流？一切都得看屏下摄像头和深度学习技术。把摄像头放在屏幕下的想法并不新奇，在视频会议这个

选自 microsoft.com

作者：Sehoon Lim 等

机器之心编译

参与：泽南

如何实现真正的眼神交流？一切都得看屏下摄像头和深度学习技术。

把摄像头放在屏幕下的想法并不新奇，在视频会议这个交流方式刚刚出现时，人们就意识到把摄像头和屏幕分设在不同位置让人交流起来非常别扭。眼神交流是沟通的关键因素，但如今的视频会议仍然无法在人们之间建立起这种联系。

压缩传感器尺寸是屏下摄像头出现的另一大动力。我们或许可以在今年晚些时候买到带有屏下摄像头的手机，首款量产机 OPPO Find X2 Pro 在 7 月初已经有了定妆照。在手机这样的小型设备上想要最大化屏幕尺寸，往往意味着摄像头、听筒和各种传感器都得想办法靠边站。

把相机放在屏幕后面，我们就可以获得一台完美的全面屏手机，但这也意味着前摄画质的降低。屏幕像素结构的衍射可以使摄像头接收的图像变得模糊，对比度降低，获得的光线显然也会变少，屏幕甚至会完全阻挡某些图像内容，具体方式取决于设备的显示像素设计。

另一方面，在视频会议中，除了眼神不能对焦之外还有其他感官扭曲之处，比如缺乏空间位置的直观展示。

最近，微软提出了使用机器学习解决这些问题的方法，不论是图像质量还是人物在图像中的位置，现在都可以变得更好。

透视问题

摄像头位于显示屏上方对于屏幕会议来说会产生一种视觉差，屏幕越大情况越明显：说话人看起来总是仰望的状态。相机与显示器的距离会让参与者们体验不到眼神交流的感觉——我看着屏幕中的你，你却只能看着摄像头说话，其中一个人就会错过很多微妙的非语言反馈提示。

这样看起来更像是监视而不是一场对话。

视线的落差会让视频会议的效果打上折扣，无法充分展示每个人的存在感，重现面对面谈话的所有潜力。只有把摄像头放在屏幕下才能充分发挥眼神交流的潜力。

衍射的问题

通常，使用透明的 OLED 屏幕（T-OLED）可以允许摄像头在屏幕后拍摄出可用照片，但即使这样的屏幕也不是完全透明的，光线透过这一层会引入衍射和噪声，从而降低图像质量。

如下图所示，我们可以看到通过 T-OLED 屏幕拍摄简单图像的效果：

屏幕的像素结构会影响衍射。在一些屏幕中，会留有缝隙允许摄像头进行观察：

成像器（右侧）透过 T-OLED 像素结构中的垂直间隙进行观察。

毫无疑问，这会导致明显的降级，但只会出现在水平方向上。我们可以通过绘制调制传递函数（modulation-transfer function, MTF）来可视化此效果：

使用 U-Net 进行图像恢复

为了补偿通过 T-OLED 屏幕拍摄时无法避免的图像质量下降，研究人员使用 U-Net 神经网络结构对其进行恢复，既可以改善信噪比又可以对图像进行模糊处理。

U-Net 最初是一个用于分割生物医学图像的卷积神经网络。它的架构由两部分组成，左侧是提取路径，右侧是扩展路径。提取路径用来捕获上下文，扩展路径用来精准定位。提取路径由两个 3 × 3 的卷积组成。卷积后经过 ReLU 激活和用于降采样的 2 × 2 最大池化计算。

在计算机视觉这个热门方向里，U-Net 是比较有名的方法。通过深度学习算法，我们获得了与原始图像几乎一致的重建图像：

直接拍摄：

屏下摄像头处理前：

深度学习算法处理后：

通过将相机固定在显示器中，并保持良好的图像质量，我们为长期存在的视角问题找到了有效的解决方案。

对话的位置安排

在对话过程中，空间因素也非常重要，但在目前的视频会议系统中往往是被忽略。参与者们彼此相对的距离是非语言交流中非常重要的方面。

微软认为，通过调整人物图像在显示其中的大小，我们可以很大程度上模拟出说话人位置在虚拟环境中的效果。

图像分割

要想这样做，首先要找到人，微软设计了卷积神经网络（CNN）结构来在图像中定位说话的人。

用于分割说话者和背景的神经网络结构。

首先，需要做语义分割以识别并定位图像中的人类。

接下来，我们进行深度分割以找到最接近的人类，指认他 / 她为说话者。这种相对简单的技术在单个发言人时工作效果很好，如果存在多个发言人，则需要应用更为复杂的方法。

校正距离

在远程视图中确定了说话者之后，我们就可以缩放传入的视频，以便将远程会议参与者以更为合适的尺寸显示在本地屏幕上。

一种实现的方法是缩放整个画面，再把人物定位于正中。但在微软的项目中，研究人员尝试了效果更明显的方法：让人物独立于背景进行调整。

将人物与背景分割调整可以带来一些好处，比如隔离掉不希望显示的背景画面，用背景区域直接显示 PPT 或视频等。

经过取景效果的提升以及人物位置的缩放，我们最终获得的远程会议效果距离真实情况前进了一大步。

原文内容：https://www.microsoft.com/applied-sciences/projects/camera-in-display

Amazon SageMaker 是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。SageMaker 完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

现在，你可以免费领取 1000 元服务抵扣券，轻松上手 Amazon SageMaker，快速体验 5 个人工智能应用实例。