国际舞台尽显中国AI硬实力

登录注册

国际舞台尽显中国AI硬实力

来源:网络
更新日期:2020-06-22

摘要：原标题：国际舞台尽显中国AI硬实力近日，全球计算机视觉顶会CVPR 2020首次召开线上大会，百度不仅入选22篇接收论文，一举拿下8项挑战赛冠军，涵盖视频动

原标题：国际舞台尽显中国AI硬实力

近日，全球计算机视觉顶会CVPR 2020首次召开线上大会，百度不仅入选22篇接收论文，一举拿下8项挑战赛冠军，涵盖视频动作分析、动作识别、图像增强、智慧城市等多个领域，还主办了2场重量级学术Workshop，在国际舞台尽显中国AI硬实力。这不仅从侧面反映了百度倾斜AI“新基建”的策略已有成效，也再次让中国自有的深度学习平台飞桨闪耀全球。

国际计算机视觉和模式识别大会（CVPR）一直有计算机视觉领域的“奥斯卡”之称，凭借着严苛的论文录取标准，跻身全球AI顶会之流。实际上，CVPR是全球参与者检验自身AI“基本功”的试金石。受到全球疫情影响，CVPR 2020改为6月14-19日举行线上大会；让人喜出望外的是，华人学者及团队大放异彩，向全球展示AI实力。

CVPR2020上，大会论文录取率仅有22%，百度入选22篇论文，较上年增加5篇；在视频动作分析、动作识别、图像增强、智慧城市等挑战赛中，百度与全球科技巨头同台竞技，斩获8项世界冠军，站上计算机视觉“顶流”之席；同时，百度还举办2场高水准Workshop，并有多篇Workshop论文被接收。

百度不仅通过多种形式深度参与CVPR 2020，也积极为推动行业技术发展做贡献。在全球经济发展重心逐渐偏移智能经济，中国聚焦AI“新基建”时，百度已准备充分。在CVPR 2020上，百度正在依托包括百度大脑、飞桨等新型AI技术基础设施，获得不俗成绩；此后也将秉持开源、共赢原则，为中国AI行业输出“车轮”，推动AI“新基建”发展。接下来回到AI竞赛的试炼场，看看百度的AI基本功。

百度斩获8项竞赛夺冠大秀中国AI水平

CVPR2020覆盖计算机视觉众多热门子领域，其中，百度参与并夺冠多个领域的挑战赛：

1、视频动作分析挑战赛，专注于提升视频标注效率；

2、动作识别挑战赛，技术成果可广泛用于可穿戴设备和智能家居；

3、图像增强挑战赛，可有效提高视频质量；

4、智慧城市挑战赛，可有效优化现有城市交通管理，提升管理效率，推动智能化进程。

百度夺冠的具体挑战赛及其赛道如下图所示，共计夺冠8项冠军。

ActivityNet2020挑战赛

ActivityNet挑战赛是视频理解领域最具影响力赛事，其中的时序动作定位赛道（弱监督）（HACS temporal action localization —Track2: weakly supervised）主要考验参赛者能否通过弱标签、弱监督方式有效提升现有视频动作检测算法的效率。百度最终击败其余参赛队伍，以mAP39.29的得分位居第一。

这项比赛中，百度通过自研BMN模型对视频序列提取候选框，并结合弱标签训练数据，提出级联金字塔注意力网络进行打标签动作，两者结合最终获取片段定位及动作标签。该技术对高效的视频数据使用具有指导意义，可应用于视频Highlight检测、精彩集锦等多个场景。

EPIC-Kitchens2020挑战赛

EPIC-Kitchens2020挑战赛聚焦于第一人称视频理解，其技术可广泛应用于可穿戴设备、智能家居、人机交互等方面。在这次挑战赛的动作识别（Action Recognition）赛道中，百度打败三星剑桥AI研究院、牛津大学、佐治亚理工大学等40+支队伍，最终在Seen kitchens和Unseen kitchens两项测试集上均以第一名的成绩摘获冠军。

针对比赛中第一人称视频小物体多、相机运动模糊严重等难点，百度提出共生注意力机制和以物体为中心的对齐模块，大幅提升3D卷积网络的性能。该方法可在多种视频Backbone和输入模态下取得一致的性能提升。

NTIRE2020挑战赛

NTIRE（New Trends in Image Restoration and Enhancement）是近年来计算机图像修复领域最具影响力的一场赛事，每年都会吸引大量的关注者和参赛者。百度积极参与NTIRE2020挑战赛，并在2项赛道上拿下冠军：

1、真实图像降噪赛道（Real Image Denoising rawRGB Track）

2、视频质量映射赛道（Video Quality Mapping—Track1: Supervised）

真实图像降噪赛道

图像降噪作为计算机视觉热门领域，在视频监控、无人驾驶、移动可穿戴设备、遥感及医学图像分析等领域应用广泛。对于NTIRE2020挑战赛的真实图像降噪赛道（Real Image Denoising rawRGB Track），其首要目标是去除或纠正图像上的噪声信息，百度最终以第一的成绩达成目标，夺得冠军。

针对该项竞赛，百度设计了多跳跃连接的密集残差模块学习不同分辨率下的特征表达，并通过创新性mosaic-stride模块提升rawRGB的降噪能力，同时使用分布式SA-NAS搜索最优的模型结构；其中，SA-NAS搜索方法是百度首次把NAS技术应用于图像降噪领域。

视频质量映射赛道

视频质量映射赛道（Video Quality Mapping—Track1: Supervised）关注于图片视频底层视觉技术的关键问题。这一技术可有效提高视频质量，提升用户观看体验。百度凭借过硬的视觉技术和经验积累，取得了该赛道的冠军成绩。

针对该赛道的问题，百度通过把现有EDVR模型思路与CNN网络结构DenseNet相结合，利用DenseNet提取视频的图片特征，融合CNN浅层与深层特征，从而实现更强的表达能力；EDVR模型则完成了视频帧之间信息交换，对齐帧间信息，实现信息共享与互补。

AI CITY2020挑战赛

AI CITY2020挑战赛由英伟达、亚马逊、马里兰大学等主办，主要集中在交通相关的车辆跟踪、再识别、异常事件分析等应用场景。AI CITY智慧城市挑战赛的4项比赛中，全球共有315支队伍参加，其中不乏阿里、滴滴、松下、卡内基梅隆大学等一流科技巨头和高校。百度共参战3项竞赛，最终技压群雄，全部取得了冠军成绩：

1、车流统计（Track 1：Multi-Class Multi-Movement Vehicle Counting）

2、车辆再识别（Track 2：City-Scale Multi-Camera Vehicle Re-Identification）

3、异常事件检测（Track 4：Traffic Anomaly Detection）

车流统计赛道

在车流统计赛道中，参赛者需要解决车辆遮挡、复杂天气下的视觉差异等问题。百度提出“检测-跟踪-计数”结合的车流统计算法流程，有效解决了检测框丢失和ID翻转问题。在车流统计环节，提出基于数据驱动的轨迹匹配分类算法使统计结果更准确。

百度从运算用时、运算速度等维度均位列第一，夺得该赛道冠军。而这一套算法模型，则离不开百度在城市交通大脑方面的数据积累和洞察，在保定市百度AI交管大脑项目中，智慧信控系统有效提升了交通效率的20%-30%。

车辆重识别赛道

车辆重识别旨在确认智能交通系统中的车辆身份，在城市安全场景中发挥着不可替代的作用。该赛道基于真实场景数据，对参赛者提出监控视角变化大、标注数据少等挑战。百度凭借智慧城市领域的技术优势，以明显优势甩开41支参赛队，最终以mAP 84.13%的成绩登临首位。

为应对任务挑战，百度设计了基于多任务多分支的网络模型，并结合多源信息融合的重识别技术方案。在数据方面，使用风格迁移、图像内容编辑、背景替代等多种方法生成合成数据，以弥补训练数据不足的问题。

异常事件检测赛道

异常事件检测赛道主要考验参赛者对交通场景的复杂性、交通流的密集混乱性、天气和车辆大小的多样性以及异常标注数据缺乏等问题的解决能力。此技术可以提前发现潜在的交通风险、提前预警交通管理部门、提升交通风险的处理能力和效率。百度在该赛道表现优异，取得98.5%的F1成绩，均方根误差为4.8737，比赛成绩排名第一。

针对此挑战赛，百度通过模块化的多粒度跟踪方法，将跟踪问题解耦成不同子问题，利用不同模块来处理不同子任务，同时将视频进行正序和逆序分别建模，最后利用一种融合和回溯优化方法，将多个子任务以及正序、逆序的模型进行融合得到最终异常事件的定位结果。

MOTS2020挑战赛

MOTS (Multi-Object Tracking and Segmentation) 多目标跟踪与实例分割挑战赛由德国慕尼黑大学、德国亚琛工业大学、ETH联合举办，是多目标跟踪方向的权威竞赛。该挑战赛均是计算机视觉顶会CVPR的议程之一，可以直观反映参赛者真实的应用能力。百度最终凭借原创自研的领先技术，拿下KITTI-MOTS赛道赛道冠军

KITTI-MOTS赛道是自动驾驶权威数据集KITTI中多目标跟踪任务的扩展，也是首个同时提供实例分割以及多目标跟踪标注的公开数据集。在KITTI-MOTS竞赛中，百度提出新型方法PointTrack++，在行人和车辆两个类别中均取得冠军。

具体而言，PointTrack++包括视频实例分割、掩膜特征提取以及多目标关联跟踪等技术，突破性地把3D点云分析融入2D MOTS任务之中，首次实现实时在线的MOTS算法，并在车辆场景测评指标上领先第二名3个百分点以上，实现SOTA结果。

百度举办2场高水准Workshop 推进学术交流

Learning from Imperfect Data (LID) Workshop主要讨论如何在不完美数据标注的条件下，通过机器学习算法训练出高精度的视觉识别模型。百度作为LID Workshop组织者，参与设计了弱监督物体分割、弱监督场景解析、弱监督物体定位三项竞赛（Track）。值得一提的是，两支冠军队伍提交了基于飞桨的代码。

CVPR2020 workshop on Media Forensics由百度联合举办，旨在发挥人脸防伪检测保护人脸识别系统免受恶意攻击的重要作用，并吸引来自学界/业界共340支参赛队伍，最终有19支队伍进入决赛并提交了模型与代码。