爆发前夜,华为的AI超算将会引领什么?

  • 来源:网络
  • 更新日期:2020-06-30

摘要:文|编程浪子来源|智能相对论(aixdlun)超算和AI一直是两个并驾齐驱的赛道。一直以来超算重视硬件算力,一般用于国防、模拟、生物、天文科学研究等领域,比如我国的天河、神威,美国

文|编程浪子

来源|智能相对论(aixdlun)

超算和AI一直是两个并驾齐驱的赛道。一直以来超算重视硬件算力,一般用于国防、模拟、生物、天文科学研究等领域,比如我国的天河、神威,美国阿贡国家实验室和劳伦斯利弗莫尔国家实验的米拉和泰坦。

而AI领域,在早期阶段各团队强调在算法和调参上不断优化,而且当时的计算机架构并不适合做卷积神经网络的训练,在CPU上训练出一个模型可能达数年之久。

直到从深度学习的开山鼻祖Geoff Hinton的学生Alex Krizhevsky在GPU上成功训练出突破性的深度神经网络之后,专用于AI硬件的概念才被各界所看重。

对于AI来说,算力与硬件架构同等重要,也就是在这种理念指导下,超算能力在AI的应用开始显得分外重要。

不论从目前国际产业竞争形势亦或是产业自身革新,AI超算背后的硬件和框架如何发展,将会是国内AI下一轮爆发关键基矗在国内AI赛道,华为作为全球顶尖的ICT基础设施和智能终端供应商,已经携“腾”处理器给出了完整的AI超算解决方案。

这对于国内AI的研发和应用效率的提升,毫无疑问是一场及时雨。

近日华为出席ISC(高性能计算大会)后,全球AI赛道产业链上下游给予了高度关注。

关键领域没有岁月静好,超算融合AI已风起云涌

国运之争的核心是产业实力的综合竞争,而AI已经成为国运之争中的一环。

国内三十年岁月静好的改革开放红利已经到了战略博弈的临界点,像AI这种尖端产业正在成为大国博弈的桥头堡。

硬件是AI算法迭代的基础,没有技术之上的硬件自主权,就如同只有施工图纸而没有钢筋水泥,难以摆脱被控制的窒息感。

2018年美国公布了超算“Summit”,这台超级计算机是由IBM在英伟达帮助下开发,它的峰值计算能力可以达到每秒20亿亿次。

更重要的,Summit是史上第一台既支持传统计算,也支持运行人工智能应用程序的超级计算机,机器学习和神经网络等运行都可以在其上实现。

今年6月23日,全球超级计算机500强榜单更新,中国以226台部署量位列第一,美国一114台名列第二,日本以30台位居第三。但是在TOP500的榜单系统,有333套采用了英伟达的技术。

我国的AI超算解决方案直到华为的达芬奇架构公布后才有系统的解决方案,中国在AI超算领域的研发和应用,还需要点一把火,加一把劲。

框架和硬件“两开花”,研发标准统一才是“战斗力”

华为在2018年7月创新推出针对AI计算的达芬奇架构,在项目下公布了“腾”AI处理器+AI开源计算框架“MindSpore”。

由于华为给出了从硬件到框架一整套的解决方案,特别契合当下AI超算硬件成为新基建的公共特性。

这将会对AI业态造成三个方面的显著正面影响:AI全行业渗透、提升开发效率以及降低算力成本。

1.全栈高算力平台,带动AI全行业渗透

在以往的AI开发中,架构、API、生态和运维都需要专门人才进行支持和管理,开发环境复杂,人才数量少,全球的AI人才供需比只有1%,只有三万核心专家。从行业上看,中国市场含有AI的应用仅有10%,全行业AI渗透率只有4%。

国内AI的研究很火热,2019年斯坦福人工智能索引报告显示中国的人工智能论文数量超过欧盟,但是行业应用有限。

要实现全面超越,形成产业聚集优势,亟需AI超算的基础设施,带动全行业的AI应用和转型。

华为的AI超算解决方案从硬件标准、运算集群和运维管理上都为应用者提供了统一方案。

在硬件标准上,“腾”的Da Vinci架构中含有Cube、Vector、Scalar三种计算单元,平均算力是业界算力的两倍。

基于“腾”处理器的Atlas集群在全球最快AI训练集群的基础上,部署了普惠性的AI开发平台ModelArts和CANN开发工具。

尤其是ModelArts,作为一个“一站式”的开发平台,让AI开发的各个环节,包括数据处理、算法开发、模型训练、模型部署都可以在ModelArts上完成。

这极大地降低了AI开发的门槛。这样一个专供AI的基础性商业超算系统已经成型。

基于这个系统,使用者可以极大减少资源调度成本,降低开发成本,最主要的是降低算力成本。

由于AI正在成为通用目的技术,使用场景会越来越广,同时也意味着后入场的行业引入AI的门票费会越来越高,华为的超算架构让更多场景与AI融合降低了门槛,促进了AI向全行业渗透。

2.自主框架MindSpore,开发态和运行态双重提速

由于华为配合“腾”处理器的自主计算框架MindSpore的全场景特性,“开发态”和“运行态”都有优势。

所谓“开发态”是指计算框架非常友好,显著减少模型训练时间和成本。而且能够适应不同的场景,包括端、边缘和云。

“运行态”友好是指能够让整个模型能够用最少的资源产出最高的效能。

MindSpore天然匹配腾全场景系列产品,能够让不同类型的算法都可以轻松接入,这无疑降低了研发人员的调试和让代码适应场景的成本。

而且这个计算框架能够实现自动并行,这对与模型的效率则有很大影响,开发者无需投入过多的时间再去修改并行代码,能够更好的专注于模型质量。

以上两点就是计算框架的开发态以及运营态的优势。

更重要的是因为框架针对华为“腾”处理器有专门的优化,所以在应用效率上可以更高。

AI+超算处于爆发前夜,行业拐点也如约而至

超算和AI领域的融合,国内很多企业在做相关探索,但大多是有心无力。

为什么是华为率先引领?笔者认为有以下三个因素:

1、 华为拥有技术实力。华为2019研发投入达到1317亿元,研发占比15.3%,拥有85000+专利授权。

2、 华为拥有用户接受度。华为客户国家覆盖170以上,国家级备件中心122家以上,服务伙伴3900个以上。

3、 华为拥有行业高度。华为已经成为民族企业代表,在AI超算领域构建基础框架,不仅有商业价值,也与国内新基建下的AI战略相一致。

华为凭借自身在硬件领域的多年积累和行业前瞻,以创新的达芬奇架构为开端,为国内AI+超算这个关键领域填补了空白。

总而言之,腾是SOC、计算平台和产业生态,目前国内基于华为“腾”处理器已经有鹏城实验室、上海天文台等多个成功项目。从项目内容上看,既有国家重大项目,又有在天文学这类的尖端学科应用。

本次全球超算大会结束后,“腾”受到了各界广泛的关注,在新基建的热潮中,将为全行业的AI化提供算力加持。

更重要的是,我们很有可能看到国内各界全面拥抱AI超算,同时拥抱华为腾AI的局面。

这将成为国内AI转型的关键节点。

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

新网数码