2 年,3 个版本,华为云 ModelArts 的变与不变

  • 来源:网络
  • 更新日期:2020-09-25

摘要:今年的 2020 华为全联接大会,又是一次华为云 AI 的大秀。无论是郭平、徐直军的战略部署,还是侯金龙和郑叶来的具体演说,云与 AI 无疑都是华为今天重金投入的新技术。AI 的背后

今年的 2020 华为全联接大会,又是一次华为云 AI 的大秀。无论是郭平、徐直军的战略部署,还是侯金龙和郑叶来的具体演说,云与 AI 无疑都是华为今天重金投入的新技术。

AI 的背后是数据和应用,而这两样背后,都是专注创新的开发者在默默努力。从近两年的云 &AI 行业趋势看, 取悦开发者 是一个必然的趋势,他们对技术的变化是最为敏感的,也是云 &AI 得以落地的关键环节。

也因此,围绕开发者们构建的 AI 开发平台逐渐从幕后走到台前。从业内来看,头部的几家云厂商们纷纷祭出大招,比如华为云在 2018 年就推出 ModelArts AI 开发平台,阿里云以 ET 大脑的方式构建各行业 AI 开放能力,腾讯云则部署其 AI 平台云智天枢 TI Matrix,百度云则持续推进 EsayDL AI 开发平台的应用。

在 9 月 25 日的华为全联接大会的第三天,华为云把重要信号留在了最后:宣布华为云 ModelArts 3.0 版本出炉。

无疑,这个新版本的推出又给 AI 开发者带来了福利。

华为云 ModelArts 3.0 的推陈出新

具体而言,现场发布的这套 ModelArts 平台 3.0 版本,支持 10 万级别的企业任务同时运行,支持 10 万级别的用户规模同时使用,为开发者创造良好的 AI 开发环境,使其专注做创新的事情。

一般而言,优秀的分布式加速比是大规模集群分布式训练的关键能力,也是促使用户选择使用大规模集群来加速 AI 业务的关键因素,华为云 ModelArts 领先的分布式加速比能力,在 512 芯片的集群规模下成绩为 93.6 秒,优于 NVIDIA V100 的 120 秒。

从功能上看,ModelArts 3.0 版本相比之前带来了 4 个小惊喜:

1. 华为云 EI 骨干模型:基于行业小样本数据训练高精度模型

过去需要大量专家经验的模型选择和参数调节,有了华为云的全空间网络架构搜索和自动超参优化技术,可以在无需人工干预的情况下高效完成。过去需要几周甚至更长时间的模型训练和部署,有了华为云的计算资源调配和数据管理,可以缩短到几小时内甚至几分钟完成。

2. 联邦学习:打破数据孤岛,推动行业联合建模

数据是 AI 应用的基础,只有基于多样化的数据,才能实现 AI 智能感知。然而,在实际 AI 行业落地中,数据是分散在不同的数据控制者之间,这就导致了行业 AI 应用的数据孤岛问题,使得 AI 算法训练效果受到限制。

针对这个问题,华为云 ModelArts 提供联邦学习特性,用户各自利用本地数据训练,不交换数据本身,只用加密方式交换更新的模型参数,实现联合建模。

3. 模型智能评估、诊断:降低 AI 行业落地门槛

在 ModelArts 上使用模型评估功能,是在得到首次训练的模型之后,先将模型推理结果、原始图像和真实标签送入模型评估模块中,这个模块会从数据、模型两个方面对模型的综合能力,包括精度、性能、可信和可解释性进行综合评估,最终针对可能存在的问题输出一些改进模型能力的诊断建议。开发者在这些建议的帮助下,使模型达标,并最终部署成能实际应用的推理服务。

4. 高性能 AI 计算:资源灵活调度加速行业 AI 落地

作为 AI 平台云服务,弹性训练是 ModelArts 推出的核心能力之一,可以根据模型训练速度的要求自适应匹配最佳资源数。

具体在产品上,ModelArts 提供两种模式:

一是 Turbo 模式,可以充分利用空闲资源加速已有训练作业,在大多数典型场景下加速效率大于 80%,训练速度提升 10 倍,并且不影响模型收敛精度;

二是 Economic 模式,可以通过最大化资源利用率给开发者提供极致的性价比,在大多数典型场景下可以提升性价比 30% 以上,并且不影响模型收敛精度。

变与不变

可以看到,在新版本中,华为云带来了新的玩法,提供全流程极简开发工具,即使是普通的业务人员,基于已有组件,通过拖拽方式即可构建应用。这背后,ModelArts 平台的本质并无二致,依旧是围绕着开发者的需求与痛点展开,通过 AI 模型不断地和实际落地场景交互来得到更优的模型,进而提升 AI 开发流程的效率。

在 1.0 版本中(2018 年),ModelArts 解决了 AI 一站式开发的行业痛点,华为云打造了一款比行业更快的 AI 平台,致敬开发者。

在 2.0 版本中(2019 年),新增自动学习、端边云能力协同,ModelArts 关键能力凸显。ModelArts 2.0 以全流程的极简和自动化升级已有的 AI 开发模式,让数据准备、算法开发、模型训练、模型管理、模型推理全链条产生质的飞越。

而在 3.0 版本中(2020 年),平台驶入深水区,辅助 AI 深入到各行业生产系统。目前华为云已在 10 多个行业成功交付了 600 多个 AI 项目,积累了丰富的经验。为了解决企业深入使用端到端生产而推出骨干模型、联邦学习等新功能。华为云 EI 骨干模型 ( EI-Backbone ) 技术,基于行业小样本数据训练高精度模型,提供了 AI 开发的新范式。

可见,版本的演进背后,是新技术趋势不断与行业生产结合,是数字世界供给与物理世界需求不断碰撞的结果。

一直以来,深度学习分布式训练不断发展,各类模型的训练对于计算设备的需求越来越大,不过由于各种原因,训练作业的资源还没有被充分利用。比如 l 训练算法代码本身质量不高、资源利用率低;模型大小和超参数的设置也会显著地改变计算资源的利用率;资源池整体利用率有波动,类似于 峰谷电 ,训练作业的提交也有高峰期和低谷期,造成很大的资源浪费。

这就不得不提到弹性训练。

弹性训练作为 ModelArts 的核心能力之一,2 年来一直在自我锤炼,根据模型训练速度的需求自适应实现资源的最佳分配。ModelArts 提供两种模式,一是 Turbo 模式,可以充分利用空闲资源加速已有训练作业,训练速度可提升 10 倍以上,并且不影响模型的收敛精度;二是经济模式,可以通过最大化资源利用率给开发者提供极致的性价比,在大多数典型场景下可以提升性价比 30% 以上。

可见,智能并不是一蹴而就的,而是逐渐进化的,最终从 AI 开发环节进入到 AI 落地的每一个场景。

客户 用脚投票 背后的价值体现

客户是喜欢用脚投票的——这一点体现在 ModelArts 的行业落地属性上。有 2 个案例非常经典,一个是华为云 ModelArts 支持候鸟保护计划,另一个是华为云 ModelArts 正在支持中科院构建斑马鱼的全脑图谱。

注:候鸟保护,华为做了什么

在另一个项目中,中科院正在基于 ModelArts 绘制斑马鱼脑联接组的全息地图,目前重构准确率和召回率已达 95%。

中科院脑智卓越中心是一所将脑科学与智能技术相结合的研究实体,是一个了解大脑如何实现各种认知功能的一个机构,首先需要完成一个重要且必要的大科学工程,就是绘制全脑联接图谱。

其原理是:借助斑马鱼幼鱼透明的特点,机构可以应用钙成像技术来观察活体斑马鱼全脑 10 万个神经元的时空放电,从而绘制从各种感觉输入到行为输出的全脑活动图谱,并结合结构图谱来发掘大脑如何工作的普适规律,进而进行脑功能模拟和理论研究。

通过和华为合作,应用华为云 ModelArts 平台,使用用 360 条斑马鱼图像样样本所包含的近 20 万图像块的 金标准 标注数据,训练出了从前期图像分割到后期神经元形态追踪的一整套网络。

目前重构准确率和召回率已达 95%,如果使用多机并行计算,从理论上推算下来,10 万个神经元的总重构时间可以从 125 年缩短至 10 天。如果再扩展到小鼠甚至非人灵长类如猕猴,降本增效方面将更加可观。

当然,这离不开生命科学的知识和技术,也综合交叉了数学等学科,但是计算机科学特别是 AI 领域的技术与知识,正成为人类的助手,帮助人类绘制脑图谱,更帮助人类实现新领域的突破。

云上开发必将成大势,商业价值转化也在加速

就像郑叶来在现场提到的那样,目前越来越多的人加入到开发者队列里来,而更好的工具将为他们创造更高的技术起点、更敏捷的构建能力、更广阔的商业成功,未来 云上开发 可以解决目前面临的困难。

截止到目前,华为云已经提供超过 210 个云服务,服务全球 150 万开发者,华为云 Marketplace 和华为 AppGallery 已经做了强强联合,TO B(SaaS 扶持计划)和 TO C(HMS 生态扶持计划)两条腿一起走,加速商业价值转化。(雷锋网雷锋网雷锋网)