新网Logo
首页>互联网热点>

英国 AI 芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

登录 注册

英国 AI 芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

  • 来源:网络
  • 更新日期:2020-06-28

摘要:芯东西(ID:aichip001)文 | 心缘芯东西 6 月 28 日报道,2020 年的突发事件拨乱了太多产业的阵脚,AI 芯片产业也似乎热度渐熄。一家英国 AI 芯片创企却在这一时期,稳稳地切入国内科

芯东西(ID:aichip001)

文 | 心缘

芯东西 6 月 28 日报道,2020 年的突发事件拨乱了太多产业的阵脚,AI 芯片产业也似乎热度渐熄。一家英国 AI 芯片创企却在这一时期,稳稳地切入国内科技巨头阿里和百度的生态圈。

就在今年 5 月,成立刚满四年的英国初创公司Graphcore分别公布和阿里巴巴、百度合作的新动向。阿里宣布 Graphcore支持ODLA的接口标准,百度宣布 Graphcore成为飞桨硬件生态圈的创始成员之一。

同月,在英国 Intelligence Health 峰会上,微软机器学习科学家分享用 Graphcore 的 IPU 芯片训练微软 COVID-19 影像分析算法 CXR,能够在30分钟之内完成在NVIDIA GPU上需要5个小时的训练工作量。

▲ 300W 功耗情况下,IPU(左)以 2000 img/s 的平均速率进行训练,NVIDIA V100 平均速率约为 166 img/s,速度相差 10 倍以上

也是在这个月,英伟达(NVIDIA)为 AI 和数据科学打造的最强 GPU A100 横空出世,给布局云端 AI 芯片市场的其他公司带来新的压力。

不过 Graphcore 显得相对淡定。Graphcore 高级副总裁兼中国区总经理卢涛相信,即便是 Graphcore 第一代 IPU 产品也不会输于 A100,今年他们还将发布下一代 7nm 处理器。

Graphcore 的自信并非空穴来风,凭借创新芯片架构 IPU,这家成立刚满四年的英国初创公司,不仅有DeepMind联合创始人 Demis Hassabis、剑桥大学教授兼Uber首席科学家 Zoubin Ghahramani、加州大学伯克利教授 Pieter Abbeel、OpenAI多位联合创始人等多位 AI 大牛为其背书,还吸引到微软、博世、戴尔、三星、宝马等巨头注资。

这样一个在 AI 芯片界猛刷存在感的明星创企,背后有着怎样的底气?

近日,Graphcore 高级副总裁兼中国区总经理卢涛、 Graphcore 销售总监朱江第一次在中国详尽地介绍了 Graphcore 的核心芯片架构及产品、配套软件工具链,并分享了其芯片在五类垂直场景的应用实例及性能表现。

一、英国小镇里诞生的AI芯片独角兽

2012 年 1 月,雪后的英国小镇巴斯,Nigel Toon 与 Simon Knowles 正在讨论一个改变 AI 芯片架构的创新设想。

▲ Graphcore CEO Nigel Toon 和 CTO Simon Knowles

经过四年模拟了数百种芯片布局的计算机测试方法,两人于 2016 年 6 月在英国布里斯托成立 AI 芯片公司 Graphcore,此后继续处于神秘的研发状态。

知名资本伸出的橄榄枝,使得这家创企始终处于聚光灯下,宝马、博世、戴尔、微软、三星等巨头纷纷参与投资,至今 Graphcore累计融资超过4.5亿美元,整体估值约为19.5亿美元。

不仅如此,数位 AI 大牛对其 IPU 芯片架构赞誉有加。

英国半导体之父、Arm 联合创始人 Hermann 爵士曾评价说:在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的 GPU,而Graphcore就是第三次革命。

AI 教父 Geoff Hinton 教授也说过: 我们需要不同类型的计算机来处理一些新的机器学习的系统。 他指出 IPU 就是这样一个系统。

到 2019 年 11 月,Graphcore 潜心打造的 IPU 产品官宣量产,随后与微软、百度、Qwant、Citadel、帝国理工学院、牛津大学等多个合作伙伴、云计算厂商、研究实验室以及高校等展开了相关合作。

如今,Graphcore 所做的产品包括了硬件、软件和 IPU 的系统解决方案。

IPU 是 Graphcore 专为机器智能设计的创新处理器架构,宣称在现有及下一代模型上,性能远超 NVIDIA V100 GPU。

例如它能将自然语言处理(NLP)处理速度可提升20%-50%,为图像分类带来6倍的吞吐量而且是更低的时延,在一些金融模型方面训练速度能够提高26倍以上。

目前 IPU 已实现量产,通过访问微软 Azure 等云计算平台,或者购买戴尔服务器等产品,均可获取 IPU 资源。在国内,Graphcore 也正在与金山云合作,拟上线一个针对中国开发者和创新者的云业务。

除了芯片产品走向落地,在过去 6-12 个月,Graphcore 在全球版图快速铺开,迄今有全球员工 450 人,分布在北京、上海、深圳、台北、布里斯托、伦敦、剑桥、挪威、奥斯陆、西雅图、帕拉奥图、纽约、奥斯汀、东京、首尔等地。

二、以计算图为表征的创新 AI 芯片架构

Graphcore 的自研芯片架构诞生的背景,源于过去几年 AI 算法模型规模呈指数级增长,需要更适宜的全新处理器架构。

相较传统科学计算或高性能计算(HPC),AI 或者说机器智能有一些特性,包括大规模并行就散、稀疏数据结构、低精度计算,以及在训练推理过程中的数据参数复用、静态图结构。

Graphcore IPU 即是针对计算图的处理设计而成,相比传统智能处理器,IPU 有三个核心区别:采用 MIMD 架构、所有模型在片内处理、可解决大规模并行计算处理器核之间的通信效率。

具体而言,

相较 CPU 的 DDR2 子系统或是 GPU 的 GDDR、HBM 来说,IPU 这一设计可将性能提升10-320倍。与访问外存相比较,时延基本为1%,可忽略不计。

当前已量产的 IPU 处理器为 GC2,拥有 256 亿个晶体管,在120瓦功耗下,混合精度算力可达125TFLOPS。

GC2 采用台积电 16nm 工艺,片内包含 1216 个独立的 IPU 处理器核心(Tile),整个 GC2 包含 7296 个线程,支持 7296 个程序并行运行。其内存带宽为 45TB/s、片上交换是 8TB/s,片间 IPU-Links 为 2.5Tbps。

为了解决并行硬件的高效编程问题,IPU 通过硬件支持 BSP 协议,并通过 BSP 协议把整个计算逻辑分成了计算、同步、交换。

这对软件工程师和开发者来说非常易于编程,因为不必处理 locks 这个概念,也不必管任务具体在哪个核上运行。

目前 IPU 是世界上目前第一款 BSP 处理器,BSP 技术在谷歌、Facebook、百度之类的大规模数据中心均有使用。

卢涛介绍说,IPU 重点面向云端训练以及对精度和延时要求高的推理场景,还有一些训练和推理混合的场景。

在精度方面,IPU 当前不支持整数 int8,主要支持 FP16、FP32 以及混合精度。

当前应用较大的主流计算机视觉类模型以 int8 为主,而自然语言处理推理以 FP16、FP32 为主流数据格式,IPU 使用 FP16 精度在 ResNeXt、EfficientNet 等新兴视觉模型中性能功耗比同样具有优势。

未来,Graphcore 的推进策略还是训练和推理并行,但会更聚焦于一些对精度和时延要求更低、对吞吐量要求更高的场景。另外,他们也看到在推荐算法等应用出现一些希望同时实现训练和推理的需求。

三、软件支持容器化部署,上线开发者社区

硬件芯片架构是基础,而软件则是提升用户体验的关键利器。

对于 AI 芯片来说,芯片研发出来只是第一部分,要能落地到产业中,还需展现出色的可移植性、可开发性、可部署性,能提供完善的工具链和丰富的软件库,可实现与主流机器学习框架无缝衔接,而整个链条全部打通需要非常大的投入。

今年 5 月 26 日,全球知名科技分析机构 Moor Insights & Strategy 曾发表了一篇研究论文 《Graphcore 的软件栈:Build To Scale》,其中写道:Graphcore是我们目前已知的唯一一家将产品扩展到囊括如此庞大的部署软件和基础架构套件的初创公司。

卢涛认为,对于 AI 芯片来说,真正商业化的衡量标准在于三点:是否有平台化软件的支持、是否有大规模商用部署软件的支持、是否能实现产品化的部署。

对此,Graphcore 的 Poplar SDK 提供了完整的软件堆栈来执行其计算图工具链,有四个主要特性:

(1)开放且可扩展的Poplar库:目前已提供 750 个高性能计算元素的 50 多种优化功能,修改和编写自定义库。

(2)直接部署:支持容器化部署,可快速启动并且运行。标准生态方面,可支持 Docker、Kubernetes,还有像微软的 Hyper-v 等虚拟化的技术和安全技术。

(3)机器学习框架支持:支持TensorFlow 1、TensorFlow 2、ONNX 和 PyTorch 等标准机器学习框架,很快也将支持百度飞桨。

(4)标准生态支持:通过微软 Azure 部署、Kubernetes 编排、Docker 容器以及 Hyper-V 虚拟化和安全性,已生产就绪。

目前 Poplar SDK 支持最主要的三个 Linux 操作系统发行版本:ubuntu、RedHat Enterprise Linux、CentOS。

ubuntu 是迄今在AWS上最流行的一个操作系统,RedHat Enterprise Linux 对一些企业级用户做私有云非常重要,而 CentOS 在中国互联网公司中应用广泛。

今年 5 月,Graphcore 推出分析工具 PopVision Graph Analyser,并上线 Poplar 开发者文档和社区。

使用 IPU 编程时,可借助 PopVision 可视化图形展示工具来分析软件运行的情况、效率调试调优等。

Poplar 开发者文档和社区中提供了大量的 Poplar user guide 和文档。开发者可通过 www.graphcore.ai/developer 访问。

此外,Graphcore 在 Stack Overflow 上也有针对 IPU 开发者的知识门户网站,并在知乎上开辟了新的创新者社区,未来通过知乎将更多深度文章呈现给开发者和用户。

据卢涛介绍,有些国内用户反馈,认为 Poplar 的应用性优于 CUDA,执行同样的任务,在 Poplar 上开发速度更快。

四、案例源代码可下载,秀五大垂直应用

当前基于 IPU 的应用已覆盖了机器学习的各个应用领域,包括自然语言处理(NLP)算法、图像 / 视频处理、时序分析、推荐 / 排名以及概率模型。

这些应用案例和模型已在 TensorFlow、ONNX 和 Graphcore PopARTTM 上可用,所有源代码均可在 Github 上下载。

相较 NVIDIA V100,IPU 在自然语言处理、概率算法、计算机视觉算法等应用均展现出性能优势。

▲对比 GPU,IPU 在运行时展现的性能优势

例如训练 BERT,在 NVLink-enabled 的平台上大约要 50 多小时才能做到一定精度,而在基于 IPU 的戴尔 DSS-8440 服务器上只需 36.3 小时,速度提高 25%。

做 BERT 推理时,同一时延,IPU 吞吐量比 V100 高一倍;在训练 MCMC 时,IPU 可将性能提升至 V100 的 26 倍。

运行 ResNeXt 推理时,IPU 可实现 6 倍的吞吐量和 1/22 的延时。一些搜索引擎公司、医疗影像公司用户已通过 IPU 来使用 ResNeXt 的服务。

Graphcore 销售总监朱江分享了 IPU 在金融、医疗、电信、机器人、云与互联网等五类垂直领域的应用实例。

1、金融:LSTM推理性能提升260倍

IPU 在算法交易、投资管理、风险管理及诈骗识别领域等主要金融领域均表现出显著优势。

例如在推理方面,延迟性能不变时,IPU 可将长短期记忆(LSTM)模型吞吐量提升 260 倍,对于不可向量化模型亦能取得非常好的效果。

在训练方面,IPU 可将 MCMC 概率模型的采样速度提高 26 倍 , 可进行阿尔法预测和期权定价,并能将强化学习的训练速度提升 13 倍。

采用多层感知器(MLP)预测销售结果时,相较 Batch Size 为 512K 的 GPU,IPU 吞吐量可提升 5.9 倍以上。

2、医疗和生命科学:影像分析能效提升4倍

医疗和生命科学包括新药研发、医学图像、医学研究、精准医疗等领域,涉及大量复杂的实验,加速计算过程对一些医学成果的更快产出至为重要。

微软用 ResNeXt 模型做颅内出血医学影像分析时,使用 IPU 较 V100 GPU 速度提高 2 倍,而功耗仅为 V100 的一半。

3、电信:加速5G创新应用

在电信领域,智慧网络、5G 创新、预测性维护和客户体验方面均可应用 IPU 带来加速体验。

例如,机器智能可帮助分析无线数据的一些变化,运行 LSTM 模型进行网络流量矩阵预测时,采用 IPU 性能比 GPU 提升超过 260 倍。

网络切片和资源管理是 5G 中的一个特色,需要大量学习没被标过的数据,需要应用强化学习模型,而在 IPU 上运行强化学习,训练吞吐量相较 GPU 最多可提高 13 倍。

4、机器人:解决经典光束法平差加速问题

在机器人领域,伦敦帝国理工学院 Andrew Davison 教授带领的机器人视觉小组在今年 3 月发表的论文中采用 IPU 来开发新算法,用以优化空间人工智能的效率。

相较使用 Ceres 中央处理器库的 1450 毫秒,IPU 处理器仅在 40 毫秒内就解决了真正的光束法平差(Bundle Adjustment)这一经典的计算机视觉问题。

5、云与互联网:通过微软Azure开放

云与互联网是 Graphcore 早期及现在一直主要推广的一个重要领域。

当前微软在 Azure 公有云上已面向全球客户开放 IPU 公有云服务。此外,微软在一些自然语言处理、计算机视觉应用中已使用 IPU 实现加速。

另外欧洲搜索引擎公司也使用 IPU 进行 ResNeXt 模型推理,做了一个搜图识别应用,将性能提升 3.5 倍以上。

结语:即将接受中国市场的检验

今年疫情拖累全球许多行业的发展,但在卢涛看来,AI 领域非但不会走向低潮,反而会有很大发展,尤其是自然语言处理类算法的发展会催生大量新应用。

疫情在全球范围内推动了数字化的加速,亦会推动数据中心等算力基础设施的建设进程。

卢涛认为,2020 年是对 AI 芯片非常关键的一年,如果企业拿不出 AI 芯片产品,或者对软件不够重视,对后续持续化投入或将是很大的挑战。

从 Graphcore 与阿里、百度的合作来看,该公司今年在中国市场的推进明显提速。

尽管 Graphcore 在中国市场的整体启动较北美地区晚了一年左右,但卢涛期望,中国市场能在Graphcore全球市场占比达40%-50%。

此外,Graphcore 也希望针对中国市场的需求,做产品的定制化演进。

据卢涛介绍,Graphcore 有两支技术团队,一个是以定制开发为主的工程技术团队,另一个是以对用户的技术服务为主的现场应用团队。

其中工程技术团队承担两个方面的工作:一是根据中国本地 AI 应用的特点及需求,将一些 AI 算法模型在 IPU 上实现落地;二是根据中国本地用户对于 AI 的稳定性学习框架平台软件方面的需求,做功能性的一些开发加强的工作。

从上述种种应用案例来看,Graphcore 已初步证明其创新 IPU 架构在多类 AI 应用上的出色训练和推理表现。而 Graphcore 还会继续 练内功、打基础 ,攻克技术难题,加固技术实力。

不过芯片和相关软件工具的落地只是第一步,真正商业化战果如何,还要看市场给出的回音。