阿里云召唤神龙,开启云计算下一个十年

  • 来源:网络
  • 更新日期:2020-07-15

摘要:前几天我看到一篇文章,标题叫 " 摩尔定律已死,芯片路在何方?",大意是摩尔定律或许真的已经走到了尽头。这类观点其实从芯片进入 7nm 之后就不绝于耳,当全世界的 IT 从业者都在担

前几天我看到一篇文章,标题叫 摩尔定律已死,芯片路在何方?,大意是摩尔定律或许真的已经走到了尽头。这类观点其实从芯片进入 7nm 之后就不绝于耳,当全世界的 IT 从业者都在担心摩尔定律终结,算力缺少增长空间的时候,云计算出现在了大家眼前。

01

进击的云计算

2019 年,全球云计算市场总额突破 1000 亿美元大关,正式进入千亿时代。国外的亚马逊、微软,中国的阿里云,都在非常大的体量上保持高速的增长。可以遇见,未来云计算市场仍然有非常大的增长空间,摩尔定律还没终结,但是云计算时代的先到来了。

云计算的底层其实是虚拟化技术,这最早在 1974 年的一篇论文中被提出。可以说,虚拟化技术是云计算的核心思想,但是虚拟化技术同样也是很多人不看好云计算的原因。归根结底,虚拟化的开销太大了。我们平时的电脑都是有处理器、内存、硬盘等资源。云计算平台通过虚拟化技术,把处理器、内存、磁盘等资源进行池化,从而提升资源的利用率。比如我们购买阿里云的 ECS 产品,一个 1 核心的实例,我们并不是真正获得了一个处理器核心,而是一个虚拟的处理器核心。这个虚拟的处理器核心是虚拟化以后的处理器。虽然虚拟化有各种各样的好处,但是虚拟化的开销如果太大,这一切可能得不偿失。

1997 年,一位斯坦福教授创立了著名的 VMWare 公司,通过一系列先进的虚拟化技术,把虚拟化从理论转入到了现实。但是用过虚拟机的很多同学可能都知道,虚拟机实在是太卡了。而卡顿背后的原因,就是因为虚拟机底层的虚拟化技术消耗。举个例子,2.5GHz 主频的处理器虚拟化之后可能只相当于 1GHz 的主频。除此之外,多个用户在共享资源的时候,如何保证安全性、公平性,也是云计算平台必须要考虑的问题。

02

神龙问世

而对于这些问题阿里云给出的答案,就是自研神龙架构,专门为云计算推出的、软硬件一体的虚拟化方案。在彻底解决虚拟化损耗的前提之下,实现了虚拟机的弹性体验。

在芯片的发展史上,出现过很多路线之争。从 CISC 架构和 RISC 架构之争,再到 IA64、AMD64 之争,还有多核与高频之争。每一次硬件演进的路线,往往都是由硬件本身出发,最后再回到硬件中去,核心思想还是硬件本身的性能。但是随着摩尔定律逐渐终结,芯片性能发展已经无法满足大家的需求,同时上层软件越来越多元。云计算开始接过摩尔定律的接力棒,继续为大家提供算力。但是传统基于软件优化的虚拟化技术,其虚拟化开销太大,难以延续摩尔定律。而神龙的出现,实现了上层应用对下层硬件的主导,通过软硬件一体化的虚拟技术,实现了硬件性能和功能的演进。这可以说是一个划时代技术,甚至可以说,未来不再是软件围绕着芯片转,而是芯片要围绕着云计算转,摩尔定律的接力棒放心交给了云计算。

神龙的原理就是通过 FPGA、ASIC 等硬件卸载,把虚拟化过程中很多消耗比较高的算法进行专用硬件加速。这样的话,CPU 资源就可以专心做计算,无需关注虚拟化开销,从而实现物理机的高性能和云计算的高弹性,实现几乎可以忽略的虚拟化开销。除此之外,在资源隔离、数据安全等方面,神龙架构的可靠性都远高于传统的虚拟化方案。和十年前相比,阿里云的 ECS 网络性能提升了 500 倍,存储性能提升了 2000 倍。神龙架构延续了摩尔定律,并且在摩尔定律的基础之上,进一步挑战了算力的上限。

03

正在变 硬 的云计算

阿里云的技术创新,带来的不仅仅是性能的提升、成本的降低,更重要的是重构了整个行业的生态,为未来的软硬件的演进提供了一个新的思路。未来软件和硬件不再是分离的两个模块,而是紧密结合、交替演进,这是一个划时代的进步。过去,芯片、操作系统、上层应用是由不同的厂商提供的,大家会设定一定的标准接口来实现不同层面的兼容性。这样做一个坏处,是很难实现跨层次的系统优化。有时候软件搞不定的优化,也不得不用软件来解决,因为软件开发者无法左右硬件开发者的技术路线。而阿里云的思路是,打通软件和硬件的隔阂,软件搞不定的就让硬件去解决,硬件搞不定的就交给软件,一下子扩展了无数的可能性。阿里云去年的双十一靠着神龙架构,支撑了 100% 的双十一核心系统,说明这种技术演进路线,是有着非常大的潜力和上限的。

举个例子,苹果的成功,和苹果公司对硬件的强大掌控能力,以及软硬件协同优化的能力离不开关系。在通用计算芯片行业,不同的厂商在芯片选型的时候,选择空间并不多,少数几家芯片厂商垄断了大多数的市场。因此,上层应用厂商只能向硬件厂商妥协。而苹果作为一个市场占有率巨大的消费类电子企业,对硬件有非常强的掌握能力。一方面,苹果在 Intel、NVIDIA、高通等公司面前是非常有话语权的,因为没有人原意放弃苹果的订单。另一方面,苹果自身也具备一定的芯片研发能力,甚至可以自己做很多定制优化。因此才有了苹果产品的成功。而阿里的神龙,可以说是苹果式成功的一个新典范。

一方面,神龙的成功说明阿里已经具备了一定芯片研发的基础和落地能力,为未来设计更多样的芯片带来了可能。另一方面,由于阿里云掌握了服务器的硬件设计标准,那么服务器如何选芯片、支持哪些芯片,也掌握了话语权。过去一些科技企业做出了芯片但是因为无法落地而不得不放弃的情况,能得到很大的缓解。可以预见,神龙未来能够在异构计算、NPU、可重构计算等领域发挥巨大的价值,解决芯片做出来但是无永无之地的问题。云计算的成功,让我们可以看到未来云计算不仅会颠覆软件领域,还会对芯片行业产生巨大的影响。

下一个十年,我很期待看到云计算会如何重构整个硬件生态。