软硬融合释放AI原力英特尔以数据为中心的无限未来

登录注册

软硬融合释放AI原力英特尔以数据为中心的无限未来

来源:网络
更新日期:2020-06-22

摘要： “人工智能和数据分析将是未来十年起决定性作用的工作负载，推动以数据为中心的领域从云到边缘的颠覆性创新。凭借无与伦比的规模，产品组合广度和生态系统支持，英特尔提供

“人工智能和数据分析将是未来十年起决定性作用的工作负载，推动以数据为中心的领域从云到边缘的颠覆性创新。凭借无与伦比的规模，产品组合广度和生态系统支持，英特尔提供芯片和软件基础，专为从云到边缘的各种用例而设计。”英特尔公司数据平台事业部副总裁、英特尔至强处理器和存储事业部总经理Lisa A. Spelman谈到。

随着5G、云及边缘、AI等技术在各个行业加速落地，数据的采集、传输、处理、分析也被提升到了更高的优先级，成为企业迈向数字化的核心资源。围绕以数据为中心的发展策略，英特尔在计算、存储、网络上的创新从未止步，并将越来越多的智能技术融入其中，使其与客户的工作负载和业务场景结合得更加紧密，使得商业价值最大化。

6月19日，英特尔正式发布了支持bfloat16的第三代英特尔至强可扩展处理器，以及全新的AI软硬件产品组合，包括英特尔傲腾持久内存200系列、新一代高容量英特尔3D NAND固态盘英特尔SSD D7-P5500和P5600，并且披露了即将发布的英特尔Stratix 10 NX FPGA。同时，英特尔还对精选解决方案组合进行了全面升级，推出3个全新精选解决方案和5个经过强化的精选解决方案，重点覆盖数据分析、AI、超融合基础设施三大领域。

IDC预测，2023年AI系统的支出将达到979亿美元，是2019年375亿美元支出的2.5倍多。在摩尔定律和云效率的帮助下，人工智能正在从复杂的组织向每一个应用程序渗透。为此，英特尔围绕数据处理、数据存储、数据迁移、数据分析进行了长期布局，不仅体现在重点领域的投资，例如在连接性方面的投资旨在让数据从以太网到硅光子，再到交换机的迁移过程更加迅速，更体现在数十年以来对CPU和XPU产品线的持续投入，利用至强、凌动、可编程解决方案和各类加速器突破各类工作负载的效益极限。

为了确保至强可扩展处理器是运行AI的最佳CPU，英特尔不断的将推理和训练的AI加速功能融入其中。目前，至强可扩展处理器在全球范围内的部署量已接近3500万颗，在第三代英特尔至强可扩展处理器中，首次内置的bfloat16可以同时为AI训练和推理性能提供加速，并且能够更好的支持经过专门优化的深度学习框架（TensorFlow、Pytorch等）。同时，英特尔还为OpenVINO工具包和ONNX Runtime环境带来了bfloat16优化，以简化推理部署工作。

据了解，bfloat16是一个精简的数据格式，与32位浮点数（FP32）相比，bfloat16只通过一半的比特数且仅需对软件做出很小幅度的修改（如必要），就可以达到与FP32同等水平的模型精度。结合第三代英特尔至强可扩展处理器对4路和8路服务器的支持，客户无论是处理深度学习、高性能计算的任务，还是运行内存数据库、关键型应用及分析密集型的工作负载，都可以从容应对。与标准的拥有5年寿命的基础安装平台相比，那些希望加速其数据驱动计划的企业、云服务商、通讯服务商平均可获得1.9倍的性能提升和1.98倍的数据库性能提升。

数据模型规模的快速增加对存储技术同样是个不小的挑战，客户不得已要在容量、速度、成本、持久性之间进行取舍，英特尔要做的就是弥合这一鸿沟。英特尔3D NAND技术在浮栅结构上进行设计，通过采用更小的单元尺寸和高效的存储阵列，实现了更高容量的解决方案，具有高可靠性，对于电荷损失具有高保护性。傲腾技术则是建立在独特架构上的全新技术，实现了在密集、无晶体管、可堆栈式设计中对每个内存单元进行独立编址，在内存与存储金字塔中建立了新的层级，可提供多种外形规格的持久内存、非易失性内存以及持久存储。

借助快速缓存和存储加速应用程序，傲腾SSD提升了每个服务器的规模，减少了延迟敏感工作负载的交易成本。自去年交付以来，傲腾持久内存已有超过270项生产交易达成，POC到销售的转化率超过85％，《财富》500强中有200多家企业进行了傲腾持久内存的POC或部署。作为第三代英特尔至强可扩展平台的一部分，最新亮相的英特尔傲腾持久内存200系列可以在四路系统中提供18TB的内存数据，较初代产品的平均内存带宽增加了25％。在意外断电的情况下，傲腾持久内存200系列提供的CPU对持久性数据的访问速度比主流NAND SSD读取数据快225倍以上，且在计划或计划外重新启动后，数据不用重新加载到内存中。

针对使用全闪阵列存储数据的系统，英特尔发布了新一代高容量3D NAND固态盘：英特尔SSD D7-P5500和P5600，这些3D NAND固态盘采用了最新的TLC（96层）3D NAND技术，以及低延迟PCIe控制器和全新固件，可部署第3代和第4代PCIe，将延迟降低40％、性能提高33％，能够满足AI及分析工作负载的密集IO需求，并具有提高IT效率和数据安全性的高级功能。

当然，数据的可算可存并不是解决AI复杂性的通用方案，每一次智能进化的背后都是模型规模和复杂度的提升，这就需要可高度定制化的解决方案。此次，英特尔披露了即将发布的英特尔Stratix 10 NX FPGA——英特尔首个针对高带宽、低延迟AI加速所打造的AI优化FPGA产品，预计在今年晚些时候交付。

此类FPGA可以针对自然语言处理、欺诈识别等具有高计算要求的应用程序为客户提供可定制、可重新配置、可扩展的AI加速。英特尔Stratix 10 NX FPGA配备了集成式高带宽内存、高性能网络功能，以及AI优化算法模块AI Tensor Block，该模块对AI中常见的矩阵-矩阵或矩阵-矢量乘法进行了调整，包含AI模型算法常用的低精度乘法器密集阵列。与Stratix 10 MX相比，AI Tensor Block提供的INT8计算性能高出15倍。

为了使创新者能够提供智能服务，英特尔开发了一种方法，让开发人员能够在FPGA等各类产品组合中快速部署AI解决方案。例如，数据科学家可以利用OpenVINO在不了解FPGA的情况下进行推理运算，可在Tensorflow、Caffe、MXNet等标准AI框架中进行训练，并通过OpenVINO进行函数调用，从而在几秒钟内部署该方案。

“开发人员的生产力是我们战略的关键部分，其中一个目标就是使FPGA设计流程更高效。”英特尔公司副总裁、可编程解决方案事业部总经理David Moore表示，“我认为，员工生产力的真正作用就是我们会将其与英特尔的软件标准框架集成在一起。说起OneAPI，显然，这是在至强可扩展平台上的平台级异构集成，而OpenVINO则针对深度学习应用，我们能够读取、部署和优化如FPGA这样的加速器的目标集成。因此，当我们展望FPGA的应用范围时，除了人工智能，我们的一个重点是提高FPGA设计流程的整体生产力。通过对英特尔软件框架、标准机器学习框架，以及行业资料库的集成利用，我们可以看得更远。”

就像David Moore所说的，英特尔早已把目光望向CPU之外的更广阔的天地，通过oneAPI跨架构工具组合帮助开发者简化异构编程的流程、加速性能、提升生产力。在这个丰富的以数据为中心的产品组合中，客户可以轻松借助英特尔的CPU、GPU、FPGA、存储、软件等能力，在云端、边缘或本地为不同行业打造基于应用场景的最佳实践。

这一过程中，英特尔的合作伙伴扮演了至关重要的角色，全新亮相的精选解决方案就是最好的体现。英特尔公司市场营销集团副总裁兼中国区数据中心销售总经理陈葆立认为，英特尔精选解决方案的出发点，就是希望把新的技术和国内的优秀方案商进行定制化匹配，预先把配置和性能都调到最优，让行业客户通过简易操作即可应用整个方案，省去自己的工程师做开发的环节，“我们肯定会持续推进，尤其是有了新平台、新功能、新指令集之后，我们会和国内的方案合作商合作。比如东软、亚信、海鑫科金等都在和我们紧密合作，当我们推出新平台的时候，他们可以第一时间到新平台上测试，优化他们的方案，服务更多国内的行业客户，我们会持续进行这方面的投入和投资。”

在主题为“‘芯’存高远智者更强”的英特尔数据创新峰会暨新品发布会上，有二十余家合作伙伴共同见证了英特尔全新的以数据为中心平台产品组合的发布，并深入分享了英特尔产品与解决方案在各行业的成功部署。可以说，通过不断创新的硬件基础架构，英特尔在以数据为中心的大道上将走得更加坚实，再结合软件的持续优化，软硬件的融合使得英特尔的AI之路充满了无限可能。更重要的是，这一切都生长在一个足够健壮的生态体系之上，正如Lisa A. Spelman所言，生态系统就是一切，这也是英特尔非常具有战略眼光的一点。

软硬融合释放AI原力 英特尔以数据为中心的无限未来