新网Logo
首页>互联网热点>

微软让训练万亿参数 AI 模型的 GPU 需求从 4000 个减少到 800 个

登录 注册

微软让训练万亿参数 AI 模型的 GPU 需求从 4000 个减少到 800 个

  • 来源:网络
  • 更新日期:2020-09-11

摘要:微软今天发布了 DeepSpeed 库的更新版本,该库引入了一种新方法来训练包含数万亿个参数的 AI 模型,这种模型内部的变量可为预测提供依据。微软称这种技术称为 3D 并行性,可以适

微软今天发布了 DeepSpeed 库的更新版本,该库引入了一种新方法来训练包含数万亿个参数的 AI 模型,这种模型内部的变量可为预测提供依据。微软称这种技术称为 3D 并行性,可以适应各种的工作负载需求,特别是为功耗大的超大型模型平衡效率。

具有数十亿个参数的单个大型 AI 模型在一系列具有挑战性的领域中取得了长足的进步。研究表明它们之所以表现出色,是因为它们可以理解语言、语法、知识、概念和上下文的细微差别,使他们能够总结演讲,在实时游戏聊天中过滤不合适的话语,解析复杂的法律文档,甚至可以通过搜索 GitHub 生成代码。

但是训练模型需要大量的计算资源。根据 2018 年 OpenAI 的分析,从 2012 年到 2018 年,在大型 AI 训练中,计算量的需求增长了 300,000 倍,也就是大概每 3.5 个月的时间翻一番,远远超过了摩尔定律的步伐。

增强的 DeepSpeed 利用三种技术来实现 万亿级 模型训练:数据并行训练、模型并行训练和管线并行训练。

训练一个万亿参数的模型将需要至少 400 个 Nvidia 今年最新推出的 A100 GPU(每个内存高达 40GB),并且 Microsoft 估计需要 4,000 台 A100 以 50% 的效率运行,大约需要 100 天才能完成训练。这与微软和 OpenAI 共同设计的 AI 超级计算机无并不匹配,后者包含 10,000 多个显卡,在这样的超大规模下,很难获得很高的计算效率。

DeepSpeed 将大型模型分为四个流水线阶段,分为较小的组件(层)。每个流水线阶段中的层进一步划分为四个 工人(workers),它们执行实际的训练。每个管道都在两个并行数据实例之间复制,并且工作程序被映射到多 GPU 系统。由于有了这些和其他性能改进,微软表示,一个万亿参数的 AI 模型可以减少到仅需要 800 个 Nvidia V100 GPU 训练。

DeepSpeed 的最新版本还包含了 ZeRO-Offload 技术,该技术可利用 GPU 及其主机 CPU 上的计算和内存资源,从而在一台 V100 上训练多达 130 亿个参数的模型。微软声称这比最新技术强 10 倍,使得训练人员可以使用更少的计算资源来进行数据科学家的训练。

这些(DeepSpeed 中的新技术)提供了极高的计算、内存和通信效率,并支持数十亿到数万亿个参数的模型训练。 微软在博客中写道, 这些技术还允许极长的输入序列,并通过单个 GPU,具有数千个 GPU 的高端集群或具有非常慢的以太网网络的低端集群释放硬件系统的能量。我们将(继续)进行快速创新,为深度学习训练突破了速度和规模的界限。

雷锋网编译,via venturebeat 雷锋网雷锋网