华为大数据解决方案产品总监杨泽生：大数据存算分离，加速企业数字化转型

登录注册

华为大数据解决方案产品总监杨泽生：大数据存算分离，加速企业数字化转型

来源:网络
更新日期:2020-09-17

摘要：中国IDC圈讯，开放数据中心峰会（ODCC2020）在北京召开，峰会围绕数据中心新基建为主题，有数据中心领域及相关行业的众多专家与会。在9月16日服务器分论坛上，华为技术有限公司大数据解

中国IDC圈讯，开放数据中心峰会（ODCC2020）在北京召开，峰会围绕数据中心新基建为主题，有数据中心领域及相关行业的众多专家与会。在9月16日服务器分论坛上，华为技术有限公司大数据解决方案产品总监杨泽生，分享了主题为《大数据存算分离，加速企业数字化转型》的演讲。

华为技术有限公司大数据解决方案产品总监杨泽生

杨泽生：大家下午好！我是来自华为海量存储领域的杨泽生，我分享的题目是华为在大数据存算分离的实践与案例。

大家知道，数字化经济时代最大的特点就是数据急剧增长，华为今年做了一个全球产业展望(GIV)报告显示，全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。

在数字化给企业促进业务发展过程当中起到了非常重要的作用，我们可以从这些案例里面看到，比如大家可能很熟悉的互联网个性化推荐系统，精准推送的背后，其实就是数据在驱动。对于企业来讲，我们通过大数据辅助生产决策，华为跟大港油田合作的大数据项目，利用大数据和AI技术找石油，通过数据运营，为长期稳产提供决策支撑。华为每年有近300万人次出差，以前出差涉及考勤、机票、酒店，包括报销等十几个申请流程，现在只需要一个流程就可以真正实现“说走就走”。这是每天45万次后台数据关联碰撞的结果。数据运营，实现“让数据多跑路，员工少跑腿”。

我们可以看到数据成为企业重要的生产要素，而支撑数字化的大数据系统，对企业来讲也是非常重要的基础。

华为在大数据领域，其实耕耘的比较早，我们通过这几年实践与总结发现，企业建设大数据系统，随着应用深入和数据累积，碰到了很多的问题，我们可以总结为三点：第一，面向海量数据存不下，过去有副本或者分散的模式进行存储，需要采购大量的设备才能满足数据存储需求，也带来了机柜、制冷、功耗等运维成本高的问题；再就是我们做数据系统的时候为了面向不同的业务，数据是分散，这时候会带来多套系统间数据流动的问题、重复存储的问题。第三是数据管理，目前大部分企业的数据管理，包括备份、归档，故障处理，都依赖于人工，自动化程度不高，操作复杂，缺少故障监控、故障预测、自愈等自动化运维手段。这些因素都在制约着企业大数据系统的效率。

们已经看到计算存储一体化的建设方案，正在限制海量数据的分析，下面从趋势的角度看，是不是一定要选择存算分离

稍微扯远一点，从人类文明的发展，是通过分工协作来推进的。通过专业化的分工，带来更多的协作，解决协作效率，这样的规律放到技术领域也同样适用。存储与服务器过去也是一家，80年代存储逐渐从服务器里面剥离，实现独立的体系，并且取得了突飞猛进的发展。从这个层面来看的话，分离它其实代表的是一种专业化和更好的分工协作。

我们再看看大数据自身的发展，从我们现普遍在用的Hadoop3.0，最大的变化点是计算与存储剥离开，通过引用外部的存储，把存储与计算分开，比如S3接口的对象存储。第二，降成本，尝试其EC方案，提高存储底座的能力。第三，计算可以走轻量化、容器化的方向，从而实现资源的弹性利用。

从趋势来看的话，存算分离是必然。

那么怎么做存算分离，存算分离又是如何解决大数据分析问题的呢？

存算分离架构的本质，是我们把计算和存储，从过去一体化的架构剥离出来，实现独立的集群。这种架构带来直接的好处，我的存储计算独立扩展、分开扩展，更好的提升资源利用率。第二，通过统一存储，打破过去数据孤岛，数据放在一起进行存储，实现资源共享。再就是存储方面引入企业化的存储，打造坚实的大数据底座。这样的话通过存算协同协同，提升大数据分析的效率。

我们再看看华为的大数据存算分离解决方案，首先，底层存储存储层实现了原生HDFS语义，100%兼容开源社区Hadoop和主流商用大数据平台，良好的兼容性，使得应用层不需要做任何开发，就可使用华为的大数据存算分离方案，这样可以大幅提升业务对接效率。第二个，利用存储自身的EC算法特性，可以实现海量数据的存储的低成本，再有就是通过自动化运维管理，提升系统的效率。

我们针对大数据这个场景，单独打造了一款高密的存储设备，最大的特点是存储密度大，5U120盘高密存储器，单台设备能够支持2.4PB的裸容量，1台可以顶于3台36盘的通用高密服务器。通过高密存储，给客户带来最大的好处是机房空间能够降下来，极大节省采购和运维成本。

在存储内部边，通过华为自身对底层的技术上的深度增强，推出自研EC算法，可以做到91%的存储利用率，通过这种方式可以很大提升资源利用率。

大家如果用过开源Hadoop的话，有一个绕不开的瓶颈就是元数据瓶颈，开源Hadoop的元数据到达1.5亿个文件以上，会带来性能、稳定性等等问题，通过对元数据增强，我们可以支撑到100亿的文件，有效的解决开源Hadoop的扩展能力不足的问题。

针对多种类数据存储这块，存储最大的优势是可以实现多协议的融合。比如说从现网生产系统的数据有文件、对象、结构化，过去的存储方式都是以分散在不同的系统去存，这种方式带来数据管理的复杂度增加，另外就是业务对接非常复杂。在华为存储上，我们可以把多种类型的数据协议融合在一起，数据可以通过文件的方式写进来，对上边可以用大数据直接访问，这样的就能减少少数据的拷贝与对接的工作量，来提升数据流动效率。

另外针对数据生命周期的管理，这么多数据存进来的话，不做分级，对系统效率会有很大的影响。在华为存储上，我们可以实现不同热度的数据，我们选择放在不同的存储介质，统一管理。数据可以按热、温、冷自动化的流动，业务不感知，，可以保证热度数据优先级访问，温数据可以通过大容量、低成本的存储介质，来提升效率，同时降低数据管理的成本。

我们再看一下华为在存算分离行业实践，这个解决方案已经发布了近2年，在各行业均已取得比较好的实践效果。目前来看，运营商行业是最新遇到海量数据处理痛点的客户，运营商海量的营销、日志、经营分析等数据，这些数据我们过去普遍是哟多副本存储，多副本会带来空间、能耗等等系列的问题，那么通过存储与计算分离架构，可以很好的解决空间方面的问题。

这是我们在移动客户做的经分系统扩容的例子，可以直接在现有系统上扩展，扩展成为存算分离的架构。我们测算过，用存算一体的模式，需要321个节点，通过EC这种算法，可以把节点数一下子降到102个节点，通过这样的方式，整个系统建设成本降低40%。

另外，我们可以在现网大数据群稳定运行，不中断业务情况下，平滑演进到存算分离。这种方式下，新的数据写到存储，旧的数据可以在原有的大数据里面继续保存。访问的时候，有统一的元数据网关，可以实现新老数据的访问路由，对业务层来说，不需要做改造与迁移。

再看一个银行的案例，银行正处于数字化转型的关键时期，大数据烟囱导致的数据分散，数据难共享，业务上线慢，低资源利用率等，一直是困扰客户的问题。使用大数据存算分离方案，帮助客户实现了统一的大数据存储底座，数据集中之后上层的计算集群变成无状态，可以实现资源弹性互用，解决过去数据分散、资源浪费等系列重点问题。这种方式，最直观价值，就是可以实现资源利用率4倍提升，同时业务部署，可以从过去的天级，降低到分钟级，系统TOC节省30%。

这是个海外运营商日志留存的案例。运营商日志数据量比较大，但使用与访问频次还比较低的，这么多数据躺在大数据系统里面，需要着重考虑成本问题。通过存算分离架构，存储EC节省了存储空间，从而也节省了空间占用，这个项目的空间，原来规划15个机柜的大数据系统，现在只需要2个计算机柜+6个存储机柜，运维成本节省40%以上

华为的大数据存算分离方案在运营商、公共安全、金融、政府、大企业已经有丰富的实践案例。通过帮助客户以更低的成本存储更多的数据，提升数据分析效率，简化数据管理。

将来，我们会持续在数据基础设施层创新，帮助千行万业释放数据价值，加速数字化转型！

我今天的分享就到这里，谢谢大家！