摘要:中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日服务器分论坛上,华为技术有限公司大数据解
中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日服务器分论坛上,华为技术有限公司大数据解决方案产品总监杨泽生,分享了主题为《大数据存算分离,加速企业数字化转型》的演讲。
华为技术有限公司大数据解决方案产品总监杨泽生
杨泽生:大家下午好!我是来自华为海量存储领域的杨泽生,我分享的题目是华为在大数据存算分离的实践与案例。
大家知道,数字化经济时代最大的特点就是数据急剧增长,华为今年做了一个全球产业展望(GIV)报告显示,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。
在数字化给企业促进业务发展过程当中起到了非常重要的作用,我们可以从这些案例里面看到,比如大家可能很熟悉的互联网个性化推荐系统,精准推送的背后,其实就是数据在驱动。对于企业来讲,我们通过大数据辅助生产决策,华为跟大港油田合作的大数据项目,利用大数据和AI技术找石油,通过数据运营,为长期稳产提供决策支撑。华为每年有近300万人次出差,以前出差涉及考勤、机票、酒店,包括报销等十几个申请流程,现在只需要一个流程就可以真正实现“说走就走”。这是每天45万次后台数据关联碰撞的结果。数据运营,实现“让数据多跑路,员工少跑腿”。
我们可以看到数据成为企业重要的生产要素,而支撑数字化的大数据系统,对企业来讲也是非常重要的基础。
华为在大数据领域,其实耕耘的比较早,我们通过这几年实践与总结发现,企业建设大数据系统,随着应用深入和数据累积,碰到了很多的问题,我们可以总结为三点:第一,面向海量数据存不下,过去有副本或者分散的模式进行存储,需要采购大量的设备才能满足数据存储需求,也带来了机柜、制冷、功耗等运维成本高的问题;再就是我们做数据系统的时候为了面向不同的业务,数据是分散,这时候会带来多套系统间数据流动的问题、重复存储的问题。第三是数据管理,目前大部分企业的数据管理,包括备份、归档,故障处理,都依赖于人工,自动化程度不高,操作复杂,缺少故障监控、故障预测、自愈等自动化运维手段。这些因素都在制约着企业大数据系统的效率。
们已经看到计算存储一体化的建设方案,正在限制海量数据的分析,下面从趋势的角度看,是不是一定要选择存算分离
稍微扯远一点,从人类文明的发展,是通过分工协作来推进的。通过专业化的分工,带来更多的协作,解决协作效率,这样的规律放到技术领域也同样适用。存储与服务器过去也是一家,80年代存储逐渐从服务器里面剥离,实现独立的体系,并且取得了突飞猛进的发展。从这个层面来看的话,分离它其实代表的是一种专业化和更好的分工协作。
我们再看看大数据自身的发展,从我们现普遍在用的Hadoop3.0,最大的变化点是计算与存储剥离开,通过引用外部的存储,把存储与计算分开,比如S3接口的对象存储。第二,降成本,尝试其EC方案,提高存储底座的能力。第三,计算可以走轻量化、容器化的方向,从而实现资源的弹性利用。
从趋势来看的话,存算分离是必然。
那么怎么做存算分离,存算分离又是如何解决大数据分析问题的呢?
存算分离架构的本质,是我们把计算和存储,从过去一体化的架构剥离出来,实现独立的集群。这种架构带来直接的好处,我的存储计算独立扩展、分开扩展,更好的提升资源利用率。第二,通过统一存储,打破过去数据孤岛,数据放在一起进行存储,实现资源共享。再就是存储方面引入企业化的存储,打造坚实的大数据底座。这样的话通过存算协同协同,提升大数据分析的效率。
我们再看看华为的大数据存算分离解决方案,首先,底层存储存储层实现了原生HDFS语义,100%兼容开源社区Hadoop和主流商用大数据平台,良好的兼容性,使得应用层不需要做任何开发,就可使用华为的大数据存算分离方案,这样可以大幅提升业务对接效率。第二个,利用存储自身的EC算法特性,可以实现海量数据的存储的低成本,再有就是通过自动化运维管理,提升系统的效率。
我们针对大数据这个场景,单独打造了一款高密的存储设备,最大的特点是存储密度大,5U120盘高密存储器,单台设备能够支持2.4PB的裸容量,1台可以顶于3台36盘的通用高密服务器。通过高密存储,给客户带来最大的好处是机房空间能够降下来,极大节省采购和运维成本。
在存储内部边,通过华为自身对底层的技术上的深度增强,推出自研EC算法,可以做到91%的存储利用率,通过这种方式可以很大提升资源利用率。
大家如果用过开源Hadoop的话,有一个绕不开的瓶颈就是元数据瓶颈,开源Hadoop的元数据到达1.5亿个文件以上,会带来性能、稳定性等等问题,通过对元数据增强,我们可以支撑到100亿的文件,有效的解决开源Hadoop的扩展能力不足的问题。
针对多种类数据存储这块,存储最大的优势是可以实现多协议的融合。比如说从现网生产系统的数据有文件、对象、结构化,过去的存储方式都是以分散在不同的系统去存,这种方式带来数据管理的复杂度增加,另外就是业务对接非常复杂。在华为存储上,我们可以把多种类型的数据协议融合在一起,数据可以通过文件的方式写进来,对上边可以用大数据直接访问,这样的就能减少少数据的拷贝与对接的工作量,来提升数据流动效率。
另外针对数据生命周期的管理,这么多数据存进来的话,不做分级,对系统效率会有很大的影响。在华为存储上,我们可以实现不同热度的数据,我们选择放在不同的存储介质,统一管理。数据可以按热、温、冷自动化的流动,业务不感知,,可以保证热度数据优先级访问,温数据可以通过大容量、低成本的存储介质,来提升效率,同时降低数据管理的成本。
我们再看一下华为在存算分离行业实践,这个解决方案已经发布了近2年,在各行业均已取得比较好的实践效果。目前来看,运营商行业是最新遇到海量数据处理痛点的客户,运营商海量的营销、日志、经营分析等数据,这些数据我们过去普遍是哟多副本存储,多副本会带来空间、能耗等等系列的问题,那么通过存储与计算分离架构,可以很好的解决空间方面的问题。
这是我们在移动客户做的经分系统扩容的例子,可以直接在现有系统上扩展,扩展成为存算分离的架构。我们测算过,用存算一体的模式,需要321个节点,通过EC这种算法,可以把节点数一下子降到102个节点,通过这样的方式,整个系统建设成本降低40%。
另外,我们可以在现网大数据群稳定运行,不中断业务情况下,平滑演进到存算分离。这种方式下,新的数据写到存储,旧的数据可以在原有的大数据里面继续保存。访问的时候,有统一的元数据网关,可以实现新老数据的访问路由,对业务层来说,不需要做改造与迁移。
再看一个银行的案例,银行正处于数字化转型的关键时期,大数据烟囱导致的数据分散,数据难共享,业务上线慢,低资源利用率等,一直是困扰客户的问题。使用大数据存算分离方案,帮助客户实现了统一的大数据存储底座,数据集中之后上层的计算集群变成无状态,可以实现资源弹性互用,解决过去数据分散、资源浪费等系列重点问题。这种方式,最直观价值,就是可以实现资源利用率4倍提升,同时业务部署,可以从过去的天级,降低到分钟级,系统TOC节省30%。
这是个海外运营商日志留存的案例。运营商日志数据量比较大,但使用与访问频次还比较低的,这么多数据躺在大数据系统里面,需要着重考虑成本问题。通过存算分离架构,存储EC节省了存储空间,从而也节省了空间占用,这个项目的空间,原来规划15个机柜的大数据系统,现在只需要2个计算机柜+6个存储机柜,运维成本节省40%以上
华为的大数据存算分离方案在运营商、公共安全、金融、政府、大企业已经有丰富的实践案例。通过帮助客户以更低的成本存储更多的数据,提升数据分析效率,简化数据管理。
将来,我们会持续在数据基础设施层创新,帮助千行万业释放数据价值,加速数字化转型!
我今天的分享就到这里,谢谢大家!
相关文章推荐
智能手机建站的优点是什么?网站页面布局有哪些关键点? 2022-01-10
2022年中国云计算面临的问题及发展前景预测分析2021-12-28
绿色智能基础设施连接可持续未来-IDCC2021万国数据第一代Smart DC发布会议程揭晓2021-12-27
阿里云:早期未意识到Apache log4j2漏洞情况的严重性 将强化漏洞管理2021-12-27
云计算开发:Python3-replace()方法详解2021-12-27