摘要:中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日新技术与测试分论坛上,腾讯数据中心经理王
中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日新技术与测试分论坛上,腾讯数据中心经理王鹏带来了题为“互联网数据中心通用验证测试技术规范”的演讲。
王鹏
各位嘉宾大家下午好,我是来自腾讯数据中心的王鹏,首先做一个简单的自我介绍。目前我主要负责西南片区的数据中心运营管理工作,同时也深度参与重庆自建数据中心和贵阳山洞数据中心的设计、建设和测试工作,在内部我也同步在推动部门内的数据中心运营技术创新工作,在对外这一块目前是在着力推动验证测试、逻辑设计、基础设施维护的标准化工作。
回到今天分享的主题,今年我们在ODCC成立了一个项目组,主要编写《互联网数据中心通用验证测试技术规范》,验证测试这个概念最早从2008年、2009年从国外引入中国,国外的IT巨头首先提出验证测试概念。经过这些年数据中心整个行业的快速发展,验证测试已经在行业内成为大家的共识,也成为数据中心整个生命周期当中不可或缺的一个部分。
大家可以看一下右侧的图,这是反映数据中心运营生命周期和故障率的典型的曲线,这个曲线的起点就是验证测试结束交付给运营,在运营的初期和中期、末期,故障率是不同的,在初期和末期故障率明显较高,而在开展验证测试的项目当中,它在初期和末期相较于没有开展过验证测试的项目来讲,整体故障率明显降低。
这就是我们要去做基础设施验证测试的目的所在,它的意义在于通过验证测试能够帮助客户验证,主要的基础设施在生产、安装、运行、维护过程当中是否满足了用户的设计要求和使用要求。目前国内通用的验证测试方法,就是通过多种假负载搭配来模拟数据中心未来运行的环境,全面分析、掌握基础设施运行的功能和性能参数。
我们大概做过一个统计分析,验证测试占整个数据中心基础设施建设成本的1%左右,通过1%的成本支出能够创造很大的价值,帮助数据中心客户在数据中心正式交付前给数据中心做一次全面而深度的体检,帮助客户检验数据中心的可用性,降低初始的故障率,识别运行的风险,同时也降低运维人员在运维过程中的难度,提高整体项目的交付质量和交付效率。
我们看一下整个行业目前的现状。
近几年数据中心整个行业内建设项目发展非常迅猛,有数据分析,在过去3年当中整个行业平均增速超过30%。另一方面我们也看到,目前在行业内没有权威的验证测试技术规范,而且对于很多的中小数据中心客户而言,他们测试经验的不足,导致很多可能后续会影响到运营安全的测试细节被忽略掉。而且目前整个行业内主要是从设计角度去指导测试工作,缺乏长期运营使用的角度去把握测试过程,整个导致我们目前行业内在验证测试这一块的效果不够理想。
我们在ODCC成立这个项目的目标就是通过编写这样一份规范、细化相关的内容,在数据中心建设和交付期间,去规范它的厂验测试、厂家自测、现场预检查、单设备测试、单系统测试、综合系统测试、环境测试等内容,并提供相应的评判标准,确保整体测试效果达标。整个规范覆盖了数据中心的电气、暖通、智能化设备、消防系统及运行环境等。
数据中心编写规范的经验和技术离不开我们整体技术的发展,腾讯数据中心在过去20年当中经历了四代数据中心的发展过程,在第一代数据中心中,主要是以传统的风冷模式加部件级冗余,当时整个国内还没有开展验证测试。
第二代数据中心,我们对整体架构进行冗余设计,并且在腾讯的天津自建数据中心首次引入了验证测试的概念,但是在当时的情况来看,整个验证测试的费用是非常高昂的,而且主要是由国外的公司来做主导。
在第三代数据中心中,我们为了适应互联网企业在整个行业内的快速爆发式的增长,我们探索了以微模块+冷水系统为主的模块化数据中心,同时我们也在同步去探索适合于国内互联网行业的测试方法论。
第四代数据中心,腾讯将基础设施产品化,以方仓的形式来构建T-block数据中心。大家请看最右侧的图,我们将传统意义上的空调、配电设备,这些原本要跟房间、跟基建相结合起来的设施,我们将它产品化、方仓化,放在集装箱,在工程实现预制化产品,到现场快速安装,既确保产品出厂质量,要提升了整个项目的建设交付效率。在这个阶段,我们同步完整构建了自身的验证测试标准。
目前经过多次的编写和讨论工作,目前我们整个验证测试规范主要分成以下七个环节:
L0:厂验测试。
L1:厂家自测。
L2:预检查。
L3:单设备测试。
L4:单系统测试。
L5:综合系统测试
L6:环境测试。
首先介绍第一个部分L0厂验测试。厂验测试是由甲方、建设单位、设备厂商共同在工厂或者是权威的第三方实验室里对设备的生产工艺、设备的出厂检验的流程进行检查,并对现场不具备测试条件,需要到实验室去做测试项目进行产品测试。从而确保现场安装的设备设施、产品的质量,符合当时招投标的要求。
这里举一个简单的例子,BA系统对于数据中心从业者来说一定不陌生,BA系统是控制数据中心整个水冷系统运行的一个“大脑”,它控制包括冷机、冷塔、阀门、水泵设备的正常运行和逻辑切换,在常规的BA系统测试当中需要整个暖通工程建设完成之后才能够开展BA测试,而且由于BA系统整体逻辑程序非常复杂,它的整个调试耗时非常长,这就导致很多项目即使是在交付之后,BA系统仍处于调试的状态,而且在运营初期会埋下很大的隐患。
在本次规范当中我们结合腾讯目前在用的创新式的BA的厂验测试标准,将BA的测试工作提前到厂验环节进行,通过在现场去搭建这样一套BA的厂验平台。大家看下右下角的这张图,这张图上绿色图形,代表水冷系统的运行设备,比如冷机、水泵,红色数值反映了这些设备的工作状态,我们通过搭建BA厂验平台,实现了对BA逻辑程序的提前调试,使得建设和测试工作能够同步开展,最终达到的效果就是整体项目缩短交付时间可以缩短20天到30天左右,而且能够确保在项目正式交付的同时,BA系统即能够马上投入正常运行。
在完成厂验测试的基础上,来到L1厂家自测环节,厂家在完成现场施工及设备安装之后,需要对相关的工艺、设备的功能进行充分的调适,并提供相关的厂家自测报告。
在L2现场预检查环节,由专业的第三方测试单位进驻到现场,对现场的设施运行环境、安装工艺进行复核,确保在正式开展第三方测试前,现场设备的功能、运行情况达标。
L3单设备测试环节,这个部分我们主要规范了单个设备应该测试的功能和性能内容,包括它带载的性能,例如柴发、配电柜、UPS等需要进行单设备测试。左边的图是在柴发满负荷持续运行下,我们发现它的冷却液出现了爆管的现象,这里就是我们结合自身的设备测试经验,严格去规范柴发满载应该是两个小时还是压四个小时,对于负载突增突减应该如何测试。在规范中我们将很多这样的测试经验,转化成了测试标准。此外,在测试仪器这一块我们在规范中也做了相关的要求,比如说对不同测试的场景应该使用什么样的仪器,对测试仪器的类型、功能、精度等都做了相应的要求。
在完成单设备测试的基础上我们来到下一个环节:L4单系统测试环节,单系统测试主要是对相同设备组成的单系统进行测试,比如图上所看到的机房的制冷与冗余测试,我们使用CFD对整个机房的气流组织进行建模分析,分析在不同负载率情况下,机房的温升、局部热点情况。同时不断调整末端制冷设备的控制参数和策略,寻找最佳的末端制冷控制方案。这是一个连贯的测试,可以为后续的运营,在不同阶段比如说在轻负荷、满负荷情况下应该采用什么样的控制策略,为运营优化提供充分的参考。
在单系统测试方面我们在规范当中还定义了逻辑测试的标准,比如说配电逻辑测试,主要是分成了场景测试和软件界面测试两类。我们在规范中通过定义多种配电系统的故障场景,在测试中将它对应到不同配电系统的逻辑图中,去验证配电系统的逻辑切换、时序以及组态界面是否满运维足要求,满足当我们的设计要求。
完成单系统测试的基础上,来到L5综合系统测试。综合系统测试是指在整个系统正常运行状态下对后续数据中心运营过程中可能遭遇到的一些重大的故障场景进行测试,需要各个专业、各个子系统进行联调验证,主要目的是验证部件和系统的冗余、容错设计是否达标。
在完成整个硬件基础设施部分基础的测试之后,我们来到L6对数据中心的运行环境进行测试,规范中定义了机房的洁净度、正压、照度、噪音等测试内容,这是确保数据中心在正式交付前具备良好的运行环境。
我们目前编写的规范实现了对主要基础设施的全覆盖,包括覆盖了21类电气设备,包括了高低压配电柜、UPS、柴发、电池、防雷接地、变频器等;暖通包括30类设备,包括空调、冷机、冷塔等;智能化方面涵盖15类设备,包含了动环、BA、电力监控系统等等;场景包含23类数据中心常见的故障场景,包括制冷与冗余测试、配电逻辑测试、供油系统测试等。
目前整个规范的编写工作得到了很多合作伙伴的支持,包括具备专业技术能力的设备厂家,集成服务商、专业的第三方测试单位,也包括数据中心用户企业。在这个过程当中,我们希望能有更多的合作伙伴参与到我们这个项目当中,共同去完善我们整个规范的编写工作。
我们希望通过编写行业内首个数据中心验证测试技术规范,能够将数据中心验证测试的过程标准化、专业化,也希望能有更多的伙伴加入,在ODCC这个平台上将这份规范打造成权威的行业标准,同时也为数据中心建设项目的高质量交付提供有力的技术支撑。
目前我们的技术规范的编写工作预计在10月份完成,届时会通过ODCC对外正式发布,到时欢迎大家关注。
我今天的分享就是这样,谢谢大家。
相关文章推荐
智能手机建站的优点是什么?网站页面布局有哪些关键点? 2022-01-10
2022年中国云计算面临的问题及发展前景预测分析2021-12-28
绿色智能基础设施连接可持续未来-IDCC2021万国数据第一代Smart DC发布会议程揭晓2021-12-27
阿里云:早期未意识到Apache log4j2漏洞情况的严重性 将强化漏洞管理2021-12-27
云计算开发:Python3-replace()方法详解2021-12-27