新网Logo
首页>主机-资讯>

百度系统部高级系统工程师李喆:终端设备质量评价指标

登录 注册

百度系统部高级系统工程师李喆:终端设备质量评价指标

  • 来源:网络
  • 更新日期:2020-09-16

摘要:中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,百度系统部高级系

中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,百度系统部高级系统工程师李喆做了以《终端设备质量评价指标》为主题的精彩演讲。

大家好!我来自百度系统部高级系统工程师李喆,做《终端设备质量评价指标》的分享。

一、为什么做这套评价指标?目的和意义从哪出发的?

项目范围包括:设备厂家、监控厂家,最后到业主最上面的管理平台。我们希望治理的是从数据源头把终端设备数据质量提高和管控起来。因为数据源头的数据质量从底到上,最终决定了我们业主的管理平台的数据质量。高层数据质量、顶层软件系统的数据质量最终一定是来自于最底下数据源的终端设备,高层数据质量不会好于底层数据源的设备。

因为我们管理平台以后随着对数据消费深度的增加,比如AI控制、故障预测、预测性维护等等需求越来越多,AI控制需要对数据采集的密度是1秒钟1个点,如果底层这个终端设备只能提供5秒钟一个点位,对我AI控制和AI分析不是一个很好的数据,我就可能不能用。还有故障预测、预测性维护都需要有稳定的数据源,我们白皮书要规范它。

还有些数据源欠佳,采集电标出现极大值、极小值的情况,要从底层消除脏数据,把数据比较慢、比较错、极值从底层消除掉。

另外,我们现在缺少一个质量监控评价标准,现在大多数做系统集成、做设备监控,像TCP、RTU等等把通信协议连通了问题就不大了,数据可以采集上来了就可以了,但是具体采集数据的好坏是没有一套很好的评价指标、体系,所以我们现在这个解调要输出评价指标的白皮书,建立这套评价标准,比如数据源接口吞吐率怎样、HMI指标怎样有详细指标。

现在我们的阶段输出了评价指标的白皮书,后面会再去输出具体的指标标准,比如像吞吐率希望250个点/秒、响应时间是1秒内完成、抖动控制在多少,后面会出具体数字指标。出完具体数字指标之后推出认证服务制定测试方案,对终端厂家设备比如电量仪、对采集风冷精密空调设备制定测试方案,最终出个认证的设备,在甲方招投标过程中就知道你的设备是经过我们认证的,我们就可以放心的放到我们数据中心里来,最终就是要搞认证。

质量评价内容是围绕监控架构进行的,架构里的每一项,从运行工况、到采样控制、到存储器、计存器、CPU、HMI、对外接口,每项都有具体指标、具体评价标准。比如:运行工况,要知道温湿度系统;采样到底每秒钟采多少个点;响应控制时间延时是多少,控制对我们来讲也是非常重要的;采集控制之后需要把这个数据放到计存器;计存器内部的刷新时间到底是1秒好还是要求3秒,都有具体指标;存储器在监控系统里有存储一定历史数据,历史数据到底要存几个月,对历史数据查询历史趋势、历史报表的时间,比如要查一个历史报表希望它10秒内显示,有的厂家做到30秒对我们来讲不是一个满意的结果;存储和计存之后数据放到CPU处理;处理之后放到HMI人机接口进行展示;另外一块是放在对外接口,我们会评价它的吞吐率、响应时间等等。

评价内容围绕三点——监控点、本机监控、对外接口:监控点是静态信息,比如监控风冷精密空调,会去看监控点的完整性,你能提供给我的点位是不是完整、是不是能满足我的业务需求;本机监控,HMI响应时间、刷新时间;对外接口的性能,后面会一个个给大家讲。

——监控点。监控点是描述设备完备性的,比如需要监控风冷型精密空调,就需要设备给我提供送风温度、回风温度、送风湿度、回风湿度,有的系统如果只通过了送风温度而没提供回风温度,那我认为这个设备提供的完备性不够,我们会考察这些完备性信息,根据不同的系统有区分。还有读写属性,风冷精密空调有送风温度设定值、回风温度设定值,我们都会去评估这些设定值是不是可以写、写的性能怎样。从设计来讲,我们点位分成模拟量和状态量,比如我采集高质量电能分析仪,A厂家提供分辨率是0.1,B厂家提供的分辨率是0.2,肯定是0.1的这个分辨率更高,采集数据的精度也更高,模拟量需要有明确的分辨率和单位。状态量比如UPS,每个状态需要有个明确的定义,比如UPS里会有供电模式主路供电、旁路供电、电池供电是状态,需要对每个状态值也要有明确定义,一般可以写成“123456”,也可以写成“”,这都是比较清晰可读的,如果厂家不太友好有可能写成“AABBCCDD”或者有井号、叹号等等,可读性比较差,所以从静态指标会有具体要求。

——本机监控。计存器数据刷新时间是个特别重要的指标,它决定上层采集数据的密度。比如一个普通的电量仪能采集的间隔时间是8毫秒,另外一个能采集的数据刷新时间是1秒,那我就知道8毫秒能采集的数据更密更多,对上层AI的分析、对预测性维护能拿到的数据更加精细。另外,HMI考虑数据刷新时间、延迟时间,底层数据从传感器读上来一个温度可能是26度,从最底层传感器到监控系统计存器,最终到HMI这个显示时间,希望它控制在2秒以内,如果时间太长了说明你的监控系统本身质量是不好的。还有HMI切换时间,页面切换时间越短越好,液冷监控从1切换到2切换到3,这个页面切换不可能等10秒、20秒。另外,还有历史数据查询时间,比如在HMI上查询某个温度的历史趋势,不希望超过10秒钟才能看到我的历史趋势、历史报表,所以我们对HMI也有整体要求;控制执行时间分两块,对命令响应时间到动作时间,从接收到一个命令,到这个命令真正执行完毕,我们会考量这个时间是不是在可靠、有效的范围内。

给大家澄清一个概念,数据刷新时间和延迟时间是有些区别的,数据中心时间是指数据在计存器内部刷新时间,延迟时间是指计存器到HMI的时间。举个例子,我们常说网速比较慢,但并没有说是因为你刷新时间长还是带宽低导致的网速慢,常说的网速慢有可能是带宽低导致的,后面我们会把所有概念给精确定义出来。

——对外接口。这个对外接口决定了我们设备监控系统可靠性、稳定性。大家看右下角那个图,终端设备在计存器刷新时间是5秒,上层监控系统哪怕采集间隔是1秒,但是每秒钟采集的值都是一样的,底层终端设备5秒钟才会刷新一次,等于采集了5次没有意义的值,所以需要把终端设备时间也增强,否则上层监控系统做得再好,意义也没那么大。接口响应时间是接到一个数据包去响应这个时间要控制在若干个毫秒之内,这个我们都会去考量;包括响应周期是读取接口暴露所有监控点所用时间,比如精密空调对外暴露了100多个点位,把这100多个点位全部读一遍的时间控制在多少毫秒;包括数据吞吐率,我希望每秒钟读数字量能4000个,每秒钟读250个模拟量,读写都是一样的,如果你的设备达不到这个指标,我们采购时就不会去考虑;包括数据稳定性,一是响应成功率,比如发100个包响应的是94请求,那成功率是94%,我们要求的成功率是达到99.99%才会去选用,二是抖动性也是衡量稳定性的重要指标,希望这个通信维持在“嗒嗒嗒”,如果抖动比较大的话有可能是“嗒嗒嗒-嗒”,通过标准差和极差数学方法测量来评价你的数据抖动。

——MTBF。我们对设备监控的平均无故障时间应该跟主设备是一样的,主设备没有故障,监控设备也不应该出现故障。比如UPSMTBF为383400小时,那UPS接口平均故障时间也应该是383400小时,到时候我们会通过压力测试方法来进行压测,通过我们开发测试工具来进行压测,看你是不是能在一个长期范围内都符合我们前面刚才所提到的那些指标。

二、参编单位

白皮书由腾讯、中科发起,我和中国电信的同学都参与了,我们希望招募设备厂家和监控厂家,共同制定数据中心指标标准,未来一起制定标准,设立认证服务,这是共赢的场面。

谢谢大家!

新网箭头云服务器