实现IT故障风险的识别和最小化

作者:Christian Abels 文章来源:MM《现代制造》 点击数:258 发布时间:2019-12-09
对于想要监控IT系统但又没有专业人员的企业来讲,使用监控软件来监控企业的IT系统不失为一种非常聪明的解决办法。监控软件几乎能够自动的监控整个数据中心的外围基础设施。
实现IT故障风险的识别和最小化

当今,越来越多的企业在工作时都依赖可以长期永久使用的IT系统,一旦企业的IT系统出现故障,不仅会给企业带来经济损失而且也失去了用户的信任。2018年,德国企业IT系统故障时间平均为22h,经济损失估计675000欧元,据戴尔全球数据保护指数称,数据丢失导致的总体经济损失大约为100万欧元。这会造成用户与合作伙伴之间的信任丢失。这些数据都充分证明了,永久性和预测性的IT环境监控是多么重要的事情。因此,DCIM数据中心基础架构管理软件工具就是每个企业IT环境监控的重要工具。对于中小型企业来讲,DCIM监控软件就是他们提高IT环境最理想的工具。监控解决方案是持续性的对服务器机柜、供电电源系统和空调系统的工作情况进行检查监控的工具,可以及时的发现问题并在问题的“萌芽阶段”通知技术人员及早采取措施,保证IT系统和周围建筑物的安全。

QQ图片20191209110444.png

IT经理一开始就要考虑如何降低IT监控系统复杂性的问题。除了要注意DCIM(数据中心基础设施管理)系统所有可用功能之外,建议还要关注一下有关能源管理、可用性和安全相关参数等关键指标。对中小型企业来讲,在以ITIL信息技术基础架构库为主导的DCIM性能扩展有点要求过高。因此,整个IT系统监控项目应分为几个子项目逐步展开,一步步的实现不同IT基础设施的DCIM监控管理的全覆盖。

提高IT系统工作安全性的一个重要因素就是对直至服务器的全部供电电源装置进行监控。如果供电电源链条中的任何一个环节出现了故障,则服务器都会断电。因此,像UPS不间断供电电源类似的供电保障设备不仅仅要在意外断电时发挥供电功能,而且还要分别安置在主电路和次级电路中,保障在所有的电路在故障中发挥作用。因此,对UPS不间断供电电源的监控也是非常重要的。另外,还要对IT系统的冷却、热量分布以及散热情况进行监控。没有有效的冷却会导致IT系统的设备过热。

图1 温度监控是保证IT系统正常运行的最低要求,图示监控系统——模块化结构的CMC III型计算机多控装置,能够有效的监控IT系统的工作环境
图1 温度监控是保证IT系统正常运行的最低要求,图示监控系统——模块化结构的CMC III型计算机多控装置,能够有效的监控IT系统的工作环境

更重要的是,仅靠软件是不够的,企业需要一个能够将所有需要IT系统不间断运行的部门和职工都纳入到监控之中。除了企业的IT部门之外,还包含了设备管理部门、重要的建筑安全性设施以及根据行业和可用性要求配备的在线生产人员和销售人员。

如今,企业付出能够承受的资金费用和工作量来实现跨部门的DCIM系统。系统供应商也能够为用户提供通用的、能够集成到用户企业现有系统中的监控系统。配置使用非常灵活的通信技术协议转换器能够将监控数据转发到IT控制中心并且统一地显示在大型的监控屏幕上。

通常情况下,企业的经营理念和责任是随着企业发展而成长起来的。在引进了新的DCIM方案之后,IT部门的领导人要彻底搞清楚现有IT系统的结构。通过负责部门、班组的重建工作,应该更有意义的分配成本费用的布局,或者实现更有实践意义的报警机制,例如把建筑物安全直接纳入到报警链中去。

DCIM解决方案的目的旨在对整个计算中心进行监控,因此其功能范围非常广泛。如果企业只有不多的几个服务器机柜,通常服务器机柜供应商提供的、具有安全保护功能的软件程序就能完成监控、保护任务了。例如Rittal公司提供的Rizone服务器机柜监控软件就含有DCIM模块,可以在小型服务器机柜中快速的安装、使用,必要时也可以对整个基础架构进行监控。

引进DCIM解决方案之前对企业现有的IT基础设施进行仔细核查有助于确定真实的安全监控需求。核查时要解决的关键问题是:哪些IT系统对企业的经营管理是至关重要的?有哪些企业管理任务必须始终在IT系统中完成?是否有始终可用的IT专业技术人员?只有一个IT中心还是有若干个?根据这些和其他的一些问题,技术人员可以初步评估IT系统的安全需求并根据安全需求制定出监控方案。监控系统至少要有温度变化、供电保障、安全通道和安全防火等保护措施。如果在服务器机柜的房间里有水管和暖气管道时,还需要有安装放置潮湿的湿度检测仪。

空调设备、电源保护设备和电力分配设备之间的通信通常都是由管理软件的网络通信协议来实现的。另外,许多传感器,例如湿度传感器、功耗检测仪、服务器机柜门的开关状态传感器和温度传感器等传感器的检测参数也应提供给中央控制室。通过标准化的通信接口,例如通过符合建筑安全保护网络通信协议的Bacnet接口,DCIM监控软件还能与建筑设施管理系统连接起来。这些数据汇总形成的总体描述能够清楚地反应IT系统以及IT附属设备的当前状况。

图2 微型数据中心应根据实际需要建立起合适的IT物理防护系统,即满足F90和IP56的防护要求
图2 微型数据中心应根据实际需要建立起合适的IT物理防护系统,即满足F90和IP56的防护要求

利用DCIM软件还能够优化计算中心的成本费用,提高成本费用的透明度。这一优势在IT系统和建筑设施管理系统同时参与到IT运行环境中时是非常有用的。清楚的特性数据、发展趋势和以消费为主导的成本费用计算有助于IT设备更加经济的工作运行,并实现跨企业生产基地的成本费用计算。

要优化IT系统运营成本,首先必须要准确地确定IT系统的功耗。高效能源管理的基础就是服务器和网络设备所消耗的电量。带有电力测量功能的PDU配电设备能够给出服务器机柜内部电力消耗的详细数据。如果用户使用的服务器机柜数量不多,也可以利用建筑设施管理系统来测定这些数据,例如利用常规电表测量使用的能源数量。

DCIM软件系统的负责人常常不确定DCIM软件工作时是否会对IT系统的运行产生影响。但企业却能从DCIM平台的不间断运行中获益,保证受监控的IT基础架构不会突然停止工作。例如,Rittal公司研发生产的DCIM软件Rizone就是为了保证IT系统正常工作而在Windows服务器上工作的,因此拥有足够的可用资源。

诸如DSGVO通用数据保护法和Basel II协议等法律法规要求企业遵守数据和IT安全的有关规定。这些安全保护要求中就包括了记录何人、何时访问了IT系统。IT系统监控方案也应包含打开服务器机柜门的记录。当IT设备安装在安全技术非常简单的技术室内或者安装在打印机房内时,这一记录就显得尤为重要了。为了保障更高的安全可靠性,机柜柜门、房门的电动把手与读卡器联网,只允许有资质的人员进出、开启房门、柜门,并详细的做好记录。

使用DCIM系统之后,IT技术经理就将计算技术中心变成了一个全自动运行的自动化IT工厂了。过去,IT技术设备的维护保养、配置和监控常常是人工手动完成的。今天,理想的数据中心预计将会在很大程度上实现自主运行了。IT基础设施会根据需要为不同的工作量提供所需的IT资源,并根据谁使用谁付款的原则计算不同工作量所消耗的电力能源。这样,成本费用就会准确的分摊到IT系统运行时的所有使用者那里,而且每一个使用者也都清楚的知道自己应承担的成本费用。另外,DCIM还有助于保护IT基础设施的电力供应和恒温空调,对IT机柜的物理安全性进行监控,并在IT基础设施和IT系统元器件之间架起了一座相互联系的桥梁。它所带来的、很高的自动化程度也为IT技术专家提供了更大的数据中心战略发展的自由度。