超大规模IT设备监控性能挑战如何破?

       IT部门都曾经历这样的一个变化——当服务器、网络、设备等出现问题时,他们必须尽快做出反应,找出原因,定位故障,而问题出在哪里通常很难快速判断。频繁的宕机和故障往往会带来很大的破坏和损失。而监控运维管理软件的出现,让IT部门人员告别了如此忙乱的场景。

       当自动化、智能化的监控运维软件替代传统以人工为主的监控、反馈、处理和管理模式以后,实现了自动采集、监控和诊断。可以告知工作人员路由器是否关闭?服务器是否以不寻常的利用率运行?网络环境是否正常?哪台设备出现问题?监控运维软件为管理者提供了实时了解基础设施及物联网设备状态所需的数据,掌握网络的进展情况,运维效率也大大提高了。一个优秀的监控运维软件可以对企业的IT系统进行主动分析,同时可关注这些设备的健康状况和性能,确保IT服务 7x24小时全天候稳定运行,并在出现任何问题时告警给IT支持人员。

       而伴随着云技术和物联网时代的来临,各行业都加快了数字信息化的步伐。“智慧城市”、“数字中国”、“新基建”等政策的快速落地,IT基础设施呈现规模化升级,网络环境越来越复杂,设备量爆发式增长,服务器数量可达千万级。与此同时物联网设备较之前也是几十倍、上百倍的增长。各种传感器、采集设备、智能设备,品牌繁多,型号多样。设备量上来了,但监控软件的性能却跟不上了,开始出现各种各样的问题。

       市场上的监控运维软件,更多的是几百台设备量以内的监控范围,几分钟一个频次的轮询,对性能的要求不是特别高。而现在需要实际监控的设备数量由原来的几百台,已经增长到几万台甚至几十万台。那么原来为几百台设备而设定的监控软件已经远远不能满足这个时代的要求了。这就犹如以前一辆拖拉机就可以承载一吨的货物,但现在需要承载一千吨的货物,那个拖拉机完全就压垮了,更别提运行了。监控软件性能同样有如此大的差距。现在市面上的软件基本上是单台监控服务器能够监控到三百台设备,每个设备大概有十个监测点,就相当于是三千个监测点范围,如果超过这个范围,监控软件本身就会不稳定。即使增加服务器或内存数量,也无法提高监控系统的性能。

        美信科技旗下“监控易”一体化集中监控平台采用自己先进的调度技术可以把监测点的颗粒度精确到秒级,最快轮询频率为5秒一次,监测点数量能够到达十万+以上,以保证监测数据的实时性和精确性,做到当客户关键设备出现异常时能在第一时间里发现问题,发出报警,为客户解决问题赢得宝贵的时间。而市面上大多监控软件,监测点数量只能达到监控易1/10水平,监测频率在长时间运行以后最多可达到分钟级,一般是两分钟到五分钟。从整体上看,监控易整体性能较市面上的普通监控软件的百倍以上。

点击查看大图
 
       美信监控易之所以可以达到如此超高性能是因为依托于独立自主研发高性能的数据库。

       海量监控,轮询采集的瓶颈在于数据库写入。采用市场上通用的结构化数据库(如Oracle、SQL Sever、MYSQL)的网管软件,这些数据库是针对通用商务需求设计,为保证数据唯一性、一致性等,写入效率会有所降低。而监控轮询是每个轮询周期都要写入所有设备的监控指标数据,是频率、大数据量的写入,因此对数据库有特殊要求,即对高写入要求很高。美信监控易使用自主研发的非结构化(NoSQL)数据库,该数据库专门针对网管轮询高频写入需求而设计,轮询频率可以从分钟级缩短到秒级,最快轮询频率可达5秒。用户可以自定义不同监测点的轮询频率。监控易目前能达到的效果是记录行数达到百亿级,响应时间都是秒级。所以说这是监控易性能遥遥领先的非常关键的组件。

        经过十几年的发展,美信监控易以“超高性能”优势获得政府、国防军工、金融、医疗、科技、教育、能源等领域的广泛应用和高度评价。