电话:400-650-6396  15652658866

  当前位置:   首页 > 资源中心 > 国产信创 > 服务器死机了,监控却没告警——一次数据中心故障的复盘

服务器死机了,监控却没告警——一次数据中心故障的复盘

  作者:监控易        来源:美信时代 发布时间:2026-04-29


这是我在某金融机构数据中心项目中亲身参与的一次故障复盘。该数据中心有一套标准的带内监控:每台服务器安装Agent,采集CPU、内存、磁盘、网络指标。这套系统已经运行了较长时间。直到某个周末的凌晨。

 

凌晨2:15,核心系统交易开始出现超时。但监控平台上一片安静——所有Agent都显示“正常”,CPU曲线平滑,内存占用合理,没有任何告警。一个多小时后,业务监控系统发出告警,运维人员才意识到问题。他们开始排查。登录服务器,发现其中一台数据库服务器的SSH连接不上;Ping能通,但服务端口没有响应。检查防火墙策略,未发现异常。

 

凌晨3:30,运维人员进入机房查看。打开机柜,看到那台服务器电源灯亮着,但前面状态灯显示“系统故障”。连接显示器,屏幕上显示操作系统崩溃的错误信息——系统已经崩溃了一段时间。从故障可能发生的时间到确认原因,过去了一个半小时。这期间业务持续受到影响。

1.png

一、问题出在哪里

 

复盘时,我们发现了带内监控的一个局限:Agent运行在操作系统里,操作系统一旦崩溃,Agent也随之停止工作,无法上报数据。监控平台只看到“最后一次上报正常”,然后长时间没有新数据——但系统不会因此自动判定设备故障。同时,这台服务器的操作系统虽然崩溃了,网卡和IP协议栈可能还在工作,所以Ping测试仍然能通。监控平台基于“Ping通”判断设备在线,没有触发离线告警。

 

如果当时有带外监控,通过BMC(基板管理控制器)就能看到“操作系统无响应”的信息,甚至可以远程查看控制台画面——但当时的监控方案中没有包含IPMI能力。结果就是:服务器实际上已经无法正常工作,但监控系统认为它仍在运行。直到业务层面的指标出现下降,才被动发现问题。

2.png

 

二、后续引入的带外监控机制

事故发生后,该数据中心为所有核心服务器配置了IPMI带外监控,并纳入统一管理平台。主要改进包括:

 

独立于操作系统的存活检测:BMC独立运行,即使操作系统崩溃,BMC仍可上报“硬件在线但OS无响应”的状态,及时触发告警。远程查看控制台输出:通过SOL(串行重定向)远程查看服务器控制台信息——是操作系统崩溃、蓝屏还是启动卡住?不用派人进机房即可初步判断。

 

远程电源操作:对于操作系统死锁或内核崩溃,通过IPMI执行远程硬重启,恢复时间从“派人到现场”的小时级缩短到分钟级。硬件健康信息辅助判断:服务器失联时,通过带外信息快速判断是硬件问题还是软件问题。如果温度、风扇、电源都正常,大概率是操作系统层面问题,可尝试远程重启;如果电源异常或温度过高,则需要现场更换备件。

3.png

三、带外监控的效果

 几个月后,另一台应用服务器再次发生操作系统死锁。凌晨1:30,带外监控检测到“操作系统状态异常”,同时Agent停止上报。系统综合判断后触发了明确告警。值班工程师打开平台查看带外信息:硬件状态正常,无硬件错误记录,远程控制台显示操作系统崩溃。

 

判断为操作系统内核崩溃,通过IPMI远程执行硬重启。数分钟后服务器恢复,业务未受明显影响。从故障发生到恢复,时间远短于上次事故,业务部门没有感知。

 

四、小结

服务器出现操作系统级问题而监控未能及时发现——这类情况的根源有时在于监控体系只有“带内”没有“带外”。带内监控依赖操作系统,而操作系统恰是故障对象本身。带外监控通过独立的BMC通道,可以在服务器最脆弱的时候仍然保持观测能力。对于核心业务系统,带外监控是一项值得考虑的基础能力。

—— Dino

监控易解决方案总监


上一篇: 一个设备属于多个组?揭秘监控易的灵活资源分组

下一篇: 上千路摄像头,在线≠可用——智慧园区视频质量诊断实践

监控易期待与各企业展开广泛合作!

电话:400-650-6396

手机:15652658866

QQ:3592185434

邮箱:contact@jiankongyi.com

在线客服系统