作者:监控易 来源:美信时代
发布时间:2026-06-22

一、从设备视角到业务视角
国内某著名的三甲医院,信息科曾遇到过这样一件事:门诊挂号系统响应缓慢,医生和患者纷纷抱怨。工程师排查了服务器CPU、内存、磁盘、网络,所有指标都在正常范围内。检查了数据库连接数、锁等待,也没有异常。折腾了近一小时,最后发现是核心交换机的某个端口流量突增,导致带宽拥塞,但这个端口连接的不是挂号系统的服务器,而是另一套非核心业务系统。
问题在于:监控系统只看设备,不看业务。工程师知道每台设备的状态,却不知道“挂号系统”这条业务链路上包含了哪些设备、哪些环节可能出问题。如果能从业务的视角来监控,把挂号系统涉及的Web服务器、应用服务器、数据库、网络链路作为一个整体来观察,问题就会清晰很多。
监控易的业务监控功能,正是为了解决这个问题而设计的。GB/T 28827.3-2024《信息技术服务 运行维护 第3部分:应急响应规范》同样强调,运维体系应从资源视角转向服务视角,业务监控是衔接IT运维与业务连续性保障的关键环节。
二、业务监控的核心概念
监控易业务监控模块包含三个核心指标:
· 健康度:综合反映业务系统的运行状况,根据关联设备/监测点的状态综合计算(权重可配置)
· 可用性:反映业务系统的连通性和可访问性,按时间计算:正常时长 / 总时长 × 100%
· 繁忙度:反映业务系统的负载压力,根据监测点实际值与基线值的比值计算,取最高值
这三个指标用红、黄、绿三色标识,一目了然。管理者不需要知道底层细节,只需要看颜色就知道业务运行状况。

三、业务拓扑构建步骤
第一步:创建业务
在监控易中,选择“业务管理” → “业务列表”,点击“新增业务”。输入业务名称(如“门诊挂号系统”),选择影响级别(关键/重要/普通)。
第二步:添加业务集群(可选)
对于复杂的业务系统,可以创建业务集群。例如“核心诊疗业务”集群下包含HIS、PACS、LIS三个子业务。集群支持设置状态阈值(如“任意设备故障则集群状态为故障”)。
第三步:关联底层资源
从资源列表中选择支撑该业务的所有IT组件:
· Web服务器
· 应用服务器
· 数据库服务器
· 核心交换机
· 专线(连接分院的核心链路)
第四步:配置指标权重
不同资源对业务的重要程度不同。在业务编辑页面,可以为每个关联的监测点设置“关键”“重要”“普通”三个级别。系统会根据级别权重计算综合健康度。例如:
· 数据库服务器故障 → 业务不可用(权重最高)
· 某台Web服务器故障 → 性能下降(权重中等)
第五步:设置繁忙度模板
选择或创建繁忙度模板,定义哪些监测指标影响业务的繁忙度(如CPU使用率、数据库连接数、交易响应时间)。系统会将这些指标的实际值与模板中设置的基线值对比,计算比值,取所有指标中的最高值作为业务的繁忙度。例如,CPU使用率实际80%、基线40%,则繁忙度为200%。
第六步:保存并验证
保存后,可在“业务列表”中查看业务的健康度、可用性、繁忙度。可模拟某台设备故障,观察业务健康度的变化是否符合预期。
四、业务拓扑的展示形式
监控易提供三种业务分析展示形式:
1. 业务树:以树状结构自动展示业务、业务集群、设备的关联关系。双击设备可钻取监测指标详情。
2. 业务列表:以列表形式展示所有业务的名称、状态、健康度、可用性、繁忙度、告警数。支持排序和筛选。
3. 业务拓扑:可通过拓扑图直观展现构成业务的设备及组件的逻辑关系,用于故障追踪和定位。支持手动绘制设备间的连接线。

五、业务健康度的实战价值
价值一:快速定位故障影响范围
当某台数据库服务器告警时,运维人员打开业务拓扑图,可以看到该服务器属于哪些业务。如果是核心业务,立即优先处理;如果是边缘业务,可以酌情延后。避免“所有告警同等对待”的低效。
价值二:向管理层汇报更有说服力
以前向院领导汇报,说的是“HIS系统数据库CPU使用率85%”,领导听不懂。现在汇报“HIS系统健康度98%,处于良好状态;本月可用性99.95%,达到目标”,领导一听就明白。业务视角让运维的价值被看见。
价值三:跨部门协同更顺畅
业务部门问“我们的系统怎么样”,运维人员可以直接展示该业务的健康度大屏,而不是解释一堆技术指标。业务部门也可以自己打开监控易的业务视图,随时查看自己关心的系统状态,减少“系统是不是又慢了”的咨询工单。
价值四:辅助故障优先级判断
当多个告警同时发生时,业务监控视图可以帮助运维人员判断:哪个告警影响的业务更多、影响面更大?优先处理影响核心业务的告警,而不是“谁先报警先处理谁”。
六、业务监控的配置注意事项
· 不是所有设备都需要关联到业务:核心业务优先配置,边缘业务可以后置。业务监控的目的是“抓重点”,不是“全覆盖”。
· 权重设置需要结合实际:不同业务对资源的依赖不同,建议上线后观察一段时间,根据实际情况调整权重。
· 业务拓扑需要持续维护:当业务架构发生变化(如新增服务器、迁移数据库)时,要及时更新业务关联关系,否则健康度计算会失真。
· 繁忙度基线需要校准:系统默认基线可能不准确,建议运行数周后根据实际数据调整繁忙度模板的基线值。
七、客户实践:某三甲医院的业务监控应用
该三甲医院信息科利用监控易的业务监控功能,搭建了“核心业务驾驶舱”。他们定义了HIS、PACS、LIS、EMR、OA等多个业务对象,每个业务关联了对应的服务器、数据库、网络设备。
一次例行检查中,值班工程师发现PACS系统的健康度从100%降到了95%。点开业务拓扑图,看到是某台影像存储服务器的磁盘使用率超过了85%,触发了黄色预警。该服务器属于“影像归档”子业务,虽然不影响实时调图,但长期不处理可能导致归档失败。工程师提前安排了磁盘扩容,避免了一次潜在的业务影响。
同时,该医院对核心业务系统的可用性设置SLA目标,通过业务拓扑定期生成可用性报表。信息科负责人评价:“以前我们是被动响应,业务部门投诉了才知道问题。现在业务健康度大屏实时展示,我们比业务部门更早发现问题,从‘救火队’变成了‘预警员’。”

八、结语
从设备监控到业务监控,是运维成熟度提升的重要标志。监控易智能一体化运维平台的业务监控功能,让运维人员不再只盯着CPU、内存这些技术指标,而是从业务的视角审视IT系统的运行状况。当你能用“健康度”“可用性”这些业务语言和管理层对话,当你能提前发现潜在风险而不是等用户投诉,运维的价值就不再是“保障不出事”,而是“赋能业务发展”。GB/T 43208.1-2023将业务服务建模作为智能运维的基础能力,正是对这一趋势的权威印证。
问答环节
Q1:业务健康度是如何计算的?可以自定义权重吗?
A:业务健康度基于关联设备/监测点的状态综合计算。用户在添加业务时,可以为每个监测点设置“关键”“重要”“普通”三个级别。系统按照“关键”权重最高、“普通”权重最低的原则,计算综合健康度。当某个监测点达到故障阈值时,会根据其级别影响健康度的下降幅度。
Q2:业务繁忙度反映的是什么?如何配置?
A:繁忙度反映业务系统的负载压力。用户需要先创建“繁忙度模板”,选择影响繁忙度的监测指标(如CPU使用率、数据库连接数、交易响应时间)。系统会将这些指标的实际值与模板中设置的基线值对比,计算比值,取所有指标中的最高值作为业务的繁忙度。例如,CPU使用率实际80%、基线40%,则繁忙度为200%。
Q3:业务拓扑可以自动发现设备间的依赖关系吗?
A:监控易支持通过网络拓扑自动发现设备间的物理连接关系,但业务层面的依赖关系(如“挂号业务依赖HIS数据库”)需要用户手动配置。这是因为业务依赖关系涉及业务逻辑,无法通过技术手段完全自动发现。用户可以在业务拓扑视图中手动添加设备间的连接线。
#业务监控 #业务视角 #健康度 #可用性 #监控易智能一体化运维平台
内容责任声明
来源:监控易技术团队原创
作者:技术部 刘美玲
编辑:市场部 扬扬
初审:技术部 刘美玲
数据核实:技术部 刘美玲
终审:解决方案部 Dino
本文内容基于公开信创政策及实际项目经验编写,数据来源可追溯。未经授权不得转载。
上一篇: 【告警管理】基于拓扑的告警依赖配置与收敛
下一篇: 【可视化】自定义仪表盘与监控大屏配置指南