美信时代
发布时间:2025-10-31
每秒处理千条数据!某港口集装箱码头用监控易保障24小时作业不中断
导语
港口集装箱码头有着“物流枢纽心脏”之称,服务器、存储以及虚拟化等各类 IT 设备为调度、报关业务提供支撑,温湿度、水浸、配电等动环设备则保障机房处于稳定状态,然而一旦 IT 设备或者动环设备出现问题,就有可能致使集装箱吞吐出现中断情况,某港口集装箱码头曾经由于 IT 与动环分属于两套不同系统,故障响应较为迟缓,直至引入监控易 IT 与动环一体化监控平台之后,才实现了“故障早发现、业务零中断”的目标。
一、项目背景(匿名化)
某港口集装箱码头作为区域内极为关键的物流枢纽,每天所处理的吞吐业务数量超过了1万标准箱,其核心所依赖的方面主要有:
IT设备:包含千台服务器,这些服务器用于支撑调度系统以及报关系统,另外以及存储设备,以及虚拟化环境,其中虚拟化环境涉及VMware以及华为云。
动环设备:包含机房的温湿度变送器、水浸探测器、用于检测漏水情况的检测线以及三相电量仪,三相电量仪主要用于监测配电负荷。
此前运维痛点突出:
1.IT运用“传统监控工具”,而动环采用“独立采集器”,致使数据出现割裂状况,比如说,调度服务器出现卡顿现象时,难以迅速判定究竟是CPU过载,还是机房温度过高所导致的。
2. 设备规模大,人工巡检需2小时/次,故障发现滞后;
3. 码头设置了作业部与运维部,然而权限方面较为混乱,作业部无法看到与业务系统相关联的 IT 状态,运维部也很难及时同步故障所带来的影响。

二、核心需求
1.IT 与动环统一监控:其涉及的范围涉及服务器、操作系统、应用程序、存储设备以及虚拟化等构成的 IT 全栈,同时还包括温度湿度、水浸情况以及配电等动环全量数据。
2. 大规模设备承载:可支持超过1000个监控对象,采集频率可以达到秒级,并且在数据处理时不会出现卡顿现象。
3. 分级管理以及智能告警:依据部门来分配权限,减少无效告警的出现,一旦发生故障便可快速将其推送至责任人处。
4. 专业的落地服务要求进行上门实施调试工作,以此来保证可适配港口存在的高电磁干扰以及潮湿的环境状况。
三、监控易解决方案:一个平台搞定港口“IT+动环”全管控
监控易凭借其高性能的自研数据库以及分布式架构,构建出了一套可适配港口场景的一体化方案。
1. 全栈IT+动环无缝接入
- IT监控模块:
服务器硬件:借助IPMI或者Redfish协议来监测CPU以及内存以及磁盘的健康状况,可支持华为、浪潮等多个品牌。
虚拟化:可实时查看VMware虚拟机启动与停止的状态以及资源占用情况,同时也能查看华为云实例的性能表现。
应用业务:主要涉及监控调度系统的响应时间以及报关系统接口的成功率,当出现异常情况时,系统可自动对受到影响的作业环节进行标记。
- 动环监控模块:
接入了MFM 920E温湿度变送器以及RS-WS-NO1-1A-0水浸变送器,对采集算法加以优化,以适配港口的潮湿环境,防止出现误报情况。
依靠运用RS-SJ-NO1RO1-4漏水检测线对机房地板给予全面覆盖,同时借助ASC1100三相电量仪来监测配电负荷情况,一旦出现超阈值的状况便会马上发出告警信号。
一个平台展示:IT性能与动环状态在同一个界面实现联动,当点击“调度服务器异常”这个选项时,便可以查看与之对应的机房的温湿度以及空调状态。
2. 大规模设备高效管控
运用监控易BigRiver超融合数据库,一台服务器可监控1000个对象,采集轮询频率最快为5秒/次,即便同时处理数量众多达到上万的设备数据,系统也不会出现卡顿现象。
自动发现设备:借助SNMP协议来扫描网络,在10分钟的时间里可完成所有IT设备以及动环设备的接入工作,减少手工配置所需要的工作量。

3. 分级管理与智能告警
权限分级:运维部有全量监控的权限,而作业部只能查看“调度系统 - 关联服务器 - 对应动环”的简化视图,以此来防止出现信息过载的情况。
- 智能告警模块:
告警归并:当同一交换机出现故障致使多台服务器断网时,只会推送1条“核心交换机故障”的告警信息。
分级推送:当出现重大故障时,例如存储离线这种情况,会将相关信息推送给运维总监以及作业经理,而当出现一般告警时,比如温湿度接近阈值这种状况,则会把信息推送给运维专员。
多渠道通知:方式覆盖短信、钉钉以及邮件,可保证码头在24小时内随时有人进行响应。

4. 现场定制化实施
- 监控易实施顾问全程上门服务:针对港口存在的高电磁干扰环境这一情况,对动环设备的接线以及屏蔽措施进行优化。
- 对漏水检测线的灵敏度展开调试工作,以此防止出现因地面水渍而引发误报的情况。
- 培训运维团队使用平台,确保3天内独立上手。
四、产品竞争力:港口场景的“专属适配”
1. 高性能优势:自研数据库有卓越性能,相比传统Oracle速度快达3倍之多,可支持超大规模设备在极短时间内实现秒级采集,完全契合港口那种设备密集且数据量庞大的实际需求。
2. 环境适配性:动环采集算法是针对潮湿以及高电磁干扰环境进行优化的,经过优化后漏水检测线的误报率降低到了0.1%,这一误报率远远超过了行业的平均水平。
3. 业务联动性:首次达成了“作业业务、IT设备以及动环环境”这三者之间的关联,作业部可直观地知晓“调度系统运行缓慢”究竟是由IT方面的问题所导致,还是动环方面的问题所引发,降低了部门之间的沟通成本。

五、项目价值与客户反馈
- 业务连续性:故障响应时间原本是30分钟,如今缩短到了5分钟,在此期间,没有出现任何一起因为IT或者动环问题而致使作业中断的情况,吞吐效率也有所提高,提升幅度为15%。
- 运维成本:人工巡检的工作量下降了50%,报表自动生成取代了手工统计,每年节约的运维成本超过10万元。
- 客户评价:监控易有出色的管理能力,它可对服务器以及存储设备进行有效的管理,还可将水浸情况、电量状况等一系列环境问题纳入监控范畴,借助分级管理的方式,使得各个部门可明确自身职责,各自履行相应的职能,这种管理模式与港口24小时不间断作业的需求高度契合,可很好地契合港口在这方面的实际需求。