自学内容网 自学内容网

服务案例|服务器批量重启

告警产生

4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。

故障分析定位

1、通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判断是X86设备esxi53发生故障,导致esxi53上的虚拟服务器进行迁移重启。

告警提示

查打开esxi53设备详情,查看磁盘运行信息,显示2块磁盘运行正常。

基本可以排除磁盘故障。

磁盘运行正常

2、在9:20左右,服务器再次发生批量重启现象,在批量重启信息中,有“内网ESXi54 主机硬件-x86-温度状态异常告警

温度异常告警

查看ESXi54硬件故障告警详情,可以看到内存,PCH和PCLe同时温度状态异常告警,推测ESXi54硬件故障,导致esxi54上的虚拟服务器进行迁移重启.

大胆假设,谨慎求证。

于是LinkSLA二级工程师,登录客户主机管理,发现esxi53、esxi54两台主机的虚拟机服务器重启时和平台监控到的内存PCH和PCLe同步存在温度异常告警。

pch、pcle温度异常

因此,可以初步判断,当esxi53、esxi54两台主机在内存状态异常时,内存发现异常。因此出现虚拟机批量迁移到其它主机的现象。

三、后续处理措施和建议

故障修复,建议跟换内存条。通过后续系统检测,此类故障再也没有发生,问题得到解决。

系统的健康稳定,需要时时掌握系统的运行状态,根据AI趋势性算法,做好提前预防,将问题扼杀在摇篮中。

LinkSLA智能运维管家,提供一站式运维服务


原文地址:https://blog.csdn.net/LinkSLA/article/details/138210327

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!