AIOps实战 | 未来IT运维应急响应新模式:AI+人类的共同协作
【本文原作者:擎创科技资深专家 布博士】
记得前几年AIOps概念越来越火的时候,曾经有人很担心地问:如果真的都能实现AI故障自愈,会不会影响运维人员的重要性,使之失去工作?
而在我们的客户实战中,感觉AI+人类的协作,更能发挥智能运维的效应,大大提高运维效率。
运维故障实录
时间:2024年9月5日 14:00
地点:应急作战室
参与人员:
网络工程师 :负责网络问题排查及带宽控制
数据库管理员:负责数据库锁表及同步延迟处理
应用管理员:负责应用服务性能问题处理
安全分析师:负责流量分析及安全告警处理
应急指挥官:协调整体应急恢复
AI运维机器人:负责自动化监控、分析和初步故障应对
应急响应过程:
14:00 - 核心告警:网络丢包问题
AI运维机器人 R:
"告警已收到,核心路由器端口丢包率为65%,超过阈值50%。可能原因:带宽饱和或突发流量。我将立即分析流量数据并建议流量限制方案。"
应急指挥官 E:
"很好,AI R,进行流量源分析并给出初步建议。"
AI运维机器人 R:
"分析结果:突发流量来自外部IP地址群 [X.X.X.X] 和 [Y.Y.Y.Y]。建议限制外部流量峰值至70%,优先保证内部服务带宽。"
网络工程师 A:
"我将按照建议立即限制外部流量,确保内部核心业务的带宽。"
14:02 - 相关告警:网络带宽告警
AI运维机器人 R:
"外网流量使用率达到95%,带宽即将饱和。我建议立即启用流量分流策略,减少外部访问的带宽占用。"
应急指挥官 E:
"网络工程师 A,执行AI R的分流建议。"
网络工程师 A:
"收到,正在执行。"
14:03 - 相关告警:数据库同步延迟
AI运维机器人 R:
"数据库主从同步延迟为1.2秒,原因:网络不稳定导致同步阻塞。我建议对主数据库的同步任务进行暂时延迟处理,以避免锁表现象进一步恶化。"
数据库管理员 B:
"好的,我将调整同步策略,等网络稳定后再恢复同步进程。"
14:05 - 连锁告警:应用性能问题
AI运维机器人 R:
"生产环境应用服务超时,超过20%的请求响应时间超过2秒。初步判断是由于数据库延迟和网络问题。建议限制应用的重试操作并减少连接池请求。"
应用管理员 C:
"明白,我将减少重试操作频率,控制连接池的使用。"
14:06 - 次级告警:数据库锁表问题
AI运维机器人 R:
"数据库出现锁表现象,持续时间过长。建议暂时冻结长时间查询,并通过索引优化提升查询效率。"
数据库管理员 B:
"收到,我将处理长时间查询,并优化索引。"
14:07 - 次级告警:服务器资源告警
AI运维机器人 R:
"服务器CPU使用率95%,内存使用率90%。建议调整应用服务的优先级,暂停非核心任务,以释放资源。"
应用管理员 C:
"我将按照建议,暂停非关键服务,并监控服务器资源使用情况。"
14:08 - 次级告警:安全流量告警
AI运维机器人 R:
"检测到外部来源IP地址 [X.X.X.X] 短时间内发起大量请求,初步判断为合法流量激增,可能是正常用户访问量增加。我将持续监控流量以排除异常行为。"
安全分析师 D:
"我会进一步确认流量情况,确保没有安全威胁。"
14:12 - 恢复告警:网络丢包恢复
AI运维机器人 R:
"网络丢包率已恢复至1.5%,带宽使用率下降至70%,流量源已限制。建议继续观察外部流量并逐步恢复带宽策略。"
网络工程师 A:
"明白,网络问题已基本恢复,我将继续监控。"
14:15 - 恢复告警:数据库同步恢复
AI运维机器人 R:
"主从数据库同步延迟恢复至100ms,锁表问题已经解决。建议恢复正常的同步任务,继续优化数据库查询性能。"
数据库管理员 B:
"同步恢复正常,锁表问题解除。我将按计划优化查询。"
14:18 - 恢复告警:应用服务恢复
AI运维机器人 R:
"应用服务响应时间恢复至1.5秒,服务器资源使用恢复正常。建议恢复全量服务并继续监控应用性能。"
应用管理员 C:
"应用服务恢复正常,连接池饱和问题也已解除,我会继续监控性能。"
14:20 - 恢复告警:安全访问恢复
AI运维机器人 R:
"外部访问流量恢复正常,确认来源IP为合法用户,无恶意攻击行为。"
安全分析师 D:
"确认流量安全无虞,安全告警解除。"
应急过程总结:
应急指挥官 E:
"此次应急作战在AI运维机器人的帮助下,极大加快了数据分析和应对流程。AI R在流量控制、数据库同步调整、应用性能监控等方面提供了关键支持,所有告警现已恢复。感谢大家的配合,继续保持监控,确保系统完全恢复稳定。AI R请持续监控。"
AI运维机器人 R:
"系统已恢复正常,正在持续监控。"
总结:人工智能时代IT运维应急响应转变分析
AI机器人职能:
实时监控与分析:AI可以快速分析大量的告警数据,给出精确的应对方案,减少人为分析的时间。将最新的故障情况实时同步到应急作战室中,减少人为通知的时间。
辅助问答:AI可以快速总结分析进展及过程,当领导关注当前故障处置状况时,可以实时进行总结应答。
故障预判与建议:基于历史故障数据和模型自身知识数据,AI能够给出有效的预判和应对建议,减少了应急团队的分析负担。
自动化响应:可以对某些场景下的告警自动执行操作,如调整带宽、暂停非关键服务、自动化登录主机搜寻故障时段日志并分析日志等。
人类职能:
决策与指挥:人类仍然在应急作战中扮演决策者的角色,基于AI的建议快速做出判断。
复杂问题的处理:AI对某些复杂场景(如数据库锁表、应用性能调优等)的建议依赖于人类的执行与优化。
协同与确认:在安全问题和特殊情况处理上,人类的判断力和经验仍然不可替代,需要根据AI的分析作出最终确认。
原文地址:https://blog.csdn.net/dazuibar/article/details/143886567
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!