自学内容网 自学内容网

AIOps实战 | 未来IT运维应急响应新模式:AI+人类的共同协作

【本文原作者:擎创科技资深专家 布博士】

记得前几年AIOps概念越来越火的时候,曾经有人很担心地问:如果真的都能实现AI故障自愈,会不会影响运维人员的重要性,使之失去工作?

而在我们的客户实战中,感觉AI+人类的协作,更能发挥智能运维的效应,大大提高运维效率。

运维故障实录

时间:2024年9月5日 14:00  
地点:应急作战室

参与人员:
网络工程师 :
负责网络问题排查及带宽控制
数据库管理员:负责数据库锁表及同步延迟处理
应用管理员:负责应用服务性能问题处理
安全分析师:负责流量分析及安全告警处理
应急指挥官:协调整体应急恢复
AI运维机器人:负责自动化监控、分析和初步故障应对

应急响应过程:

14:00 - 核心告警:网络丢包问题

AI运维机器人 R:  
"告警已收到,核心路由器端口丢包率为65%,超过阈值50%。可能原因:带宽饱和或突发流量。我将立即分析流量数据并建议流量限制方案。"

应急指挥官 E:  
"很好,AI R,进行流量源分析并给出初步建议。"

AI运维机器人 R:  
"分析结果:突发流量来自外部IP地址群 [X.X.X.X] 和 [Y.Y.Y.Y]。建议限制外部流量峰值至70%,优先保证内部服务带宽。"

网络工程师 A:  
"我将按照建议立即限制外部流量,确保内部核心业务的带宽。"

14:02 - 相关告警:网络带宽告警

AI运维机器人 R:  
"外网流量使用率达到95%,带宽即将饱和。我建议立即启用流量分流策略,减少外部访问的带宽占用。"

应急指挥官 E:  
"网络工程师 A,执行AI R的分流建议。"

网络工程师 A:  
"收到,正在执行。"

14:03 - 相关告警:数据库同步延迟

AI运维机器人 R:  
"数据库主从同步延迟为1.2秒,原因:网络不稳定导致同步阻塞。我建议对主数据库的同步任务进行暂时延迟处理,以避免锁表现象进一步恶化。"

数据库管理员 B:  
"好的,我将调整同步策略,等网络稳定后再恢复同步进程。"

14:05 - 连锁告警:应用性能问题

AI运维机器人 R:  
"生产环境应用服务超时,超过20%的请求响应时间超过2秒。初步判断是由于数据库延迟和网络问题。建议限制应用的重试操作并减少连接池请求。"

应用管理员 C:  
"明白,我将减少重试操作频率,控制连接池的使用。"

14:06 - 次级告警:数据库锁表问题

AI运维机器人 R:  
"数据库出现锁表现象,持续时间过长。建议暂时冻结长时间查询,并通过索引优化提升查询效率。"

数据库管理员 B:  
"收到,我将处理长时间查询,并优化索引。"

14:07 - 次级告警:服务器资源告警

AI运维机器人 R:  
"服务器CPU使用率95%,内存使用率90%。建议调整应用服务的优先级,暂停非核心任务,以释放资源。"

应用管理员 C:  
"我将按照建议,暂停非关键服务,并监控服务器资源使用情况。"

14:08 - 次级告警:安全流量告警

AI运维机器人 R:  
"检测到外部来源IP地址 [X.X.X.X] 短时间内发起大量请求,初步判断为合法流量激增,可能是正常用户访问量增加。我将持续监控流量以排除异常行为。"

安全分析师 D:  
"我会进一步确认流量情况,确保没有安全威胁。"

14:12 - 恢复告警:网络丢包恢复

AI运维机器人 R:  
"网络丢包率已恢复至1.5%,带宽使用率下降至70%,流量源已限制。建议继续观察外部流量并逐步恢复带宽策略。"

网络工程师 A:  
"明白,网络问题已基本恢复,我将继续监控。"

14:15 - 恢复告警:数据库同步恢复

AI运维机器人 R:  
"主从数据库同步延迟恢复至100ms,锁表问题已经解决。建议恢复正常的同步任务,继续优化数据库查询性能。"

数据库管理员 B:  
"同步恢复正常,锁表问题解除。我将按计划优化查询。"

14:18 - 恢复告警:应用服务恢复

AI运维机器人 R:  
"应用服务响应时间恢复至1.5秒,服务器资源使用恢复正常。建议恢复全量服务并继续监控应用性能。"

应用管理员 C:  
"应用服务恢复正常,连接池饱和问题也已解除,我会继续监控性能。"

14:20 - 恢复告警:安全访问恢复

AI运维机器人 R:  
"外部访问流量恢复正常,确认来源IP为合法用户,无恶意攻击行为。"

安全分析师 D:  
"确认流量安全无虞,安全告警解除。"

应急过程总结:

应急指挥官 E:  
"此次应急作战在AI运维机器人的帮助下,极大加快了数据分析和应对流程。AI R在流量控制、数据库同步调整、应用性能监控等方面提供了关键支持,所有告警现已恢复。感谢大家的配合,继续保持监控,确保系统完全恢复稳定。AI R请持续监控。"

AI运维机器人 R:  
"系统已恢复正常,正在持续监控。"

总结:人工智能时代IT运维应急响应转变分析

AI机器人职能:

    实时监控与分析:AI可以快速分析大量的告警数据,给出精确的应对方案,减少人为分析的时间。将最新的故障情况实时同步到应急作战室中,减少人为通知的时间。

    辅助问答:AI可以快速总结分析进展及过程,当领导关注当前故障处置状况时,可以实时进行总结应答。

    故障预判与建议:基于历史故障数据和模型自身知识数据,AI能够给出有效的预判和应对建议,减少了应急团队的分析负担。

    自动化响应:可以对某些场景下的告警自动执行操作,如调整带宽、暂停非关键服务、自动化登录主机搜寻故障时段日志并分析日志等。

人类职能:    

    决策与指挥:人类仍然在应急作战中扮演决策者的角色,基于AI的建议快速做出判断。

    复杂问题的处理:AI对某些复杂场景(如数据库锁表、应用性能调优等)的建议依赖于人类的执行与优化。

    协同与确认:在安全问题和特殊情况处理上,人类的判断力和经验仍然不可替代,需要根据AI的分析作出最终确认。

图片


原文地址:https://blog.csdn.net/dazuibar/article/details/143886567

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!