AIOps实战 | 未来IT运维应急响应新模式：AI+人类的共同协作

🕗 发布于 2024-11-22 17:31 运维 ai AIOps 数智运维

【本文原作者：擎创科技资深专家布博士】

记得前几年AIOps概念越来越火的时候，曾经有人很担心地问：如果真的都能实现AI故障自愈，会不会影响运维人员的重要性，使之失去工作？

而在我们的客户实战中，感觉AI+人类的协作，更能发挥智能运维的效应，大大提高运维效率。

运维故障实录

时间：2024年9月5日 14:00
地点：应急作战室

参与人员：
网络工程师：负责网络问题排查及带宽控制
数据库管理员：负责数据库锁表及同步延迟处理
应用管理员：负责应用服务性能问题处理
安全分析师：负责流量分析及安全告警处理
应急指挥官：协调整体应急恢复
AI运维机器人：负责自动化监控、分析和初步故障应对

应急响应过程：

14:00 - 核心告警：网络丢包问题

AI运维机器人 R：
"告警已收到，核心路由器端口丢包率为65%，超过阈值50%。可能原因：带宽饱和或突发流量。我将立即分析流量数据并建议流量限制方案。"

应急指挥官 E：
"很好，AI R，进行流量源分析并给出初步建议。"

AI运维机器人 R：
"分析结果：突发流量来自外部IP地址群 [X.X.X.X] 和 [Y.Y.Y.Y]。建议限制外部流量峰值至70%，优先保证内部服务带宽。"

网络工程师 A：
"我将按照建议立即限制外部流量，确保内部核心业务的带宽。"

14:02 - 相关告警：网络带宽告警

AI运维机器人 R：
"外网流量使用率达到95%，带宽即将饱和。我建议立即启用流量分流策略，减少外部访问的带宽占用。"

应急指挥官 E：
"网络工程师 A，执行AI R的分流建议。"

网络工程师 A：
"收到，正在执行。"

14:03 - 相关告警：数据库同步延迟

AI运维机器人 R：
"数据库主从同步延迟为1.2秒，原因：网络不稳定导致同步阻塞。我建议对主数据库的同步任务进行暂时延迟处理，以避免锁表现象进一步恶化。"

数据库管理员 B：
"好的，我将调整同步策略，等网络稳定后再恢复同步进程。"

14:05 - 连锁告警：应用性能问题

AI运维机器人 R：
"生产环境应用服务超时，超过20%的请求响应时间超过2秒。初步判断是由于数据库延迟和网络问题。建议限制应用的重试操作并减少连接池请求。"

应用管理员 C：
"明白，我将减少重试操作频率，控制连接池的使用。"

14:06 - 次级告警：数据库锁表问题

AI运维机器人 R：
"数据库出现锁表现象，持续时间过长。建议暂时冻结长时间查询，并通过索引优化提升查询效率。"

数据库管理员 B：
"收到，我将处理长时间查询，并优化索引。"

14:07 - 次级告警：服务器资源告警

AI运维机器人 R：
"服务器CPU使用率95%，内存使用率90%。建议调整应用服务的优先级，暂停非核心任务，以释放资源。"

应用管理员 C：
"我将按照建议，暂停非关键服务，并监控服务器资源使用情况。"

14:08 - 次级告警：安全流量告警

AI运维机器人 R：
"检测到外部来源IP地址 [X.X.X.X] 短时间内发起大量请求，初步判断为合法流量激增，可能是正常用户访问量增加。我将持续监控流量以排除异常行为。"

安全分析师 D：
"我会进一步确认流量情况，确保没有安全威胁。"

14:12 - 恢复告警：网络丢包恢复

AI运维机器人 R：
"网络丢包率已恢复至1.5%，带宽使用率下降至70%，流量源已限制。建议继续观察外部流量并逐步恢复带宽策略。"

网络工程师 A：
"明白，网络问题已基本恢复，我将继续监控。"

14:15 - 恢复告警：数据库同步恢复

AI运维机器人 R：
"主从数据库同步延迟恢复至100ms，锁表问题已经解决。建议恢复正常的同步任务，继续优化数据库查询性能。"

数据库管理员 B：
"同步恢复正常，锁表问题解除。我将按计划优化查询。"

14:18 - 恢复告警：应用服务恢复

AI运维机器人 R：
"应用服务响应时间恢复至1.5秒，服务器资源使用恢复正常。建议恢复全量服务并继续监控应用性能。"

应用管理员 C：
"应用服务恢复正常，连接池饱和问题也已解除，我会继续监控性能。"

14:20 - 恢复告警：安全访问恢复

AI运维机器人 R：
"外部访问流量恢复正常，确认来源IP为合法用户，无恶意攻击行为。"

安全分析师 D：
"确认流量安全无虞，安全告警解除。"

应急过程总结：

应急指挥官 E：
"此次应急作战在AI运维机器人的帮助下，极大加快了数据分析和应对流程。AI R在流量控制、数据库同步调整、应用性能监控等方面提供了关键支持，所有告警现已恢复。感谢大家的配合，继续保持监控，确保系统完全恢复稳定。AI R请持续监控。"

AI运维机器人 R：
"系统已恢复正常，正在持续监控。"

总结：人工智能时代IT运维应急响应转变分析

AI机器人职能：

实时监控与分析：AI可以快速分析大量的告警数据，给出精确的应对方案，减少人为分析的时间。将最新的故障情况实时同步到应急作战室中，减少人为通知的时间。

辅助问答：AI可以快速总结分析进展及过程，当领导关注当前故障处置状况时，可以实时进行总结应答。

故障预判与建议：基于历史故障数据和模型自身知识数据，AI能够给出有效的预判和应对建议，减少了应急团队的分析负担。

自动化响应：可以对某些场景下的告警自动执行操作，如调整带宽、暂停非关键服务、自动化登录主机搜寻故障时段日志并分析日志等。

人类职能：

决策与指挥：人类仍然在应急作战中扮演决策者的角色，基于AI的建议快速做出判断。

复杂问题的处理：AI对某些复杂场景（如数据库锁表、应用性能调优等）的建议依赖于人类的执行与优化。

协同与确认：在安全问题和特殊情况处理上，人类的判断力和经验仍然不可替代，需要根据AI的分析作出最终确认。

原文地址：https://blog.csdn.net/dazuibar/article/details/143886567

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【华为】配置VXLAN构建虚拟网络实现相同网段互通（静态方式）
下一篇：【SpringBoot】【log】自定义logback日志配置

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23