网易首页 > 网易号 > 正文 申请入驻

AIOps如何变革AI时代的IT运维管理

0
分享至


AIOps定义与核心概念

AIOps是"AI for IT operations"的缩写,是一种新兴的运维实践,利用机器学习和自动化技术帮助组织监控、管理和故障排除复杂的数字系统。实施AIOps的公司使用AI驱动的工具,结合来自基础设施和应用程序的日志、指标和事件数据,提前发现问题,识别根本原因,并在用户察觉问题之前触发响应。

AT&T首席数据/AI工程师Monika Malik将早期AIOps模式描述为:"数据摄取 → 关联分析 → 检测异常事件 → 预测可能原因 → 编排修复措施"。如今,大语言模型正在为这一流程增添新的智能层。"生成式AI是增强型的,而非替代性的,"她表示,"大语言模型用于推理/总结、运维副驾驶和知识检索,但数据、规则和机器学习仍然是基础。"

AIOps与DevOps的区别

DevOps和AIOps在理念上有相同的DNA,都关注自动化、反馈循环和系统响应性,但它们在技术栈的不同层级发挥作用。

数据基础设施工程师Kostas Pardalis解释道:"DevOps专注于自动化和简化软件开发生命周期。AIOps将这种理念扩展到运维领域,将机器学习和推理作为一级运维操作。"换句话说:DevOps帮助你可靠快速地发布和部署;AIOps帮助你更智能地监控、检测和修复生产环境问题。

Litera公司CTO Greg Ingino将两者视为互补关系:DevOps管理我们如何构建和交付系统,而"AIOps管理我们如何在生产环境中运维和优化这些系统。DevOps推动速度,而AIOps确保稳定性。"

AIOps平台的核心组件

一个有效的AIOps平台需要三个层级。首先是"跨日志、指标、跟踪和非结构化事件的数据收集和规范化"。其次是"推理优先的管道,能够概率性地分类、丰富和关联信号,而不仅仅是确定性地处理"。最后需要"可观测性和治理,让团队能够信任AI输出——包括血统追踪、评估和成本控制。没有这些,你要么被数据淹没,要么得到一个没人信任的黑盒子。"

FedEx高级云工程师Milankumar Rana描述了一个更详细的架构,它将传统可观测性与生成智能相结合。许多部署依赖于开源技术栈如ELK、Prometheus和OpenTelemetry,而商业工具如Splunk、Elastic Observability、LogicMonitor和IBM的AIOps套件则增加了"用于自然语言查询、事件总结和自主修复的生成式AI"。云提供商也加入其中,AWS和Azure都添加了AIOps驱动的事件洞察和异常检测功能。

AIOps实施策略

成功的AIOps部署很少从大规模推广开始,而是通过渐进式步骤、可衡量的成果和建立信任来实现。AT&T的Malik建议以下步骤:

从小处着手:选择两到三个长期产生大量噪音的服务,定义成功标准——例如,减少30%的噪音,提高20%的平均修复时间。

混合检测:将SLO违规的硬规则与基于机器学习的异常检测相结合,避免过早采用"纯机器学习"方法。

使可解释性可见:每个仪表板或提示都应显示为什么某件事被带到用户注意——类似的过去事件、知识库参考等。

分阶段引入自动化:从只读洞察开始,然后允许系统在人工批准下开始建议行动,最后转向有限的自动执行(带有回滚保护)。

衡量和每周发布:跟踪诸如平均响应时间/平均修复时间、误报、L1处理量和节省的值班时间等指标。

AIOps的优势与挑战

当AIOps发挥作用时,其优势立竿见影且可衡量。Ingino表示,在Litera,回报体现在"更快的事件检测、更少的误报和更高的系统可靠性"。除了提高正常运行时间,他还注意到"AIOps显著减少了运维团队的认知负荷,让他们能够专注于更高价值的工程工作。"

SWBC质量工程总监Nagmani Lnu同意最大的好处来自更早、更准确的检测和解决方案。当AIOps成功实施时,"公司将真正看到主动检测问题并实时解决问题的好处,将改善他们的平均修复时间,从而改善业务的IT体验。"

然而,挑战可能与回报一样显著。Ingino说最困难的问题是"数据质量和文化变革"。AIOps"只有数据有多智能,它就有多智能",因此确保一致、上下文化的摄取至关重要。信任是另一个反复出现的主题。"团队需要信任AI,这意味着透明度、血统追踪和调试能力。"

主要AIOps工具

当今的AIOps市场涵盖了传统可观测性平台和为推理优先工作负载构建的AI原生框架。Pardalis解释:"传统可观测性供应商如Datadog、Splunk和New Relic正在其平台之上分层AI。然后是AI原生框架——如Typedef或开源技术栈如Ray和Polars——让你直接在数据管道内部操作推理。"

正确的选择取决于公司是希望在现有监控基础上增量添加AI,还是需要自下而上的推理驱动架构。SWBC的Lnu指出"大多数AIOps平台具有非常相似的功能",但他认为"Dynatrace、Splunk、Datadog、New Relic和BigPanda"是持续的领导者。

AIOps工程师的角色

AIOps工程师承担跨学科角色,结合站点可靠性工程师、数据科学家和自动化专家的技能。这个角色是"站点可靠性工程师的进化。AIOps工程师不仅仅是自动化手册,他们正在设计推理在循环中的管道。"这包括"为可观测性策划数据,训练或微调异常检测模型,以及部署推理优先的工作流程,实时理解日志、跟踪和指标。"

技术专家Chirag Agrawal强调,虽然有些人认为AIOps工程师只是工具配置技术人员,但他们的真正影响在于理解、管理和策划AIOps工具将使用的数据。"当摄取低质量数据时,产生的结果就很糟糕,"他说,最好的AIOps工程师是那些"深度理解其环境特定的日志、指标和依赖关系"的人,而不一定需要正式的AI背景。

生成式AI在DevOps中的应用

AT&T的Malik分享了她的团队如何使用精心设计的生成式AI提示来支持生产环境中的AIOps任务的示例。每个提示都建立在检索系统之上(从运维手册、过去事件和标准操作程序中提取),并且只与批准的工具交互。

她的团队使用的提示类型包括:事件汇总器(用于值班交接)、根本原因分析助手(基于证据权重)、运维手册推荐器(人在环路中)、事后分析起草器(带引用)等。

每个提示都保持严格的防护措施:检索优先方法、工具使用限制、置信度阈值、每个输出都包含"来源"部分用于审计、任何可能影响生产系统的行动都需要人工批准。

实际AIOps应用案例

AIOps在各行业的生产环境中越来越证明其价值。在云原生环境中,组织使用AIOps"监控容器健康,检测容器间异常的CPU、内存或网络使用",并"预测高流量期以预热Lambda函数以避免冷启动延迟"。

Chirag Agrawal分享了一个以人为本的成功故事。他的团队开发了"一个AI智能体,识别通常在团队间重新分配的工单。这些工单无需任何人工干预即可自动正确路由。"结果:每季度节省数百小时,投资回报明确。

Litera的Ingino回忆了一个场景,AIOps工具检测到"服务中的细微性能漂移,标准监控可能会错过"。平台"关联了多个微服务的异常,精确定位源头,并在用户体验任何降级之前触发响应。"这单一事件"验证了整个投资"。从那时起,Litera看到"事件解决时间下降了70%以上"。

人类在AIOps世界中的角色

即使AIOps变得更加强大——关联事件、总结故障并推荐修复——人类专业知识仍然必不可少。Chirag Agrawal直言:"AI可以自动化模式识别,但上下文和意图必须由了解这些系统在现实环境中如何行为的人来提供。"

AIOps擅长筛选遥测数据、检测异常和加速根本原因分析,但仍依赖人类判断来解释含义、验证影响并决定自动化应如何演进。"当人类洞察力和机器智能并肩发展,而不是一个取代另一个时,AIOps效果最佳。"

这种合作关系也推动长期进步。每个解决的事件都加强了系统的知识库,改善未来响应并减少繁重工作。"AIOps的真正承诺不仅体现在自动化中,还体现在所构建的集体记忆中。"

从这个意义上说,AIOps并没有让人类过时——它放大了人类的能力。工程师与这些系统分享的上下文越多,它们就越能将原始数据转化为运维智能。

Q&A

Q1:AIOps是什么?它与传统IT运维有什么区别?

A:AIOps是"AI for IT operations"的缩写,是一种利用机器学习和自动化技术的新兴运维实践。它能够结合基础设施和应用程序的日志、指标和事件数据,提前发现问题,识别根本原因,并在用户察觉问题之前自动触发响应,比传统运维更加智能和主动。

Q2:AIOps实施会面临哪些主要挑战?

A:主要挑战包括数据质量问题和文化变革阻力。AIOps的智能程度完全依赖于数据质量,因此需要确保数据的一致性和上下文化摄取。另外,团队需要建立对AI系统的信任,这要求系统具备透明度、血统追踪和调试能力,同时还需要适当的成本控制和安全防护措施。

Q3:人类在AIOps时代还有什么价值?

A:人类专业知识仍然必不可少。AI可以自动化模式识别,但上下文和意图必须由了解系统实际运行行为的人来提供。AIOps擅长处理数据和检测异常,但仍依赖人类判断来解释含义、验证影响并决定自动化的演进方向。最佳效果来自人类洞察力与机器智能的协同合作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗不值得同情!两大国亲手为他搭好擂台,却反手被卖

伊朗不值得同情!两大国亲手为他搭好擂台,却反手被卖

毛豆论道
2026-03-02 17:01:06
外媒:特朗普对伊朗发出新威胁

外媒:特朗普对伊朗发出新威胁

参考消息
2026-03-01 15:52:28
伊朗反击太快,只给以2小时,导弹从天而降,以色列民众抱头鼠窜

伊朗反击太快,只给以2小时,导弹从天而降,以色列民众抱头鼠窜

书纪文谭
2026-03-02 17:24:46
560名美军死伤,弹药库剧烈大爆炸,伊朗导弹雨把以色列炸成火海

560名美军死伤,弹药库剧烈大爆炸,伊朗导弹雨把以色列炸成火海

策略述
2026-03-02 14:41:25
“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

“伊朗德黑兰飞乌鲁木齐航班进入中国领空 机舱内传来广播”视频热传 川航:未开通伊朗航线

闪电新闻
2026-03-02 17:29:47
严厉制止网络上过度宣扬“失业潮失业人数及躺平”等不良思想——

严厉制止网络上过度宣扬“失业潮失业人数及躺平”等不良思想——

叶初七
2026-03-02 17:06:05
内贾德没有死,秘书公布遇袭细节

内贾德没有死,秘书公布遇袭细节

世家宝
2026-03-02 14:06:27
新华时评:当炸弹落在校园,文明底线何在

新华时评:当炸弹落在校园,文明底线何在

澎湃新闻
2026-03-01 22:32:48
35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

小豫讲故事
2026-03-02 06:00:03
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

如果伊朗提出请求中俄会向其提供军事支持吗?外交部回应

澎湃新闻
2026-03-02 15:36:48
28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

28场造20球!韦世豪疑不满无缘金球奖:发笑哭表情 配乐《偷感》

风过乡
2026-03-02 19:54:23
内塔尼亚胡办公室遭猛烈袭击!伊朗:摧毁美国一总领馆及一军事基地,击落3架美军机

内塔尼亚胡办公室遭猛烈袭击!伊朗:摧毁美国一总领馆及一军事基地,击落3架美军机

新民晚报
2026-03-02 19:04:01
全国政协委员刘永好:建议全民发放500元通用消费券 可拉动消费近2万亿元

全国政协委员刘永好:建议全民发放500元通用消费券 可拉动消费近2万亿元

财联社
2026-03-02 10:57:04
伊朗发射近1200枚导弹报复美国和以色列

伊朗发射近1200枚导弹报复美国和以色列

中国网
2026-03-01 16:43:10
海澜之家被“全军拉黑”!中标后拒签合同,200亿撑不起一单军需

海澜之家被“全军拉黑”!中标后拒签合同,200亿撑不起一单军需

新浪财经
2026-03-02 16:03:13
中国与伊朗接近达成超音速导弹采购协议?外交部:不属实!

中国与伊朗接近达成超音速导弹采购协议?外交部:不属实!

澎湃新闻
2026-03-02 15:36:40
宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

宁可放弃中国市场,也不删镜头!《蜘蛛侠:英雄无归》没引进的真相终于来了

小椰的奶奶
2026-03-02 10:32:14
刚刚,全线暴跌!紧急救市!

刚刚,全线暴跌!紧急救市!

中国基金报
2026-03-02 17:11:34
“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

“斩首”行动细节揭秘:美以战机同地起飞,直扑哈梅内伊

中国新闻周刊
2026-03-02 10:32:04
2026-03-02 23:51:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1984文章数 162关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

旅游
艺术
健康
手机
军事航空

旅游要闻

湄旅节后回血指南,用一场慢游,把复工焦虑留在21°C的春天里

艺术要闻

简约的风景画,美国画家Ben Bauer作品

转头就晕的耳石症,能开车上班吗?

手机要闻

iPhone 17系列:国内销量已破2200万!网友:华为仍需努力

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版