上周跟一家做智能家居的朋友聊天,他吐槽最近半年光处理"假故障"就赔了不少钱,用户报障说设备坏了,工程师上门一看啥事没有,返厂检测也显示正常,可上门费、交通费一分没少花,折腾一圈全是无效成本。
![]()
这种事儿听着离谱,在IoT设备运维圈里却挺常见。
这事儿不能全怪一线工程师,传统运维流程里,客服接到报障就按固定SOP问几句:"重启了吗?""网络正常吗?""换个插座试试?"四步走完,用户说还不行就直接派单。
用户那边可能只是信号临时断了,或者误触了设置,可客服手里就那几页纸的标准流程,根本判断不出来。
我后来去他们公司调研,发现有个有意思的现象:公司里有位干了十年的张师傅,他接的报障单里,假故障拦截率比别人高一大截。
![]()
本来想问问张师傅有啥秘诀,结果他摆摆手:"哪有啥秘诀,就是多问几句呗。"
可真跟着他记录了一周才发现,这"多问几句"里藏着12个步骤,从设备基础状态、网络环境、用户操作习惯,到历史故障记录,甚至周边环境变化都得考虑。
![]()
而客服用的SOP,只覆盖了其中最基础的4步,这种"隐性知识"在技术岗位太常见了。
老专家凭经验能一眼看穿的问题,新人照着手册干却总踩坑。
毕竟很多判断是"只可意会"的,比如"用户说网络正常,但语气犹豫时就得查路由器日志",这种细节根本写不全。
发现问题根源后,我们琢磨着:能不能让AI把张师傅这12步"看家本事"学过来?团队里的技术架构师提议用ReAct框架,简单说就是让AI模拟专家"思考-行动-观察"的过程。
![]()
比如接到报障,AI先"思考"该问什么(对应张师傅的第一步"确认基础状态"),用户回答后再"行动"(比如调取设备日志),最后根据结果"观察"是不是假故障。
光有逻辑还不行,得让系统硬起来。
之前总有人为了"怕担责"绕过流程直接派单,这次我们改了系统,只有AIAgent给出"建议上门"的结论,派单按钮才会亮。
刚开始一线同事骂骂咧咧,说AI"死板",但两周后就没人抱怨了:无效上门单少了一大半,大家不用再白跑冤枉路。
![]()
全量上线那天,我们盯着后台数据看了一上午,离线场景的假故障工单,AI拦截率一直稳定在挺高的水平。
朋友掐着指头算:之前平均每月30多单无效上门,每单成本小两百,一年下来就是七万多,现在至少能省八成,再加上返厂检测费,每年实打实能省几十万。
这可不是什么"软性提效",是真金白银从成本表里抠出来的。
其实做项目时我就发现,很多企业谈AI总喜欢说"赋能""升级",但真能落地产生ROI的不多。
![]()
这个项目能成,关键是抓住了"隐性知识显性化",把老专家藏在脑子里的12步逻辑,变成AI能执行的思维链,再通过系统改造把流程卡死,不让人为操作钻空子。
现在朋友公司正在琢磨下一步:先把这套逻辑扩展到更多设备类型,比如智能电表、安防摄像头,以后还想让AI主动给设备做"体检",不等用户报障就把潜在问题解决了。
从被动修故障到主动防故障,这才是AI在运维里该干的事儿。
说到底,AI时代的业务架构师,真不是光懂技术就行。
![]()
张师傅现在偶尔还会接几个AI搞不定的复杂报障,他总跟年轻人说:"别觉得AI抢饭碗,它就是个不知疲倦的徒弟,把我这些老经验学过去,你们才能腾出手干更难的活儿。"
这话挺实在,AI不是要取代谁,是帮我们把该省的成本省下来,把该留的经验传下去,这才是真的降本增效。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.