网易首页 > 网易号 > 正文 申请入驻

OpenAI前员工自曝:AI agent迭代7次后,我们被迫手动拔电源

0
分享至


一个AI agent连续迭代了7轮还没收敛,团队最后只能手动终止进程——这不是段子,是某头部AI公司工程师上周在Hacker News上的真实吐槽。

大语言模型(LLM)能写诗能写代码,但让它自主干活时,最大的敌人是它自己。幻觉、跑题、输出格式错乱,这些问题不会因为你用了GPT-4就消失。工程师们现在的解法很朴素:给AI的输出加验证层,不通过就打回去重写,直到合格为止。

迭代循环的死亡陷阱

这套"验证-反馈-再生成"的机制听起来合理,实操起来全是坑。某金融公司的客服agent曾陷入无限循环:用户问"我的退款到哪了",AI查了订单→发现异常→建议联系人工→用户坚持要AI解决→AI再查订单……验证层每次都说"逻辑通顺",但业务上这是死胡同。

核心矛盾在于:验证层能检查语法和格式,却判断不了"这个回答是否真正解决了用户问题"。工程师们被迫在代码里硬编码兜底策略——超过5轮强制退出,取历史输出中置信度最高的那个。这本质上是用确定性规则给概率模型擦屁股。

三种止损策略的残酷对比

业内目前有三种主流方案,各有利弊。

固定次数截断最简单:设个上限比如5次,到点拉闸。代价是可能错过第6次才出现的优质输出,也可能在第3次就浪费算力。某电商公司的测试数据显示,固定5轮的方案有12%的任务本可在第6轮达标。

动态阈值判断更精细:当连续两轮输出的相似度超过90%,或验证分数提升小于0.05时停止。这需要额外的评估模型,而评估模型本身也可能出错。有团队反馈,动态阈值在简单任务上省算力,复杂任务上反而拖得更久。

人机协作兜底最保险:第3轮还没过就弹窗给人类审核。但这违背了自动化的初衷,且人类审核员的响应时间直接把agent的"实时性"优势抹掉。

没有银弹,只有场景适配

医疗诊断agent和电商客服agent的迭代策略不可能相同。前者容错率极低,宁可多跑几轮也要确保准确;后者用户耐心有限,3轮没结果直接流失。某自动驾驶公司的规控agent甚至采用了分层策略:感知层固定3轮,决策层动态阈值,执行层人机兜底。

一个反直觉的发现是:验证层的设计比生成层更难。生成可以靠堆数据和算力,验证需要领域知识沉淀。某法律AI团队花了8个月打磨合同审查的验证规则,而基座模型只换了2次。

那位在Hacker News吐槽的工程师最后更新说,他们现在的做法是"让agent自己决定要不要继续"——给模型注入一段系统提示,让它评估当前输出是否足够好。这听起来像甩锅,但实测下来,GPT-4的自我评估准确率比固定规则高了23%。

问题是,如果agent判断错了呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

这8种病立马办残疾证!符合条件每月领钱,别傻傻把福利扔了!

记录生活日常阿蜴
2026-04-14 07:01:50
个人PC已死!AI让普通人彻底买不起电脑

个人PC已死!AI让普通人彻底买不起电脑

快科技
2026-04-13 18:35:05
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只剩一个

微风轻拂面
2026-04-14 15:44:00
6分优势在手,阿森纳在怕什么?

6分优势在手,阿森纳在怕什么?

足球报
2026-04-14 12:41:49
硬核招聘!DeepSeek月薪3万:聘人去内蒙草原守机房

硬核招聘!DeepSeek月薪3万:聘人去内蒙草原守机房

快科技
2026-04-14 17:07:08
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
两艘从伊朗出发的船只通过霍尔木兹海峡

两艘从伊朗出发的船只通过霍尔木兹海峡

界面新闻
2026-04-14 22:45:12
郑丽文明明没有实权,大陆为什么还要公布惠台政策?

郑丽文明明没有实权,大陆为什么还要公布惠台政策?

阿龙聊军事
2026-04-14 09:36:48
受权发布|中华人民共和国国务院令  第835号

受权发布|中华人民共和国国务院令  第835号

新华社
2026-04-13 17:03:04
马筱梅深夜直播痛哭!亲儿子被区别对待,坦言真到那一刻就缘尽了

马筱梅深夜直播痛哭!亲儿子被区别对待,坦言真到那一刻就缘尽了

八斗小先生
2026-04-14 14:50:50
日本垄断全球90%!一旦断供,别国造不出,中国咋办?

日本垄断全球90%!一旦断供,别国造不出,中国咋办?

今墨缘
2026-04-14 09:57:22
演员田雨透露《庆余年》最新拍摄计划:张若昀、陈道明等原班人马计划回归,第三、四季可能会合并拍摄,剧组争取今年底或明年开机

演员田雨透露《庆余年》最新拍摄计划:张若昀、陈道明等原班人马计划回归,第三、四季可能会合并拍摄,剧组争取今年底或明年开机

鲁中晨报
2026-04-14 20:44:05
兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

兑现目标!37岁奥运冠军退役5个月减肥40斤 网友惊呼:变美认不出

我爱英超
2026-04-14 10:44:22
影子调查|21万元注射干细胞,是谁把临床试验做成了生意?

影子调查|21万元注射干细胞,是谁把临床试验做成了生意?

澎湃新闻
2026-04-14 19:38:29
快手搜索人员调整:王毅离职,程稷李宣平接任

快手搜索人员调整:王毅离职,程稷李宣平接任

申妈的朋友圈
2026-04-13 11:09:18
德国大蟑螂,已经学会杀人了

德国大蟑螂,已经学会杀人了

非凡油条
2026-04-14 16:14:33
小米偷偷上架2台千元机,1599元起配置却让人沉默

小米偷偷上架2台千元机,1599元起配置却让人沉默

硅屿手记
2026-04-14 10:14:31
火化工自述:对生死已经麻木,年轻漂亮女尸会多留两晚

火化工自述:对生死已经麻木,年轻漂亮女尸会多留两晚

小哥很OK
2024-07-08 17:03:04
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
苹果首款折叠屏外观实锤!iPhone Fold最终版设计揭晓:再无悬念

苹果首款折叠屏外观实锤!iPhone Fold最终版设计揭晓:再无悬念

快科技
2026-04-14 08:19:04
2026-04-15 00:04:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
1373文章数 9关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

亲子
手机
时尚
公开课
军事航空

亲子要闻

子宫里多出个“小房间”影响备孕?深圳医生“有招”

手机要闻

三星Galaxy系列手机/平板在美国市场涨价,最高涨幅达80美元

坏事做尽的疯女人,集体翻红了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版