网易首页 > 网易号 > 正文 申请入驻

OpenAI前员工曝AI编程真相:47%的"已完成"是幻觉

0
分享至


AI编程助手告诉你"任务完成"时,有47%的概率它在撒谎。不是故意骗你,是它真的不知道自己没做完。

这是OpenAI前研究科学家Karina Nguyen在离开公司后公开的技术细节。她参与过GPT-4和o1的研发,现在创业做AI编程工具。她见过太多这样的场景:代理(agent)提交代码后报告"所有测试通过",实际测试套件里满是语法错误;声称"已创建3个文件",磁盘上根本不存在。

问题不在幻觉。代码确实生成了,只是没人验证它能不能跑。

transcript信任陷阱:代理说什么,系统就信什么

当前主流的AI代理编排工具,核心验证逻辑惊人地原始:解析代理输出的文本,匹配关键词。"已提交3个文件""测试全部通过"——只要字符串出现,就算完成。

Karina把这比作"让考生自己批改试卷,还是开卷考"。代理的输出模式里包含大量完成性语言,这是训练数据的统计特征,与真实执行状态无关。它写"测试通过"时,测试可能根本没编译。


这种验证方式能抓到的只有显性失败:代理报错、无输出、完全没提任务。隐性失败全部漏网:代码看起来对、描述也准确,但编译失败、测试挂掉、或者根本没实现需求。

更麻烦的是循环重试。大多数工具默认"盲重试"——步骤失败,同一提示词再跑一遍,跑到上限为止。代理完全不知道上次为什么失败,第二次出错的概率和第一次差不多。

Swarm Orchestrator 4.0:查结果,不查口供

Karina的新系统换了套逻辑。代理每步执行在隔离的git分支上,验证器直接检查分支状态,而非代理怎么说。

具体做了三件事。

第一,结果优先的验证层级。 transcript分析还在跑,但一旦配置了结果检查,它就降为可选。构建和测试的实际执行结果,决定能否合并代码。


第二,自动栈检测。 验证器读取package.json、Makefile、pyproject.toml、Cargo.toml等项目配置,自动运行对应命令。不需要为每个仓库写配置。

第三,带上下文的修复。 失败时,RepairAgent拿到验证检查的结构化输出:哪项检查失败、构建/测试输出的最后20行、哪些文件预期存在却缺失。失败被分类(构建失败、测试失败、文件缺失、无变更),修复策略随之调整。

最后一次尝试时,提示词会明确调整优先级:先跑起来,再追求完美。

一个数字:知道错误原因后,修复成功率提升多少?

Karina没给具体百分比,但逻辑很清晰。知道"缺失import导致构建失败"的代理,有明确路径去修复。重复同一提示词的代理,只是在重复同一错误分布。

这套系统的野心不止于验证。Karina在访谈中提到,她希望AI编程工具最终能支持"开放式研究"——不只是写代码,而是探索未知问题、提出新问题、进行创造性实验。

她引用了Richard Sutton的《苦涩的教训》:长期来看,利用计算的通用方法总是胜出。AI编程的下一个阶段,可能是让代理真正"理解"自己在做什么,而非模式匹配"完成"的关键词。

目前Swarm Orchestrator 4.0已集成到她的创业产品Eclair中。一个值得观察的细节是:当代理的"谎言"被系统性揭穿后,开发者会更信任它,还是更警惕它?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

小伙娶48岁大妈,新婚第二天大妈赖床不起,小伙掀开被子愣住了

一根香烟的少妇
2026-02-23 15:00:03
特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

特朗普“首次承认被黑吃黑”,被点名的库尔德火速否认三连

观察者网
2026-04-07 14:42:00
巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

巴基斯坦斡旋美伊谈判持续进行 未来数小时“至关重要”

财联社
2026-04-07 23:16:26
上海一公园内女子爬树拍照,20年树龄樱花树被连根压倒!经多部门联合查找约谈,当事人承认错误并愿赔偿

上海一公园内女子爬树拍照,20年树龄樱花树被连根压倒!经多部门联合查找约谈,当事人承认错误并愿赔偿

扬子晚报
2026-04-07 21:05:56
特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

特朗普消失?连续三天未露面引全球猜测,病危还是兵变?真相成谜

兴史兴谈
2026-04-07 07:25:46
张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

张伦硕自曝最受不了钟丽缇一点:她那方面太厉害!女人看后都无语

百言君
2026-04-06 23:11:58
谋求首轮复出!曝东契奇已在西班牙接受干细胞治疗,医学界炸了

谋求首轮复出!曝东契奇已在西班牙接受干细胞治疗,医学界炸了

阿废冷眼观察所
2026-04-07 16:32:39
韩抢购中方气显短视,日政客跳脚成丑角

韩抢购中方气显短视,日政客跳脚成丑角

烽火瞭望者
2026-04-08 06:43:24
伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

辉辉历史记
2026-04-08 05:13:38
蔚来ES9内饰发布:有点意思,也有点“作”

蔚来ES9内饰发布:有点意思,也有点“作”

优视汽车
2026-04-07 11:56:08
“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

“千古奇冤”阿隆索!皇马换帅后战绩直线下滑,根源直指管理层!

田先生篮球
2026-04-07 11:22:53
罗马尼亚名帅卢切斯库因心肌梗塞离世,享年80岁

罗马尼亚名帅卢切斯库因心肌梗塞离世,享年80岁

五星体育
2026-04-08 06:31:06
德媒文章:世界或将爆发“能源生态冷战”

德媒文章:世界或将爆发“能源生态冷战”

参考消息
2026-04-07 14:44:55
清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

清明节,儿子写烧给母亲的祭文,看哭了14亿中国人!

每日一首古诗词
2026-04-05 06:07:07
当年为什么查办褚时健?

当年为什么查办褚时健?

百晓生谈历史
2025-08-20 21:55:53
“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

“生娃率”持续走低,厦门教授给出建议:不生孩子就下调养老金

大果小果妈妈
2026-04-02 13:16:39
苹果官网突然上架新品:4月9日,正式开卖!

苹果官网突然上架新品:4月9日,正式开卖!

搞机小帝
2026-04-07 22:48:31
“所有品类都要涨,最高可能30%!”多个品牌店员透露:最好4月中旬前买

“所有品类都要涨,最高可能30%!”多个品牌店员透露:最好4月中旬前买

新浪财经
2026-04-05 10:51:13
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

共工之锚
2026-04-06 19:29:37
43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

43岁男子和富婆车震后,富婆还想要更多,2016年他将51岁富婆杀死

汉史趣闻
2026-04-06 19:17:12
2026-04-08 08:51:00
我是一个养虾人
我是一个养虾人
有态度网友ytd
912文章数 10关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

头条要闻

郑丽文表态:感谢大陆热情接待 国民党坚持"九二共识"

体育要闻

科特迪瓦中场卡迪尔-凯塔被控过失杀人罪,面临九年以上监禁

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

手机
旅游
亲子
房产
游戏

手机要闻

古尔曼:苹果可折叠iPhone Fold仍按计划于9月推出

旅游要闻

谁懂啊!西安城墙下这处宝藏人文景观,春天去直接封神

亲子要闻

6岁女孩确诊性早熟!医生:小心这些“营养品”和“餐具”

房产要闻

重磅!三亚拟出安居房新政!

《Swords & Slippers》新视频 大雷妹子激情

无障碍浏览 进入关怀版