网易首页 > 网易号 > 正文 申请入驻

OpenAI自进化AI:6周准确率翻三倍,自主修复Bug

0
分享至



你敢信吗?一个AI系统,没人给它重新训练模型,没人帮它改一行代码,居然在六周内把自己的准确率从25%干到了86%!

OpenAI这次干的事,细思极恐——AI自我进化,已经在真实生产环境里跑起来了!

最近,OpenAI悄悄放出了一个重磅消息:他们和Thrive Holdings联合打造的Tax AI报税系统,在没有人工干预模型和代码的情况下,六周内准确率飙升三倍。

更炸裂的是,这个系统还能自己定位bug、写修复方案、跑测试,甚至生成PR让人类工程师审核。这不是科幻电影,而是正在发生的现实。

先讲个真实的故事:去年,Crete会计师联盟的一位资深会计师,花了整整180小时才准备好客户的税表。今年,同样的工作量,Tax AI只用15小时就搞定了!

省下来的时间,她居然能逐一给客户打电话讲解报税细节,还能开拓新客户。整个报税季,Tax AI处理了7000份税表,准确率最高达97%,产能直接提升了50%。

但最让人震惊的不是这些数字,而是它的增长曲线——六周前连K-1表格都搞不定,六周后字段完成准确率从25%飙到86%,而且还在加速变强!

Tax AI的背后,是OpenAI和Thrive Holdings半年的深度合作。去年12月,OpenAI入股Thrive Holdings后,直接把工程团队派到会计师的办公桌旁,看着真实的税表、客户数据和报错,一起打磨系统。

传统AI产品改进要经过上线、bug、投诉、排查、改代码、部署,每一步都卡着人,循环慢得要死。但Tax AI用三招就把大部分环节自动化了,让系统自己越用越强。

第一招,把从业者的每一次纠错变成结构化数据。会计师审核Tax AI的输出时,每改一个字段,系统都会记录三件事:AI预测了什么、会计师改成了什么、最终报税用了什么。这些修改不是终点,而是AI改进的起点。

第三招,用Codex把发现变成修复。当系统发现某类错误反复出现,比如总是漏掉租赁房产的“公平出租天数”字段,就会把这个pattern打包成明确任务扔给Codex。

Codex拿到完整的生产trace、出错样本、期望输出和测试集后,自己检查逻辑、写修复方案、跑验证,甚至生成PR等人类review。如果证据模糊,任务会路由回产品团队,不会硬来。

效果有多好?租赁房产相关字段处理,从几乎不可用到90%的精确率和召回率,只用了六周!而且这六周积累的能力,让后续支持Schedule C和Schedule A变得更快。

系统越用,能处理的问题越复杂;越复杂的问题被解决,省下来的人工时间越多——这是一条加速曲线!

其实,Tax AI不是孤例。今年2月,OpenAI发布GPT-5.3-Codex时就说,这是第一个在创造自身过程中发挥关键作用的模型,团队用它调试训练流程、管理部署、诊断测试结果。

4月,OpenAI开源了Symphony,把Codex和Linear项目管理工具连起来,监控issue tracker,给每个ticket分配Agent工作空间,Agent自己干活、跑CI、生成PR,工程师只负责review。内部用了之后,部分团队的工程产出直接翻倍。

同样是4月,ICLR 2026在里约专门办了“AI递归自我改进”的workshop。5月,MOSS研究让Agent直接改写自己的源代码,在无人干预的周期内,四个任务的平均评分从0.25拉到0.61。

这里有个关键区别:过去谈AI进化,都是fine-tuning、RLHF、改模型权重,需要海量数据、GPU和专业团队,门槛极高。

但OpenAI现在展示的路完全不同——模型权重纹丝不动,改的是模型周围的一切:提取逻辑、映射规则、eval标准、工作流配置,甚至Agent自己的代码。

就像引擎不变,改底盘调悬挂也能让车跑得更快。这样一来,自我改进的门槛被大幅拉低,只要设计好eval体系、留好生产trace、让强coding agent跑“发现→定位→修复→验证”闭环就行。

回到Tax AI,表面看是AI帮人报税,换个大模型似乎也能干,但底层的自我改进闭环才是核心壁垒。

更有意思的是,Tax AI的IP归Thrive Holdings所有,OpenAI派了半年工程师却没留IP——这在硅谷大厂合作里极其罕见。OpenAI图什么?答案在增长曲线里。

每处理一份税表,每收到一次纠正,系统就多一份改进证据,飞轮转起来后,OpenAI拿到了完整的Agent自我进化范式。

这套可复制的方法论,才是真正的战略资产。现在Thrive Holdings已经把闭环复制到记账、审计、IT运维。



另一边,Anthropic也没闲着,他们的Conway平台用Memory Files持久记忆加Dreams异步整合,给Agent装了“永久大脑”,让它能自我维护、进化。

两条路线殊途同归,都是赌Agent能从“一次性工具”变成“越用越强的系统”。

在通往通用人工智能的路上,模型智能只是起点,真正的终局是系统智能——一个能从环境中持续学习、进化、变强的整体。

你觉得AI自我进化会给你的工作带来什么变化?是被取代还是效率翻倍?评论区聊聊你的看法!觉得这篇内容有启发的,别忘了点赞收藏转发,让更多人看到AI的未来趋势!

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
WTT美国大满贯:决赛对阵出炉!王曼昱蒯曼3:0晋级,与日本争冠

WTT美国大满贯:决赛对阵出炉!王曼昱蒯曼3:0晋级,与日本争冠

国乒二三事
2026-07-03 09:40:16
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
近日,沈腾一家人在阿那亚被拍到,他和老婆王琦,孩子父母都在,王琦目测最少160斤,腰粗膀圆虎背熊腰,现在就是普通大妈的形象

近日,沈腾一家人在阿那亚被拍到,他和老婆王琦,孩子父母都在,王琦目测最少160斤,腰粗膀圆虎背熊腰,现在就是普通大妈的形象

牛油果生活观
2026-07-02 17:32:53
连长被调往师部当排长,本是降级任用,结果一看部下却乐坏了!

连长被调往师部当排长,本是降级任用,结果一看部下却乐坏了!

大运河时空
2026-07-02 15:50:03
郭士强:8名老队员有伤病所以落选;杨瀚森和球队磨合得比较好了

郭士强:8名老队员有伤病所以落选;杨瀚森和球队磨合得比较好了

懂球帝
2026-07-03 12:04:10
砸下10亿,向死神买回一条命?48岁蔡磊抗争渐冻症7年,近况破防

砸下10亿,向死神买回一条命?48岁蔡磊抗争渐冻症7年,近况破防

阿伧说事
2026-06-30 02:01:12
没中国的亚运会一文不值!

没中国的亚运会一文不值!

安安说
2026-07-02 11:25:47
日本降级对华关系,中国游客转向韩国,赴日旅游遇冷

日本降级对华关系,中国游客转向韩国,赴日旅游遇冷

花漾夜雨飘雪
2026-07-03 16:08:18
三分81中45,创NBA纪录,继詹姆斯后,又一个自由球员遭到哄抢

三分81中45,创NBA纪录,继詹姆斯后,又一个自由球员遭到哄抢

篮球大视野
2026-07-03 15:20:30
西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

火山詩话
2026-07-03 08:01:45
“走个面儿”风波持续发酵!韩红诚恳道歉,罗永浩的评价一针见血

“走个面儿”风波持续发酵!韩红诚恳道歉,罗永浩的评价一针见血

叨唠
2026-07-01 04:16:43
40岁洛瑞宣布退役!如愿结束20年职业生涯 7号球衣将被猛龙退役

40岁洛瑞宣布退役!如愿结束20年职业生涯 7号球衣将被猛龙退役

追球者
2026-07-03 05:27:40
女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

网易新闻出品
2026-06-30 21:59:39
当代年轻人的择业观:进不了体制内,宁愿送外卖,也不到私企打工

当代年轻人的择业观:进不了体制内,宁愿送外卖,也不到私企打工

舒山有鹿
2026-07-03 10:45:36
西安赛格商户严鹏坠亡,女儿发布讣告!记者暗访,真相呼之欲出

西安赛格商户严鹏坠亡,女儿发布讣告!记者暗访,真相呼之欲出

火山詩话
2026-07-03 09:09:30
油价调整:注意,预计下调825元/吨,今晚油价要跌!

油价调整:注意,预计下调825元/吨,今晚油价要跌!

金投网
2026-07-03 11:23:58
我宁愿拿着2200的退休金,在家稀饭、馒头就咸菜,也绝不再出去打工了。

我宁愿拿着2200的退休金,在家稀饭、馒头就咸菜,也绝不再出去打工了。

王二哥老搞笑
2026-07-03 11:33:06
世界杯“翘臀”刷屏,足球运动员的屁股为啥这么“顶”?

世界杯“翘臀”刷屏,足球运动员的屁股为啥这么“顶”?

封面新闻
2026-07-02 21:12:03
人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

职场资深秘书
2026-07-02 20:30:35
建党105周年庆祝大会当天,央视点名张桂梅,句句说到大家心坎

建党105周年庆祝大会当天,央视点名张桂梅,句句说到大家心坎

冰语历史
2026-07-02 08:56:57
2026-07-03 16:35:00
似水流年忘我
似水流年忘我
似水流年忘我
874文章数 186关注度
往期回顾 全部

科技要闻

特斯拉交付超预期7.4万辆,股价却大跌7.5%

头条要闻

网友买二手CCD相机 发现内存哈工大教授上百张老照片

头条要闻

网友买二手CCD相机 发现内存哈工大教授上百张老照片

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

AI“鬼故事”不断,市场开始重估?

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

旅游
手机
游戏
教育
艺术

旅游要闻

师宗凤凰谷藏天然扩音器,不靠喇叭传声数里,科学界仍存未解谜团

手机要闻

大折叠屏怎么选:vivo X Fold6领衔,AI工作台、轻薄全能办公神器

猛冲畅销榜第8,《逆战:未来》玩得也太大了吧?

教育要闻

这是人类历史上最大规模的学历提升运动

艺术要闻

当代画家 张奇人物油画作品选

无障碍浏览 进入关怀版