网易首页 > 网易号 > 正文 申请入驻

OpenAI搞了3年没敢放的功能,这家小公司真敢开源

0
分享至


大模型(LLM)写代码能跑通,但让它连续执行20步任务,出错率飙升到47%。这不是我编的,是Anthropic去年内部测试的数据。问题出在「幻觉」——模型会突然失忆、编造假数据,或者把用户要的是A理解成B。

行业里管这叫「智能体(Agent)循环崩溃」。你让AI自动订机票,它可能在第7步把「经济舱」记成「商务舱」,第12步把日期搞错,最后给你一张去火星的票。更麻烦的是,它自己不知道错了。

验证层:给AI装刹车

Iterative这家公司的解法很产品经理思维:把大模型当成一个会犯错的实习生,每次交活必须过质检。他们的系统给AI输出加了多层验证,像工厂流水线里的X光检测——结构对不对、数据在不在知识库里、逻辑有没有自相矛盾。

关键设计是「反馈闭环」。验证不通过,不是直接报错,而是把具体问题扔回给模型重写。比如检测到日期格式错误,反馈里会写「请用ISO 8601格式,你刚才用了美式简写」。

但这里有个死循环风险。如果模型就是理解不了呢?Iterative的文档里没提具体阈值,只说了两种策略:硬截断(最多试N次,选最优失败品)和软达标(跑到质量分数及格线为止)。选哪种,取决于你要的是「能用的」还是「对的」。

确定性护栏:在随机性里找确定性

他们管这套叫「确定性护栏(Deterministic Guardrails)」。名字有点绕,拆开看就明白了:大模型本身是概率机器,输出带随机性;但验证规则是写死的代码,0就是0,1就是1。

这个设计回避了一个行业难题——完全依赖模型自我修正,相当于让醉汉自己判断醉没醉。Iterative的做法是,醉汉每次说话,旁边站个绝对清醒的裁判。

代价也明显。每加一层验证,延迟涨一截。他们没公布具体数字,但参考同类方案,20步任务可能从3秒拖到15秒。对实时交互场景,这是致命伤。

开源背后的算盘

Iterative选择开源这套框架,时机很微妙。OpenAI的Operator、Anthropic的Computer Use都还在实验室阶段,没开放给开发者随便改。这家2015年成立的MLops公司,显然想抢「可观测Agent基础设施」的生态位。

他们的GitHub仓库里有个细节:默认配置是「硬截断3次」。这个数字不是拍脑袋——超过3次,用户流失率陡增;少于3次,错误率压不下去。这是用产品数据喂出来的经验。

不过开源社区的反应分化严重。Hacker News上有开发者吐槽:「验证规则写起来比业务逻辑还复杂,我为什么不直接写传统代码?」也有团队反馈,在金融合规场景里,这套框架把人工复核工作量砍了60%。

Iterative的人在讨论区回了一句:「我们没解决幻觉,只是把幻觉关进了笼子。笼子多大、什么材质,你自己定。」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8成客流下滑!上海地铁最新数据,有点意外…

8成客流下滑!上海地铁最新数据,有点意外…

新浪财经
2026-04-14 19:09:55
四川通报“男子献血10年近4万毫升,持“博爱卡”要求免诊查费被拒”:医院向其当面致歉并取得谅解,分管领导、科室主任诫勉处理

四川通报“男子献血10年近4万毫升,持“博爱卡”要求免诊查费被拒”:医院向其当面致歉并取得谅解,分管领导、科室主任诫勉处理

大象新闻
2026-04-14 19:45:30
欧足联官方:驳回巴萨对与马竞首回合判罚的抗议;该抗议不予受理

欧足联官方:驳回巴萨对与马竞首回合判罚的抗议;该抗议不予受理

懂球帝
2026-04-14 18:42:08
比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

比失业更可怕的是工资倒退,深圳的工资已经降到了10年前

细说职场
2026-04-07 11:32:47
尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

尊重历史,青海马家军在陕西山西河南跟日军血战八年,是真的吗?

史之铭
2026-04-06 17:12:29
一旦台海战争爆发,可能造成上亿伤亡,解放军或需解决4大战场

一旦台海战争爆发,可能造成上亿伤亡,解放军或需解决4大战场

星星会坠落
2026-04-14 01:10:20
从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

从今年起,需做好“潮水暴涨”前的准备?明年房子或将超出想象

混沌录
2026-04-13 20:00:08
视频丨美军将海上封锁范围界定为“进出伊朗港口船舶”有何考量?

视频丨美军将海上封锁范围界定为“进出伊朗港口船舶”有何考量?

海外网
2026-04-14 21:51:01
夜袭阳明堡飞机场一战,我军共牺牲多少战士,击毁敌军多少飞机?

夜袭阳明堡飞机场一战,我军共牺牲多少战士,击毁敌军多少飞机?

云霄纪史观
2026-04-14 18:20:46
曝《寂静岭》等大作将被国内禁售!全平台下架封禁

曝《寂静岭》等大作将被国内禁售!全平台下架封禁

游民星空
2026-04-13 11:12:18
赖清德宣布窜访非洲小国,不到24小时,就被狠狠打脸,不简单

赖清德宣布窜访非洲小国,不到24小时,就被狠狠打脸,不简单

DS北风
2026-04-13 19:08:21
你在部队出过最离谱的公差是啥?网友:出了个差,意外娶了个媳妇

你在部队出过最离谱的公差是啥?网友:出了个差,意外娶了个媳妇

Ck的蜜糖
2026-04-14 17:59:55
疯狂特赦!特朗普这操作把全美看傻了

疯狂特赦!特朗普这操作把全美看傻了

李荣茂
2026-04-14 18:59:59
离大谱!CPU全面升值,电脑居然越用越值钱了!

离大谱!CPU全面升值,电脑居然越用越值钱了!

电脑吧评测室
2026-04-13 22:07:55
美国龙脉与特朗普的风水布局:他背后有位神秘的华裔女风水师

美国龙脉与特朗普的风水布局:他背后有位神秘的华裔女风水师

诡谲怪谈
2025-02-21 11:20:09
胜宁波发布会!助教赢球仍总结攻守问题,徐杰亲承能承担更多责任

胜宁波发布会!助教赢球仍总结攻守问题,徐杰亲承能承担更多责任

篮球资讯达人
2026-04-14 23:09:20
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
国乒消息:王皓或做出新决定,3人表现不合格,马龙心疼王楚钦

国乒消息:王皓或做出新决定,3人表现不合格,马龙心疼王楚钦

郝小小看体育
2026-04-14 00:41:18
活106岁,13个孩子都是博士,美国总统为她祝寿,小儿子世界闻名

活106岁,13个孩子都是博士,美国总统为她祝寿,小儿子世界闻名

大鱼简科
2026-04-14 22:15:32
广东男篮逆转宁波,直通季后赛8强稳了!评分:2人满分 3人不合格

广东男篮逆转宁波,直通季后赛8强稳了!评分:2人满分 3人不合格

侃球熊弟
2026-04-14 22:04:16
2026-04-14 23:40:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1364文章数 14关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

时尚
艺术
旅游
本地
亲子

坏事做尽的疯女人,集体翻红了

艺术要闻

这位美女画家的夏天竟如此梦幻

旅游要闻

露营经济带火临朐石家河,有机蔬菜、散养禽蛋成爆款伴手礼

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

子宫里多出个“小房间”影响备孕?深圳医生“有招”

无障碍浏览 进入关怀版