网易首页 > 网易号 > 正文 申请入驻

阿里Qwen3.5翻车93次后,他们把成功率干到了99.8%

0
分享至


6.75%。这是Qwen3-coder-next在生成商场后端API数据类型时的首次成功率。100次尝试里,93次输出无效。

这个数字来自Wrtn Technologies的Jeongho Nam在Qwen Meetup上的实测。他团队开发的AutoBe,一个能把自然语言对话转成完整后端的AI Agent,最初接这个模型时几乎没法用。NESTFUL(EMNLP 2025)测过GPT-4o,嵌套工具调用序列的准确率只有28%。JSONSchemaBench(ICLR 2025)用1万个真实模式测试约束解码框架,最难的案例覆盖率3%到41%。BoundaryML更激进,认为结构化输出会主动 degrade(降低)模型推理能力——逼模型输出JSON格式,反而让它变笨。

行业共识很明确:函数调用(function calling)只适用于扁平、简单的模式。递归嵌套或深层结构复杂的东西,别费劲了。

但AutoBe没得选。他们的目标是让AI输出可确定——能解析、能验证、能在循环里修正直到收敛。自由文本没法机械验证,自然语言无法编译。没有结构就没有反馈回路,没有反馈回路就没有保证。所以他们必须让函数调用在那种被行业判死刑的复杂递归模式上跑通。

结果:最终编译成功率99.8%+。五个Qwen模型全部通过。

不是模型变聪明了,是工程套了层壳


秘诀不在模型内部,在外部——一套harness(约束框架)。类型模式约束输出,编译器验证结果,结构化反馈精确定位错误位置和原因,让大语言模型(LLM)自我修正。概率模型外面包一层确定性循环。

AutoBe的架构是5阶段流水线,跑过4种抽象语法树(AST)类型和4层编译器,自修复循环系统性纠正LLM错误。Typia是这套结构的核心:TypeScript编译器从源码分析单个类型,自动生成模式、解析器、验证器和反馈生成器。Qwen 3.5从0%到100%的翻转,机制就在这里。

具体怎么运作?当LLM生成代码后,Typia立即编译验证。出错时,不是返回"错了"这种废话,而是输出精确的诊断:第几行、什么类型不匹配、期望什么、实际得到什么。LLM拿到这份"体检报告",下一轮生成就能针对性修复。循环往复,直到通过。

小模型成了最好的QA工程师

这套方法的意外收获:小模型反而更适配。

大模型容易"过度自信",生成冗长但结构松散的输出,验证时一堆边缘情况没过。小模型能力边界清晰,出错模式更集中,反馈-修正循环的效率反而更高。在AutoBe的测试里,Qwen3-coder-next这种"不够强"的模型,经过harness约束后,最终成功率反超了未经约束的大模型。


这就像让实习生写代码——老手可能随手写一堆"差不多能跑"的,实习生每行都战战兢兢,但配合严格的Code Review和自动化测试,最终交付质量反而更稳定。

从后端到芯片:这套模式能走多远

Nam在演讲最后把问题抛得更远。半导体、化工流程、建筑、控制系统——任何存在确定性验证器的工程领域,这套"约束-验证-反馈-修正"的模式是否都适用?

他的判断是肯定的。AutoBe在后端领域的成功,本质是借用了软件工程已有的类型系统和编译器基础设施。其他领域只要存在类似的"硬性检查点",理论上都能复制这套harness逻辑。区别只在于:那个领域的"Typia"是什么,验证成本有多高,反馈信息能多精确。

AutoBe现已开源。Wrtn Technologies的GitHub仓库里,完整的5阶段流水线、Typia集成示例、以及那份从6.75%爬升到99.8%的完整测试日志,都可以直接拉取。

最后一个细节:Nam团队在测试日志里发现,Qwen3-coder-next最初失败的93次中,有71次是同一个错误——把可选字段(optional field)的undefined类型漏掉了。Typia的反馈生成器把这个模式识别出来后,专门给LLM补了一行类型系统的"常识说明"。之后这个错误再没出现过。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金溥聪深夜发声明“正面宣战” 剑指郑丽文 国民党内斗公开化

金溥聪深夜发声明“正面宣战” 剑指郑丽文 国民党内斗公开化

观星赏月
2026-03-28 12:11:40
刘晓庆自爆“家丑大瓜”:最想她死的,竟然是亲外甥……

刘晓庆自爆“家丑大瓜”:最想她死的,竟然是亲外甥……

桌子的生活观
2026-03-27 12:35:54
马英九按下暂停键,连战或已经出手,被踢出局的金溥聪彻底不装了

马英九按下暂停键,连战或已经出手,被踢出局的金溥聪彻底不装了

娱乐小可爱蛙
2026-03-28 12:21:37
关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

关于伊朗的十大虚假叙事——你是如何被网军欺骗的?

枫岭社
2026-03-27 10:49:09
海南停车纠纷后续:女子不幸离世,家属索赔122万,最终赔14.9万

海南停车纠纷后续:女子不幸离世,家属索赔122万,最终赔14.9万

观察鉴娱
2026-03-28 09:25:48
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

小舟谈历史
2026-03-28 04:42:18
广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

后仰大风车
2026-03-28 07:10:11
央视主持人集体大哭,朱迅流泪康辉掩面痛哭,真相是什么?

央视主持人集体大哭,朱迅流泪康辉掩面痛哭,真相是什么?

落雪听梅a
2026-03-28 09:14:37
刘晓庆亲妹反击了!揭没养老金领 痛心姊姊晚年被「榨干骨髓」

刘晓庆亲妹反击了!揭没养老金领 痛心姊姊晚年被「榨干骨髓」

ETtoday星光云
2026-03-27 10:38:07
张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

张雪峰猝逝后,2万家长抢购的17999元志愿卡谁来填?

薛定谔的BUG
2026-03-28 12:04:50
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

江淮做梦都想不到,自己做成中国的宾利,100万一辆还供不应求

财经老庄
2026-03-27 18:40:20
张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

张雪峰灵堂现动人一幕,宾客来都是鞠躬,而他的员工给张老师磕头

十九妹
2026-03-28 10:07:30
韩媒:日本已不再是世界五大出口国之一!

韩媒:日本已不再是世界五大出口国之一!

达文西看世界
2026-03-28 11:21:12
邓华进餐厅吃饭,有上将漠视转身走开,许世友:老邓,咱们喝一杯

邓华进餐厅吃饭,有上将漠视转身走开,许世友:老邓,咱们喝一杯

芳芳历史烩
2026-03-27 17:55:19
登场20战15胜!哈登29分钟17+14早早打卡 前队友:历史最佳之一

登场20战15胜!哈登29分钟17+14早早打卡 前队友:历史最佳之一

颜小白的篮球梦
2026-03-28 09:57:45
陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

八怪娱
2026-03-27 13:32:01
张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

眼光很亮
2026-03-27 16:04:09
特朗普称霍尔木兹为特朗普海峡

特朗普称霍尔木兹为特朗普海峡

界面新闻
2026-03-28 09:36:19
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
2026-03-28 15:04:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
324文章数 0关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

手机
时尚
艺术
本地
房产

手机要闻

天玑9500性能天花板!一加Ace 6至尊版入网:超高刷直屏+8000mAh级电池

龙虾来了,厌蠢症炸了

艺术要闻

细腻优雅的花卉静物画 | Henrietta Smith

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

房产要闻

6.8万方!天河员村再征地,金融城西区开发全面提速

无障碍浏览 进入关怀版