网易首页 > 网易号 > 正文 申请入驻

Google把AI代码准确率干到96.3%,开发者却吵翻了

0
分享至


96.3%的通过率,63%的token消耗下降——这组数字来自Google最新放出的Gemini API编程工具套件。但比数字更耐人寻味的是,Google选择用两套独立系统解决同一个老问题:AI写代码时,训练数据的截止日期让它像个拿着过期地图的导航员。

过期地图与实时路况

大模型写代码有个隐形bug。它的知识停在训练数据截止日期,而API文档每周都在变。Gemini API去年更新了47个版本,模型家族从Pro扩展到Flash、Flash-Lite、Pro Experimental——开发者昨天写的最佳实践,今天可能就过时了。

Google的解法分两条腿走路。第一条腿叫Gemini API Docs MCP,通过模型上下文协议(Model Context Protocol,MCP)把编程代理实时接入官方文档库。不是下载静态快照,是直接读当前版本的SDK、模型参数、配置示例。第二条腿叫Gemini API Developer Skills,一套预置的指令模板,把"用最新版SDK""检查模型兼容性"这类规则写进代理的prompt里。

单独用MCP,代理能查到最新API但可能用错模式。单独用Skills,代理知道模式但可能引用已废弃的参数。Google的测试显示,两者联用时代理在代码生成评测集上的通过率达到96.3%,比裸prompt提升了近40个百分点。更意外的是token效率——正确答案的平均生成长度砍掉63%,相当于同样的API调用次数,你能多处理2.7倍的请求。

MCP:给代理装了个实时浏览器

模型上下文协议(MCP)今年成了AI infra的热门词。简单说,它让代理像人类开发者一样打开浏览器查文档,而不是靠记忆里的残片拼凑答案。

Gemini API Docs MCP的具体实现很直白:代理发起调用→MCP服务器返回当前文档的结构化片段→代理基于实时信息生成代码。对比传统RAG(检索增强生成,Retrieval-Augmented Generation)方案,MCP的优势在于协议标准化——同一套接口可以对接文档、数据库、甚至内部API,不需要为每个数据源写定制爬虫。

Google放出的评测数据里有个细节:MCP单独使用时通过率约78%,但错误集中在"知道有新功能但用错语法"。这暴露了纯文档查询的局限——知道有什么,不等于知道怎么用。

Skills:把经验写成肌肉记忆

Developer Skills解决的是"怎么用"的问题。它不是让代理去查,而是直接把最佳实践写进系统提示里。

Google提供的Skills模板包含三类内容:版本兼容性检查清单(比如"确认目标模型支持json_schema模式")、常见陷阱规避(比如"不要混用v1beta和v1的端点")、以及性能优化建议(比如"批量请求优先用batch_embed_content而非循环调用")。这些规则来自Google内部支持团队过去一年处理的12000+开发者工单。

Skills单独使用的通过率约82%,但错误类型翻转——代理能写出语法正确的代码,却可能调用两周前刚废弃的参数。这解释了为什么Google坚持两套系统并行:MCP补信息 freshness,Skills补决策质量。

联用背后的产品算盘

96.3%这个数字本身有语境。Google的评测集覆盖的是Gemini API常见任务:文本生成、嵌入、函数调用、结构化输出。不涉及多模态理解或复杂agent编排——那些场景的错误率曲线会更陡峭。

但token效率的提升是真实的。63%的降幅来自两个因素的叠加:MCP减少了代理"猜测"参数所需的试错轮次,Skills减少了生成后修正所需的迭代次数。对于按token计价的API调用,这直接换算成成本优势。

Google把两个工具都开源在ai.google.dev,但配置门槛不低。MCP需要本地运行Node服务,Skills需要手动编辑YAML文件。社区里已经有开发者抱怨:"解决AI写代码的问题,需要先写一堆代码来配置工具。"

开发者社区的撕裂反应

Hacker News上的讨论分成了两派。一派认为MCP+Skills是"终于有人把RAG做成了协议层",另一派质疑"为什么不让模型自己学会查文档,而要人类写Skills模板"。

前者的代表观点是:「MCP的价值不在Gemini这一个API,而在于它证明了上下文协议可以标准化。今天接Google Docs,明天就能接Stripe、AWS、任何有文档的服务。」后者的反驳更尖锐:「Skills本质上是把人类工程师的经验翻译成prompt工程,如果模型足够强,这些规则应该被内化而不是外挂。」

Google自己的工程师在回复中承认,Skills是"当前模型能力的妥协"。Gemini 1.5 Pro的上下文窗口够大,但长上下文不等于有效利用。把关键规则前置到system prompt,比指望模型在128K token里自己发现模式更可靠。

一个被反复提及的对比是OpenAI的函数调用方案。OpenAI选择把工具定义结构化地交给模型解析,Google则把工具使用模式预写成指令。两种路线没有绝对优劣,但反映了不同的产品哲学:OpenAI赌模型能力持续爬坡,Google赌开发者需要更多可控性。

96.3%之后的问题

通过率数字漂亮,但生产环境的考验才刚开始。评测集里的任务是单轮代码生成,真实开发涉及多轮调试、跨文件引用、与现有代码库的兼容。Google的文档里埋了一句免责声明:「高通过率不代表零幻觉,关键业务逻辑仍需人工审查。」

更现实的瓶颈在生态。MCP协议需要服务端支持,目前Google Docs MCP是官方维护,第三方API的MCP适配器质量参差不齐。有开发者反馈,接了一个社区版的Slack MCP,结果返回的文档片段是2023年的旧版,比模型训练数据还老。

Skills的扩展性也是个问号。Google提供的模板针对Gemini API优化,迁移到其他云服务需要重写规则集。社区里有人在尝试用LLM自动生成Skills模板,但这又引入了"用AI解决AI工具配置"的套娃问题。

Google的下一步动作值得关注。内部消息显示,团队正在实验把Skills的生成过程也自动化——让代理基于MCP返回的文档,自动提炼出最佳实践规则。如果跑通,人工写YAML的阶段可能跳过,但这也意味着把更多控制权交给模型自己。

当96.3%的通过率成为基准线,开发者会开始追问:剩下的3.7%错误分布在哪些场景?是边缘case还是核心路径?Google的评测报告里没有细分数据,但社区已经有人开始自建测试集验证。一位独立开发者在Twitter上晒了他的初步结果:函数调用场景通过率91%,结构化输出场景通过率88%——均低于官方数字,但样本量有限,结论仅供参考。

工具链的成熟总是滞后于模型能力的跃迁。MCP+Skills组合解决的是2024年的痛点,而Gemini 2.5 Pro的代码能力已经在部分评测中追平Claude 3.5 Sonnet。当模型本身更少犯错,外挂的文档查询和规则模板会不会变成技术债?

或者换个角度问:如果AI编程的终极形态是"说出需求就拿到可运行代码",中间需要经过多少个"先配置MCP再调优Skills"的过渡阶段?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CIPS单日交易量破万亿!人民币国际支付角色加速强化 美元资产避险属性弱化,越来越多的企业广泛使用人民币

CIPS单日交易量破万亿!人民币国际支付角色加速强化 美元资产避险属性弱化,越来越多的企业广泛使用人民币

每日经济新闻
2026-04-10 11:23:10
微信出现这条杠,你被好友移除了

微信出现这条杠,你被好友移除了

小虎新车推荐员
2026-04-09 07:10:55
《王者荣耀世界》陷争议!女角色皮肤被指"太清凉"

《王者荣耀世界》陷争议!女角色皮肤被指"太清凉"

游民星空
2026-04-08 17:20:28
赖清德做梦也想不到,郑丽文只用6天时间,或扭转国民党20年颓势

赖清德做梦也想不到,郑丽文只用6天时间,或扭转国民党20年颓势

叹知
2026-04-10 10:12:15
67岁老头拍裸照威胁26岁卖淫女当情人,女孩找老实人结婚竟杀老头

67岁老头拍裸照威胁26岁卖淫女当情人,女孩找老实人结婚竟杀老头

胖胖侃咖
2026-04-09 15:19:44
网上大量的自媒体,你们已经变成伊朗宣传部中国分部了么?

网上大量的自媒体,你们已经变成伊朗宣传部中国分部了么?

世界圈
2026-04-10 13:15:02
国际原油涨幅扩大 美油涨超7%

国际原油涨幅扩大 美油涨超7%

每日经济新闻
2026-04-09 22:25:09
美宜佳通报处置进展:已与606家加盟商解除合作关系

美宜佳通报处置进展:已与606家加盟商解除合作关系

界面新闻
2026-04-09 16:03:32
有一种眩晕叫做“耳石症”,只要发作,符合这5个特点基本可断定

有一种眩晕叫做“耳石症”,只要发作,符合这5个特点基本可断定

健康之光
2026-04-09 16:25:03
莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

莫言:告诉你一个基本不会得罪人的方法,那就是当别人找你帮忙时,你一定要痛痛快快地拒绝,犹犹豫豫地同意

每日一首古诗词
2026-04-09 06:06:47
陈丽华有三子为何收养王镰?是和迟重瑞一起收养的吗?

陈丽华有三子为何收养王镰?是和迟重瑞一起收养的吗?

据说说娱乐
2026-04-10 12:24:17
飞牛把NAS做成了乐高:136TB+无内存版,玩家自己拼

飞牛把NAS做成了乐高:136TB+无内存版,玩家自己拼

我是一个粉刷匠2
2026-04-10 08:50:31
魔术球迷自曝:我们故意放他刷到50分,2分钟才换他下场

魔术球迷自曝:我们故意放他刷到50分,2分钟才换他下场

热血体育社
2026-04-10 10:02:32
哪个大聪明想出来的,用瓶盖收纳鸡蛋!

哪个大聪明想出来的,用瓶盖收纳鸡蛋!

新住家居
2026-04-09 07:06:35
诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

诈尸了!哈梅内伊死而复生?特朗普大秀军功,伊朗做出了一个举动

嫹笔牂牂
2026-04-08 10:15:22
快船做出本赛季最亏交易?以为用祖巴茨换来小韦德,实际是库明加

快船做出本赛季最亏交易?以为用祖巴茨换来小韦德,实际是库明加

你的篮球频道
2026-04-10 08:19:00
美国被气死,中国高超导弹用水泥造: 想了100种可能都没试过水泥

美国被气死,中国高超导弹用水泥造: 想了100种可能都没试过水泥

探源历史
2026-04-09 14:48:59
“赛博复活”张雪峰引争议 律师:或侵犯人格权等多项权利,不是只有商用才侵权

“赛博复活”张雪峰引争议 律师:或侵犯人格权等多项权利,不是只有商用才侵权

红星新闻
2026-04-09 17:12:20
匈牙利要变天了?欧尔班最后决战48小时,中方布局早已就位

匈牙利要变天了?欧尔班最后决战48小时,中方布局早已就位

新时代精神
2026-04-10 14:45:36
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
2026-04-10 16:00:49
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
1074文章数 10关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

"小镇唯一骑手"月入过万:没人跟他抢单 全镇靠他吃饭

头条要闻

"小镇唯一骑手"月入过万:没人跟他抢单 全镇靠他吃饭

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

游戏
教育
健康
艺术
时尚

全新Demo上线!国产类银《神陨之地》5月发售!

教育要闻

二年级培优,难倒99%的学生

干细胞抗衰4大误区,90%的人都中招

艺术要闻

于小冬2026年4月油画新作《花季》

浪姐7乱成一锅粥,谁都没想到翻红担当竟然是她

无障碍浏览 进入关怀版