网易首页 > 网易号 > 正文 申请入驻

OpenAI把"思考"藏了3年,用户扒出137个隐藏步骤

0
分享至


大模型回复你之前,屏幕上那个"正在思考..."的动画,到底在演什么?

Google最新放出的技术文档,把这事说透了。不是玄学,是数学。不是意识,是奖励函数。

RLVR:让模型自己给自己打分

传统训练像填鸭式教育——人类标注员逐句纠错,成本高到离谱。Google工程师换了个思路:让模型自己判断答案对不对

这叫RLVR(Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习)。数学题有标准答案,代码能跑通测试,这些"可验证任务"不需要人类插手。

模型生成100个解题思路,对的加分,错的扣分。反复迭代后,它学会了"先验算再交卷"——这就是你看到的"思考"过程。

Google AI Studio的实验数据显示,用RLVR训练的Gemini模型,在数学竞赛题上的准确率提升了23%。不是靠死记硬背,是靠试错堆出来的策略。

思维链:把草稿纸摊给你看

早期大模型像闭卷考试的学生,答案直接蹦出来。现在它们学会了展示推导过程——这叫思维链(Chain-of-Thought)。

但展示多少、怎么展示,是门生意。Anthropic去年被用户扒出:Claude的思考过程里藏着137个隐藏token,涉及"用户可能想骗我"之类的自我修正。OpenAI更绝,o1模型的完整思维链根本不对外显示,只给你一个删减版摘要。

Google这次选择全量开放。在AI Studio里,你能看到Gemini从"这题好像要开平方"到"等等,平方根有正负两个"的完整纠结。这种透明不是做慈善,是为了让开发者能针对性优化提示词。

从"会做题"到"会建网站"

Google AI Studio的新功能把这种能力产品化了。输入一句"做个能识别猫狗品种的网页",系统会自动拆解:需要上传组件、需要调视觉模型、需要展示结果页面。

背后是Gemini的多模态能力在调度——它不是在写代码,是在规划一个微型软件项目。Cloud Run Jobs提供的NVIDIA RTX 6000 Pro算力,让 fine-tuning(微调)能在服务器端跑完,不用你本地配环境。

一个细节:GKE(Google Kubernetes Engine)上的Agent Sandbox支持Pod Snapshots,意思是AI代理执行到一半可以"存档",出错时从检查点恢复,而不是从头再来。这对长流程任务很关键,比如批量处理上千张图片的分类。

谁还在隐藏,谁选择摊牌

行业正在分化。OpenAI把思考过程锁进黑箱,卖的是"结果正确率";Google把推导步骤摊开,赌的是"开发者会基于此造出更好的东西"。

两种路线没有高下,只有取舍。但一个信号很明显:Google在AI Studio里埋了"Builder Badge"(开发者徽章)体系,完成RLVR实验、部署首个应用、调试多模态模型,都能解锁成就。这是产品经理熟悉的增长套路——用进度条把技术门槛翻译成游戏感。

用户评论区有人问了个扎心的:如果模型思考时已经意识到"用户在引导我说错话",它该诚实展示这段自我怀疑,还是假装没发生?

Google文档里没写答案。目前所有"思考"展示都是可配置的——开发者能决定让AI透明到什么程度。这个开关本身,可能比AI的思考内容更值得盯着。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列解除紧急状态,内塔尼亚胡腐败案定于12日恢复审理,若受贿罪名成立或面临最高10年监禁

以色列解除紧急状态,内塔尼亚胡腐败案定于12日恢复审理,若受贿罪名成立或面临最高10年监禁

每日经济新闻
2026-04-12 20:42:30
泽连斯基:不入北约、不进欧盟、不驻外军皆可谈,只一原则不退让

泽连斯基:不入北约、不进欧盟、不驻外军皆可谈,只一原则不退让

z千年历史老号
2026-04-12 15:15:06
横山勇致命误判,低估陈诚援军,最终10万日军栽在74军手里

横山勇致命误判,低估陈诚援军,最终10万日军栽在74军手里

浩渺青史
2026-04-12 16:48:00
湖人首轮对火箭,乌度卡谈老詹摊牌!雷迪克认清现实,两人成关键

湖人首轮对火箭,乌度卡谈老詹摊牌!雷迪克认清现实,两人成关键

鱼崖大话篮球
2026-04-13 12:01:21
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
胜爵士采访!雷迪克展望打火箭直指詹姆斯伟大,斯玛特表明态度!

胜爵士采访!雷迪克展望打火箭直指詹姆斯伟大,斯玛特表明态度!

篮球资讯达人
2026-04-13 12:29:24
公然碰中国红线?美以炸一带一路咽喉!双保险告急,伊朗万弹齐发

公然碰中国红线?美以炸一带一路咽喉!双保险告急,伊朗万弹齐发

万物知识圈
2026-04-13 10:03:38
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
英超变天!阿森纳夺冠概率跌至56% 遭曼城逼近 近4成可能赛季0冠

英超变天!阿森纳夺冠概率跌至56% 遭曼城逼近 近4成可能赛季0冠

我爱英超
2026-04-13 06:50:05
匈牙利蒂萨党在国会选举中获胜

匈牙利蒂萨党在国会选举中获胜

每日经济新闻
2026-04-13 07:39:20
皇上请弟弟吃饭,倒杯毒酒说:祝弟弟活千岁,弟弟一句话保住了命

皇上请弟弟吃饭,倒杯毒酒说:祝弟弟活千岁,弟弟一句话保住了命

鹤羽说个事
2026-04-11 22:19:51
直到看完火箭132:101大胜灰熊的比赛,我明白了三个无争的事实!

直到看完火箭132:101大胜灰熊的比赛,我明白了三个无争的事实!

田先生篮球
2026-04-13 11:46:35
白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

白天作陪晚上同宿?明码标价8000一回!高端伴游沦为色情交易窝点

网络易不易
2026-01-20 10:17:46
不如国乒团结!日本世乒赛前内讧 张本智和:松岛辉空是我的威胁

不如国乒团结!日本世乒赛前内讧 张本智和:松岛辉空是我的威胁

念洲
2026-04-13 08:51:46
61岁刘嘉玲现身北京商场,生图脸肿鼻孔放大,苹果肌高耸撞脸蔡明

61岁刘嘉玲现身北京商场,生图脸肿鼻孔放大,苹果肌高耸撞脸蔡明

一娱三分地
2026-04-10 16:25:21
单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

单程决死突击!伊朗飞行员壮烈牺牲,炸翻美司令部,换掉3架美机

荷兰豆爱健康
2026-04-12 18:19:03
伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

伊朗用血泪换来的教训:一旦中美开战,中国必须首先锁定这一点

福建睿平
2026-04-13 10:58:58
头很硬!掘金128-118马刺:KD笑了,火箭躲过一劫!

头很硬!掘金128-118马刺:KD笑了,火箭躲过一劫!

运筹帷幄的篮球
2026-04-13 10:58:55
全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

全红婵后续:香港媒体爆料,广东体委撑腰,沪圈京圈打压穷孩子!

眼光很亮
2026-04-10 14:29:21
孙俪的“上海小院”火了,院里种菜晒衣服养狗,满满都是生活气

孙俪的“上海小院”火了,院里种菜晒衣服养狗,满满都是生活气

TVB的四小花
2026-04-13 09:35:05
2026-04-13 12:47:00
固件更新中
固件更新中
有态度网友ytd
1692文章数 16关注度
往期回顾 全部

科技要闻

传荣耀与字节跳动接洽“豆包手机”合作

头条要闻

男子尾随并盗走取款人车内40万 撞开警车拒捕潜入深山

头条要闻

男子尾随并盗走取款人车内40万 撞开警车拒捕潜入深山

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

封锁,还是收费站?

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

时尚
本地
旅游
游戏
教育

这些才是普通人借鉴的穿搭!上短下长、上窄下宽,显瘦又舒适

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

无棣:夜色点亮古城 烟火气里激活消费新动能

小岛秀夫谍战新作细节曝光!原型麦子叔 最早2030年

教育要闻

发音不准或引发的自信危机与应对措施

无障碍浏览 进入关怀版