网易首页 > 网易号 > 正文 申请入驻

斯坦福大模型推理课免费了,谷歌推理团队创始人主讲

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

干货来了!

如何理解大模型推理能力?现在有来自谷歌DeepMind推理负责人Denny Zhou的分享了。

就是那位和清华姚班马腾宇等人证明了只要思维链足够长,Transformer就能解决任何问题的Google Brain推理团队创建者。

Denny Zhou围绕大模型推理过程和方法,在斯坦福大学CS25上讲了一堂“LLM推理”课。

让我们也来跟着大神学习一下。

有推理过程的答案会让模型更自信

首先,什么是大模型推理呢?

其实就是大语言模型在给出最终答案前的中间思考步骤

比如问

“artificial intelligence”每个单词的最后一个字母连起来是什么?

有推理过程的回答会先分别找出“artificial”的最后一个字母是“l”,“intelligence”的最后一个字母是“e”,再把它们拼接成“le”;而没有推理的就直接给出“le”这个结果。

这种推理过程和人类的思维过程无关,而关键在于生成了大量的中间内容。

那为什么中间思考步骤很重要呢?

一个原因是它可以让复杂问题变得可解

简单来说,对于能用布尔电路解决的问题,假设电路规模是T,哪怕是固定大小的Transformer模型,生成O(T)个中间步骤就能搞定。

但如果跳过中间步骤,直接让模型输出最终答案,要么需要极深的模型层数(增加计算成本),要么根本无法解决。

Denny Zhou和马腾宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果给Transformer引入思维链,就能大大提高模型推理能力。

这篇论文说明了只要引入思维链,那么无需扩展模型的规模就能让Transformer变得强大到能解决任何问题。

理论上来说,只要有足够的CoT步骤,Transformer就可以模拟多项式大小电路可以执行的任何计算,从而缩小了Transformer与图灵机之间的差距。

另一方面是中间步骤可以提升答案的准确性和可靠性

没有推理步骤时,模型可能靠“瞎猜”给出答案。

例如问:

我有3个苹果,爸爸比我多2个,一共多少个?”

直接输出的答案可能是错误的“5个”;

但有推理步骤的回答就是“爸爸有3+2=5个,总共3+5=8个”),答案更可能正确。

这是因为推理步骤迫使模型有理有据地推导,尤其是对需要逻辑链条的问题(如数学、因果分析),减少了随机猜测的概率。

就像做数学题一样,一步步推导可比瞎蒙准确率高多了。

并且,对于有推理过程的答案会让模型更有信心

Denny Zhou还强调预训练模型即使没有经过任何微调,也具备推理能力

只不过,基于推理的输出通常不会出现在输出分布的优先级部分,因此无法通过贪婪解码(选择概率最高的输出)输出。

那么我们如何让它输出推理后的答案呢?

一种方法是提示

既然模型对于有推理过程的答案更有信心,那么我们可以通过思维链提示或者加上提示词来让模型进行推理。

比如思维链提示,你可以给它一个带步骤的例子,给它打个样。或者你可以告诉它:让我们一步步想。

不过,Denny Zhou和Xuezhi Wang在《Chain-of-Thought Reasoning Without Prompting》一文中提出其实不用这些提示,只要改变模型的解码方式,就能让预训练的语言模型展现出推理能力。

原来模型在生成答案时,通常只用最可能的那个词(贪心解码),但如果看看排在后面的几个可能的词(top-k替代词),会发现里面藏着一步步推理的路径。

而且当有这种推理路径时,模型对答案的信心也更高。

于是他们提出了CoT-decoding方法,就是从这些top-k的解码路径中,选出那些有推理过程且模型信心高的路径,这样能让模型在各种推理任务上表现得更好,甚至能接近经过指令微调的模型效果

不过,另一种方法就是监督微调(SFT)

监督微调就是用人类写的带步骤的题和答案训练模型,让模型学着生成类似的步骤。

但这种方法有个问题是泛化性不太好,换个新场景可能就不灵了,而且模型做大了也没用。

于是,研究人员对监督微调进行了改进,一种是自我改进,让模型自己生成步骤和答案,然后用正确的那些训练自己,有点像学生自己做题纠错。

另一种是强化学习微调,反复让模型生成答案,多练正确的,少练错误的。这里面,能判断答案对不对的“验证器”很重要。

现在,强化学习微调已成为了引出推理的最强大的方法。

并且,Denny Zhou认为扩展强化学习应该专注于生成长响应,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》这篇文章中的观点。

另外,进一步的重大改进是聚合和检索的方法

LLM是概率模型,其解码时追求的是在给定问题下推理和最终答案的联合概率最大,而我们想要的是给定问题下最终答案的概率最大,两者并不一致。

于是有了以下改进方法:

  • 边缘化和自一致性:生成多个回答,选择出现最频繁的答案。
  • 通用自一致性:让LLM自己选择最一致的答案,适用于非唯一答案的问题,比如“哪些国家的人比墨西哥人喝咖啡少”。
  • 检索+推理:结合检索和推理的方法,先回忆相关问题,再解决当前问题。比如计算正方形面积的问题,先回忆两点间距离公式,再计算边长,进而得到面积。

最后,Denny Zhou总结了提升LLM推理能力的要点

  • 推理比不推理好
  • 强化学习微调比监督微调好
  • 聚合多个答案比单个答案好
  • 检索+推理比仅推理好

并指出未来的突破方向是解决非唯一可验证答案的任务,以及构建实际应用而非仅解决基准测试问题。

Denny Zhou介绍

Denny Zhou是中科院博士,2017年加入Google前在微软担任了11年的高级研究员。

他创立并领导了Google Brain中的推理团队,Google Brain现已成为Google DeepMind的一部分。

他的研究目标是通过构建具备推理能力的大型语言模型解决人工通用智能(AGI)问题,核心方向包括思维链、自洽性、任务分解、零样本学习、组合泛化及大语言模型理论等,追求实现完美泛化。

在2022年,他荣获谷歌研究技术影响力奖、2022年WSDM时间考验奖等。

近年来,他多次受邀在耶鲁大学、哈佛大学、斯坦福大学等多所高校和机构进行主题为语言模型推理的演讲。

这次Denny Zhou在斯坦福大学CS25课程上用的课件已附在文末~

完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf


[1]https://x.com/denny_zhou/status/1948499173986201915
[2]https://dennyzhou.github.io/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华为确实是出现了严重的问题,只是至今官方还没有公开承认

华为确实是出现了严重的问题,只是至今官方还没有公开承认

雪中风车
2026-02-22 20:18:26
英国滑雪协会主席质疑评分体系 称阿特金被严重压分至少应该得银牌

英国滑雪协会主席质疑评分体系 称阿特金被严重压分至少应该得银牌

劲爆体坛
2026-02-23 18:06:02
90后男生上门喂猫,春节前后20多天赚16万,最多1天跑55单只睡3小时,律师提醒:上门喂猫需提前明确责任

90后男生上门喂猫,春节前后20多天赚16万,最多1天跑55单只睡3小时,律师提醒:上门喂猫需提前明确责任

潇湘晨报
2026-02-18 16:28:53
春天,使劲吃这菜,一通便,二利尿,三止咳,教你一个做法

春天,使劲吃这菜,一通便,二利尿,三止咳,教你一个做法

阿龙美食记
2026-02-21 09:17:21
祖巴茨交易赚翻!近三战场均28+7,步行者不要的基石,快船捡宝了

祖巴茨交易赚翻!近三战场均28+7,步行者不要的基石,快船捡宝了

你的篮球频道
2026-02-23 15:31:49
国外记者以为谷爱凌要退役!后者当场回应:绝不会退役,我才22岁

国外记者以为谷爱凌要退役!后者当场回应:绝不会退役,我才22岁

风过乡
2026-02-23 13:31:42
2028年的AI世界:AI在各方面都超出预期,但经济面目全非

2028年的AI世界:AI在各方面都超出预期,但经济面目全非

知识圈
2026-02-23 13:14:49
电饭煲按下去的那一刻,北方的面食时代就结束了

电饭煲按下去的那一刻,北方的面食时代就结束了

富贵说
2026-02-22 21:14:55
美专家罕见达成一致:一旦台湾回归中国,美国可能就剩1条路可走

美专家罕见达成一致:一旦台湾回归中国,美国可能就剩1条路可走

历史有些冷
2026-02-22 18:20:05
八强悬念提前引爆!王曼昱用15分钟让张本美和的欢喜瞬间变心慌

八强悬念提前引爆!王曼昱用15分钟让张本美和的欢喜瞬间变心慌

卿子书
2026-02-23 11:33:58
幽灵一样的墨西哥最大毒枭:在警队全面“黑化”,从牛油果种植户到被悬赏1500万美元

幽灵一样的墨西哥最大毒枭:在警队全面“黑化”,从牛油果种植户到被悬赏1500万美元

红星新闻
2026-02-23 18:39:24
突发!伊朗开始主动出击!

突发!伊朗开始主动出击!

达文西看世界
2026-02-23 15:27:59
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布:中国不再吃亏

说故事的阿袭
2026-02-22 23:04:59
痛心!我使馆确认:失联中国公民在事故中死亡

痛心!我使馆确认:失联中国公民在事故中死亡

环球时报国际
2026-02-23 18:15:45
法国姑娘来中国旅游,回国哭了5天,坦言法国与中国差距一目了然

法国姑娘来中国旅游,回国哭了5天,坦言法国与中国差距一目了然

带你领略快乐真谛
2026-02-23 12:11:50
一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

一个都跑不掉!华为600万年薪高管,带13人偷芯片,如今下场解气

涵豆说娱
2025-11-07 17:47:01
堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

堵疯了!广东进入堵车“炼狱”,20公里走5小时,比蜗牛爬还慢…

火山詩话
2026-02-23 05:58:25
铁饭碗不要了!网传武汉一白富美研究生辞去公职,回家躺平引争议

铁饭碗不要了!网传武汉一白富美研究生辞去公职,回家躺平引争议

火山詩话
2026-02-23 15:36:22
不能令人信服的通报,媒体就别转发了吧!

不能令人信服的通报,媒体就别转发了吧!

林中木白
2026-02-23 12:40:41
别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

别看景区人山人海,仔细一算全是穷游,人均消费露馅,消费降级了

眼光很亮
2026-02-22 10:37:00
2026-02-23 20:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12192文章数 176390关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

郑丽文接受外媒专访:若台海爆发冲突台湾将成最大输家

头条要闻

郑丽文接受外媒专访:若台海爆发冲突台湾将成最大输家

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
健康
旅游
亲子
房产

今年春天一定要拥有的针织,这样穿减龄又好看!

转头就晕的耳石症,能开车上班吗?

旅游要闻

正月初六赴千年之约!广济桥人山人海,美到窒息

亲子要闻

婴儿误吸异物无法呼吸,家长千万保持冷静

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版