网易首页 > 网易号 > 正文 申请入驻

斯坦福大模型推理课免费了,谷歌推理团队创始人主讲

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

干货来了!

如何理解大模型推理能力?现在有来自谷歌DeepMind推理负责人Denny Zhou的分享了。

就是那位和清华姚班马腾宇等人证明了只要思维链足够长,Transformer就能解决任何问题的Google Brain推理团队创建者。

Denny Zhou围绕大模型推理过程和方法,在斯坦福大学CS25上讲了一堂“LLM推理”课。



让我们也来跟着大神学习一下。

有推理过程的答案会让模型更自信

首先,什么是大模型推理呢?

其实就是大语言模型在给出最终答案前的中间思考步骤



比如问

“artificial intelligence”每个单词的最后一个字母连起来是什么?

有推理过程的回答会先分别找出“artificial”的最后一个字母是“l”,“intelligence”的最后一个字母是“e”,再把它们拼接成“le”;而没有推理的就直接给出“le”这个结果。

这种推理过程和人类的思维过程无关,而关键在于生成了大量的中间内容。

那为什么中间思考步骤很重要呢?

一个原因是它可以让复杂问题变得可解

简单来说,对于能用布尔电路解决的问题,假设电路规模是T,哪怕是固定大小的Transformer模型,生成O(T)个中间步骤就能搞定。

但如果跳过中间步骤,直接让模型输出最终答案,要么需要极深的模型层数(增加计算成本),要么根本无法解决。

Denny Zhou和马腾宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果给Transformer引入思维链,就能大大提高模型推理能力。

这篇论文说明了只要引入思维链,那么无需扩展模型的规模就能让Transformer变得强大到能解决任何问题。

理论上来说,只要有足够的CoT步骤,Transformer就可以模拟多项式大小电路可以执行的任何计算,从而缩小了Transformer与图灵机之间的差距。



另一方面是中间步骤可以提升答案的准确性和可靠性

没有推理步骤时,模型可能靠“瞎猜”给出答案。

例如问:

我有3个苹果,爸爸比我多2个,一共多少个?”

直接输出的答案可能是错误的“5个”;

但有推理步骤的回答就是“爸爸有3+2=5个,总共3+5=8个”),答案更可能正确。



这是因为推理步骤迫使模型有理有据地推导,尤其是对需要逻辑链条的问题(如数学、因果分析),减少了随机猜测的概率。

就像做数学题一样,一步步推导可比瞎蒙准确率高多了。

并且,对于有推理过程的答案会让模型更有信心

Denny Zhou还强调预训练模型即使没有经过任何微调,也具备推理能力

只不过,基于推理的输出通常不会出现在输出分布的优先级部分,因此无法通过贪婪解码(选择概率最高的输出)输出。



那么我们如何让它输出推理后的答案呢?

一种方法是提示

既然模型对于有推理过程的答案更有信心,那么我们可以通过思维链提示或者加上提示词来让模型进行推理。

比如思维链提示,你可以给它一个带步骤的例子,给它打个样。或者你可以告诉它:让我们一步步想。

不过,Denny Zhou和Xuezhi Wang在《Chain-of-Thought Reasoning Without Prompting》一文中提出其实不用这些提示,只要改变模型的解码方式,就能让预训练的语言模型展现出推理能力。



原来模型在生成答案时,通常只用最可能的那个词(贪心解码),但如果看看排在后面的几个可能的词(top-k替代词),会发现里面藏着一步步推理的路径。

而且当有这种推理路径时,模型对答案的信心也更高。

于是他们提出了CoT-decoding方法,就是从这些top-k的解码路径中,选出那些有推理过程且模型信心高的路径,这样能让模型在各种推理任务上表现得更好,甚至能接近经过指令微调的模型效果

不过,另一种方法就是监督微调(SFT)

监督微调就是用人类写的带步骤的题和答案训练模型,让模型学着生成类似的步骤。

但这种方法有个问题是泛化性不太好,换个新场景可能就不灵了,而且模型做大了也没用。

于是,研究人员对监督微调进行了改进,一种是自我改进,让模型自己生成步骤和答案,然后用正确的那些训练自己,有点像学生自己做题纠错。

另一种是强化学习微调,反复让模型生成答案,多练正确的,少练错误的。这里面,能判断答案对不对的“验证器”很重要。



现在,强化学习微调已成为了引出推理的最强大的方法。

并且,Denny Zhou认为扩展强化学习应该专注于生成长响应,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》这篇文章中的观点。

另外,进一步的重大改进是聚合和检索的方法

LLM是概率模型,其解码时追求的是在给定问题下推理和最终答案的联合概率最大,而我们想要的是给定问题下最终答案的概率最大,两者并不一致。



于是有了以下改进方法:

  • 边缘化和自一致性:生成多个回答,选择出现最频繁的答案。
  • 通用自一致性:让LLM自己选择最一致的答案,适用于非唯一答案的问题,比如“哪些国家的人比墨西哥人喝咖啡少”。
  • 检索+推理:结合检索和推理的方法,先回忆相关问题,再解决当前问题。比如计算正方形面积的问题,先回忆两点间距离公式,再计算边长,进而得到面积。

最后,Denny Zhou总结了提升LLM推理能力的要点

  • 推理比不推理好
  • 强化学习微调比监督微调好
  • 聚合多个答案比单个答案好
  • 检索+推理比仅推理好



并指出未来的突破方向是解决非唯一可验证答案的任务,以及构建实际应用而非仅解决基准测试问题。

Denny Zhou介绍

Denny Zhou是中科院博士,2017年加入Google前在微软担任了11年的高级研究员。



他创立并领导了Google Brain中的推理团队,Google Brain现已成为Google DeepMind的一部分。

他的研究目标是通过构建具备推理能力的大型语言模型解决人工通用智能(AGI)问题,核心方向包括思维链、自洽性、任务分解、零样本学习、组合泛化及大语言模型理论等,追求实现完美泛化。

在2022年,他荣获谷歌研究技术影响力奖、2022年WSDM时间考验奖等。

近年来,他多次受邀在耶鲁大学、哈佛大学、斯坦福大学等多所高校和机构进行主题为语言模型推理的演讲。

这次Denny Zhou在斯坦福大学CS25课程上用的课件已附在文末~

完整版pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf


[1]https://x.com/denny_zhou/status/1948499173986201915
[2]https://dennyzhou.github.io/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林依轮夫妇西湖边捡无患子,五十多岁状态惊人,手工礼物见真情

林依轮夫妇西湖边捡无患子,五十多岁状态惊人,手工礼物见真情

手工制作阿歼
2026-01-06 12:13:23
1953年彭老总欲实施“一长制”,罗帅当面批评他:你真是老糊涂了

1953年彭老总欲实施“一长制”,罗帅当面批评他:你真是老糊涂了

南书房
2026-01-06 11:50:03
警方深夜突查,徐湖平家搜出床单裹国宝,8800万名画竟贱卖6800元

警方深夜突查,徐湖平家搜出床单裹国宝,8800万名画竟贱卖6800元

深析古今
2026-01-03 13:48:46
广东憾输1分揪出最大祸首,明知此人平庸却偏要用,杜锋错中加错

广东憾输1分揪出最大祸首,明知此人平庸却偏要用,杜锋错中加错

南海浪花
2026-01-05 22:39:17
儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

兴趣知识
2026-01-06 01:52:56
特朗普说委内瑞拉未来30天内不会举行选举

特朗普说委内瑞拉未来30天内不会举行选举

新京报
2026-01-06 11:12:14
末节11+3引一波流!41岁詹皇26+10+6又迎里程碑 湖媒晒纪录赞GOAT

末节11+3引一波流!41岁詹皇26+10+6又迎里程碑 湖媒晒纪录赞GOAT

颜小白的篮球梦
2026-01-05 13:12:37
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

爱吃醋的猫咪
2025-12-27 16:24:13
全球都知道了!国足新帅电话会议忘关麦,球迷炸锅:这届主帅有点甜

全球都知道了!国足新帅电话会议忘关麦,球迷炸锅:这届主帅有点甜

带你逛体坛
2026-01-05 19:35:08
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
中国通告全球:经中央军委批准,全军统一发放预备役人员证

中国通告全球:经中央军委批准,全军统一发放预备役人员证

科技虎虎
2025-11-26 20:47:11
12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

蜉蝣说
2026-01-05 15:00:34
“美国空军几乎关闭了所有飞行跟踪应答器”

“美国空军几乎关闭了所有飞行跟踪应答器”

观察者网
2026-01-03 15:24:05
4人违规穿越小鳌太线失联后续:两人已身亡,一人坠崖正搜救

4人违规穿越小鳌太线失联后续:两人已身亡,一人坠崖正搜救

南方都市报
2026-01-06 09:53:03
催婚界真的出了个天才!网友:催婚催到大动脉了,资金链都断了。

催婚界真的出了个天才!网友:催婚催到大动脉了,资金链都断了。

夜深爱杂谈
2026-01-03 21:52:00
中航沈飞党委书记、董事长纪瑞东:满怀信心夺取“十五五”开局首胜

中航沈飞党委书记、董事长纪瑞东:满怀信心夺取“十五五”开局首胜

证券时报
2026-01-05 06:22:03
临近过年 问界M7遭到大量投诉 销量增多众多问题显现

临近过年 问界M7遭到大量投诉 销量增多众多问题显现

中车网评
2026-01-05 19:23:51
女性的私处哪种形态更好?女性阴部的形状类型有哪些?不妨来了解

女性的私处哪种形态更好?女性阴部的形状类型有哪些?不妨来了解

医者荣耀
2025-12-25 12:05:06
看完电影版《寻秦记》,为古天乐一声叹息!终于理解江华为何拒演

看完电影版《寻秦记》,为古天乐一声叹息!终于理解江华为何拒演

头号电影院
2026-01-05 13:56:04
2026-01-06 13:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
11974文章数 176356关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

头条要闻

邓紫棋的科幻小说"入围"银河奖引热议 其副业不只写作

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

本地
数码
时尚
公开课
军事航空

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

数码要闻

AMD扩充锐龙AI Max+处理器产品线,推出新品Max+ 392 / 388

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版