网易首页 > 网易号 > 正文 申请入驻

李沐重返母校,上交大秒变追星现场,大模型趋势无保留分享

0
分享至

金磊 假装发自 上交大
量子位 | 公众号 QbitAI

什么是顶流?

AI大神李沐回母校做演讲,直接让上交大变成了大型追星现场——

现场可谓是人人从从众众,先来感受一下这个feel:

正式演讲前的场外已经是排起了大长龙,现场更是座无虚席。

即便是演讲结束,李沐老师也是被热情的上交大学子围得里三层外三层

许多学生更是把经典的《动手学深度学习》这本书拿了过来让李沐老师签名

如此场景,甚至上交大计算机科学与工程系教授俞勇都在朋友圈发出了这样的感慨:

第一次亲眼看到追“星”的盛况。

△图源:俞勇教授朋友圈,已授权

对此,李沐老师也回应俞勇老师:

母校老师同学太热情了。

而李沐老师此次回母校的演讲,归结两个关键词,就是LLM趋势个人职业选择

△图源:小红书用户“昭曦”

尤其是正值李沐老师创业一年半(BosonAI)之际,他在现场基于自己的经历,总结了三个不同阶段中“每天在想的基本目标”:

  • 大公司:你要想如何升职加薪
  • 博士:你要想如何毕业
  • 创业:你要想如何“退出”(要么上市,要么卖掉)

△图源:B站用户“Kimoyee”

金句之多,内容之精彩,引得在场师生掌声、笑声,声声不断。

那么李沐老师具体都讲了什么?我们继续往下看。

(PS:完整演讲视频见文末)

谈LLM趋势

首先对于LLM的整体构成,李沐认为主要分为三大方面,分别是数据算力算法

而整个LLM的过程非常像炼丹,“数据”就是找材料的环节。

就好比小说里很多主角去深山里找材料一样,搞数据是个很难的过程,是个体力活。

之后的“算力”就是炼“数据”,火量大一点、设备先进一点,能炼出来的东西就越好。

至于“算法”就相当于丹方,但这点与小说是不同的,因为它每年都在快速进步、变化,并且对细节的把控显得格外重要。

对于LLM与上一次深度学习较大的区别,李沐认为:

之前的深度学习“炼丹”是比较稳定的。
但现在LLM“炼丹”,(开发者或用户)是希望有灵魂在里面的,它能够解决很多问题。

接下来,李沐便针对上述的三大方面进行了详细的讲解。

在LLM硬件方面,李沐认为最难且最重要的是带宽(bandwidth)。

这是因为现在大模型的训练很难通过一个机器来搞定,而要做分布式,那么瓶颈就会出现在带宽上了。

毕竟现在基本上都会是多个服务器机架甚至是集群,即便两个机架间隔1米,但由此带来的哪怕几纳秒的延迟也是不能忍的。

带宽之后,LLM硬件难点便是内存(Memory)。

大模型在训练过程中,是把超大的数据压缩到了一起,使得模型的体量动辄便是几百个G,运行时的中间变量也会变得很大,因此需要很大的内存:

在未来,很有可能一个200G内存的芯片是走不动的。
这就意味着我们的模型大小一定程度上会被受限在某个尺寸;内存不够,模型就大不了。

在带宽、内存之后,便来到了算力(Compute),对此,李沐认为:

摩尔定律依旧有效。

而模型到了一定尺寸之后,资源(Resources)又成了问题,也就是供电。

李沐基于自身经验分享到,发现自己造一个电厂,比付电费的成本要低。

至于价格,当算力翻倍的时候,价格目前不一定会保持不变,可能是1.4倍的价格;但当市场竞争足够,长期来看可以做到价格不变。

至于芯片的替代品(Alternatives),李沐认为谷歌的TPU、英特尔的Habana、AMD和Azure的芯片在做推理时是OK的;但训练方面,可能还需要几年的时间。

李沐在此做了个小总结:

模型训练每年会以2倍的速度变得更便宜、更快、更大。
今年训练的大模型,到明年的价值就会减半。

模型方面,李沐从语言(Language)、语音(Voice)、音乐(Music)、图像(Image)和视频(Video)等不同模态方面做了介绍,并认为多模态是当下的一个趋势。

李沐还给目前不同模态的现状打了个分:

  • 语言模型:80-85分左右,目前是gets good的状态。
  • 音频模型:70-80分左右,目前是good enough的状态。
  • 视频模型:目前还是比较弱的。

基于此,李沐给出了一个推论:

在长文本上的人机交互变得越发流行。

至于大模型的应用(Applicaitions),李沐认为它们本质应该是可以为用户提供无限的人力资源

而这些应用目前在白领和蓝领职场上“上岗”或“协作”的效果如何,李沐做了个表格。

从结果上来看,只有白领、文科属性的简单工作是hold得住的。

对于应用的总结,李沐认为:

只要数据足够,万物即可被自动化。

基于李沐创业一年半的经历,他也分享了几点技术上的思考。

首先,预训练(pre-training)和后训练(post-training)是同等重要的。

其次,没有真正的垂直领域模型;再垂直的模型,它的通用能力也是差不了的。

以及,在大模型评测方面,李沐认为现在的评测太简单了,即使各种刷榜,但用起来的时候就能感受到真实效果。

因此他认为评测这件事虽然很重要,但真正做起来却很难。

除此之外,李沐还分享了几个观点:

  • 数据定义了大模型的能力上限
  • 自建GPU不会比租GPU便宜太多
  • 大部分机器学习时代的经验,依旧适用于大模型时代

而除了技术之外,李沐在这次演讲中也给上交大的师生们分享了自己在职场上的心得。

谈个人“打卡式人生”

了解李沐的人或许对他的个人经历比较熟知了。

本科和研究生就读于上海交通大学,而后赴香港科技大学和CMU深造,在伯克利和斯坦福担任助理教授。

也曾任职于百度和亚马逊等科技大厂,最近的一年半则是创业BosonAI(第二次创业)。

李沐回顾自己的过往,在现场戏称为“打卡式人生”——什么样的地方都转过了一遍了。

那么李沐在经历了种种之后,是一种什么体验?

这也正是我们文章开头提到的“每天在想的基本目标”(精彩的内容必须再提一遍):

  • 大公司:你要想如何升职加薪
  • 博士:你要想如何毕业
  • 创业:你要想如何“退出”(要么上市,要么卖掉)

基于这三个大方面,李沐基于自己的经验,将各自阶段的优点缺点罗列了出来。

例如对于“打工人”这个角色,李沐的PPT刚出来,上交大的学子们便笑了出来:

读博士期间的优点和缺点是这样的:

聊到创业的优点,李沐形象地将这个过程比喻为:

可以体验当(合法)海盗的乐趣,哪儿有钱就去抢一把,没抢到就死掉了。

但李沐此次演讲的两个大part并非是割裂的,相反,是可以非常自然的做一个“有机结合”

他认为应该从“动机”出发去解决一个问题:

  • 有学术价值:那就去做对LLM的理解(PhD/教职)
  • 有商业价值:那就去做LLM上的新应用(创业)
  • 有成长价值:那就去做LMM上的产品落地(打工人)

最后,李沐老师也给了上交大学生一点Tips:

而谈到创业归来,就在前几天,李沐在知乎写的一篇文章《创业一年,人间三年》非常火爆。

不仅是李沐自述了创业一年来的进展,也在三言两语之间,展现了大佬创业的势能——

一开始没打算直接做大模型,但张一鸣建议要创业就直接大模型;买卡需要排队等不及只好给老黄写信,没想到老黄就给安排了;刚创业做游戏的“老蔡”就来交流过了——米哈游那个老蔡;在斯坦福和快手创始人宿华散步,感叹创业心得……

总之,千字短文,但细节之精彩,故事之有趣,值得多读几遍:

《创业一年,人间三年》

https://mp.weixin.qq.com/s/0JSbU4hvr_zrWIjbPV7FXA

One More Thing

目前已经有B站网友Kimoyee将李沐老师此次的演讲视频上传,感兴趣的小伙伴们可以文末链接“深度学习”下哦~

参考链接:
[1]https://www.xiaohongshu.com/explore/66c926d9000000001f01929c
[2]https://www.xiaohongshu.com/explore/66c81dd5000000001f014761
[3]https://www.bilibili.com/video/BV1vBWDepECq/?spm_id_from=333.337.search-card.all.click

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南方航空:经核实,涉事人员非我司“空姐”

南方航空:经核实,涉事人员非我司“空姐”

澎湃新闻
2026-04-23 14:53:08
最高可判死罪,奥巴马结局已定?美国司法部介入,特朗普开始收网

最高可判死罪,奥巴马结局已定?美国司法部介入,特朗普开始收网

生活魔术专家
2026-04-23 21:34:48
无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
悲喜夜!拜仁2-0晋级决赛,曼城超阿森纳登顶,巴萨17连胜领跑

悲喜夜!拜仁2-0晋级决赛,曼城超阿森纳登顶,巴萨17连胜领跑

钉钉陌上花开
2026-04-23 05:50:58
再次拿到倒数第一,这个北方大省决心“翻身”

再次拿到倒数第一,这个北方大省决心“翻身”

每日经济新闻
2026-04-22 23:48:09
嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

梦想总会变成真
2026-04-23 01:11:47
老兵更新动态,保安被辞退处境堪忧,老兵一番话让保安无地自容

老兵更新动态,保安被辞退处境堪忧,老兵一番话让保安无地自容

离离言几许
2026-04-23 07:41:27
斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

懂球帝
2026-04-23 12:07:03
人民日报发文,揭张桂梅真实现状,卸任华坪女高校长传闻早有真相

人民日报发文,揭张桂梅真实现状,卸任华坪女高校长传闻早有真相

岁暮的归南山
2026-04-23 16:31:58
放弃世乒赛后 樊振东首次发文:人性尺度不同 勇于发问的人太稀缺

放弃世乒赛后 樊振东首次发文:人性尺度不同 勇于发问的人太稀缺

念洲
2026-04-23 06:04:23
中国空军才是最可怕的?2场空战让美军意识到,中国比想象的强大

中国空军才是最可怕的?2场空战让美军意识到,中国比想象的强大

至死不渝的爱情
2026-04-23 21:45:22
最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

起喜电影
2026-04-23 18:51:03
张雪遗憾落败仅4天,人民日报发文,没有夸赞,却让张雪口碑暴涨

张雪遗憾落败仅4天,人民日报发文,没有夸赞,却让张雪口碑暴涨

老吴教育课堂
2026-04-23 18:58:07
国内油价大幅下调!4月24日柴油汽油价格,5月油价调整将迎大逆转

国内油价大幅下调!4月24日柴油汽油价格,5月油价调整将迎大逆转

有料财经
2026-04-23 22:23:19
终于妥协认输称无条件交出全部浓缩铀:早知今日何必当初?

终于妥协认输称无条件交出全部浓缩铀:早知今日何必当初?

朗威谈星座
2026-04-23 18:56:49
继人民日报发声后,官媒再次三问董宇辉,言辞犀利,字字揭他老底

继人民日报发声后,官媒再次三问董宇辉,言辞犀利,字字揭他老底

离离言几许
2026-04-23 20:04:00
震惊!徐向前揭露西安事变背后的惊天秘密!

震惊!徐向前揭露西安事变背后的惊天秘密!

鉴史录
2026-04-23 00:15:03
拍《风云》时,导演为省钱给江祖平戴了条绳,竟撑起一个时代审美

拍《风云》时,导演为省钱给江祖平戴了条绳,竟撑起一个时代审美

萧狡科普解说
2026-04-23 06:09:07
警报拉响!英超降级格局初定,热刺和西汉姆联谁能逃过最后一劫?

警报拉响!英超降级格局初定,热刺和西汉姆联谁能逃过最后一劫?

田先生篮球
2026-04-23 10:07:58
不插电、没绿牌!被抛弃的HEV,2026即将席卷全球?

不插电、没绿牌!被抛弃的HEV,2026即将席卷全球?

新浪财经
2026-04-21 04:53:23
2026-04-24 01:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12524文章数 176457关注度
往期回顾 全部

教育要闻

2026 THE最新大学排名发布:清华第一、北大第二

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

头条要闻

媒体:海军宣传片出现的"新兵何剑" 传递了巨大信息量

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

普华永道赔偿10亿 恒大股东见到"回头钱"

科技要闻

马斯克喊出"史上最大产品",但量产难预测

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

家居
健康
教育
手机
公开课

家居要闻

浪漫协奏 法式风格

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

家长让老师给发电子版试卷,却被老师指责派头大,到底谁的问题?

手机要闻

vivo X500 Pro Max被曝光:2nm工艺+5GHz,2K直屏九月发!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版