网易首页 > 网易号 > 正文 申请入驻

李沐最新演讲:因“恐惧”而创业,我的八个大模型判断

0
分享至

南方财经全媒体记者江月 上海报道

正当杨植麟、王小川、张鹏等“清华系”忙碌于搭建中国版GPT时,毕业于上海交大ACM班的李沐辞去了亚马逊的AI研究工作,也扎进大语言模型(LLM)创业中。

创业后,李沐从社交媒体上消失了整整一年。今年8月,他回到知乎和B站写下了《创业一年,人间三年》,记录他创业第一年的工作。据他说,第一年收入和支出幸运地实现了打平。他又说,接下来更多的公司会在利用LLM降本增效和升级产品上“卷起来”。

正值大语言模型热潮降温,很多人觉得“拿着锤子找钉子”不是一个好迹象——应用没有爆发,再造大模型又有何意义?李沐在这个时候现身,似乎带着一剂强心剂。

李沐的新公司叫Boson AI,他担任CTO(首席技术官),其博士期间的导师Alex Smola担任CEO。Boson是一个物理学概念,指“玻色子”。在量子物理学中,基本粒子被分类为玻色子(Boson)和费米子(Fermion)。也就是说,玻色子和费米子组成了世界。

在未来世界里,人和AI,是否也将是玻色子和费米子的关系?

不过也有人在看了他的自述后,失望地说,一个能给黄仁勋写邮件插队买H100、“偶遇”张一鸣点拨创业思路、在办公室得到蔡浩宇拜访、在斯坦福与宿华散步的人,其经验很难被他人借鉴。

8月23日,李沐回到上海交通大学计算机科学与工程系,面对校友发表了一次演讲。在这次演讲中,他谈到对大模型发展趋势的判断,也再次剖析了自己的创业心路历程,这些内容也许仍有借鉴意义。

自从2004年进入上海交大计算机科学与工程系成为第三届ACM班学子以来,李沐一直头顶着“天才”这顶光环。

他的学业履历相当顺利:在交大7年,获得学士、硕士学位,此后短暂在ACM班学长戴文渊介绍下在百度工作,随后投奔卡内基梅隆大学Alex Smola教授,用五年时间获得博士学位。

他的事业旅程令他名利双收。他在百度、Google Brain、亚马逊先后工作,还与陈天奇等人创建了被广泛使用的深度学习框架MXNet。

为什么选择在2023年创业?他也深知他放弃的是一段更容易的人生道路,而选择创业就是选择经历苦难。李沐讲述了一个关于克服深层次恐惧、用延迟满足说服自己接受苦难、在时间沉淀中去满足深层次欲望的逻辑。

根据李沐的演讲,以下总结了他的八个大模型判断和他的创业心路。为了方便阅读,南方财经全媒体记者对演讲原文进行了整理。

判断一:数据传输速度成为算力的第一瓶颈

我首先来向不熟悉这个领域的人来解释一下大模型,大模型的本质就是深度学习,可以把深度学习比喻成“炼丹”。炼丹就是把一堆材料填进一个炉子,依据一个丹方炼出我想要的丹药来。深度学习是把一堆数据喂进一个设备,依据一个算法得出我想要的模型。

设备,或者说算力,得到了产业界投入的大量精力。芯片设计厂商依据摩尔定律,每年把晶体管缩小一半,又增加带宽,把一根光纤传输的数据量翻倍。

但在我看来,数据传输回归到了一些肉眼可以看到的问题上。说白了,我们所做的是把这些芯片尽量压缩在一个最小的空间里。

很多人可能没有看过GPU,GPU其实都放在很高的机架上,层层堆叠。但这样做有个坏处,就是散热不好,空调是不足以给他们降温的,所以现在用上了水冷设备,用高比热容的水来快速散热。

大家可能觉得,光纤用光速传输数据,已经够快的了吧?但在我们看来,一个房间之隔的距离就能带来光纤传输上几个纳秒的延迟,这非常不能忍。所以我们要把光纤缩短,能用一米长绝不用两米。

判断二:内存成为算力上限的制约因素

光有算力其实是不够的,在现代计算系统中,算力越高,所需要的存储空间也越大,所以后者会制约前者的上限。

对于大语言模型而言,它们需要将庞大的数据集压缩并嵌入到模型中,这就要求硬件上具备足够大的内存来存储这些数据和中间计算结果。然而,内存的物理空间是有限的,如果内存需求过大,可能会在有限的芯片面积上牺牲其他重要组件。

在芯片设计中,内存占用的面积是一个关键考虑因素。随着内存容量的增加,可能会减少芯片上可用的计算单元数量,进而影响整体性能。此外,内存的增加也会带来成本上升和散热问题。因此,芯片设计需要在内存容量、计算能力和成本效益之间做出平衡。

我预计,如果半导体制造工艺没有实质性的突破,例如在晶体管尺寸缩小和三维集成方面的进步,那么单个芯片的存储容量可能会受到限制。具体来说,如果工艺限制导致内存容量难以大幅提升,那么模型的大小和复杂度也会在一定程度上受限,这可能会限制在单个芯片上实现超大型模型的能力。这就需要通过系统架构设计,如多芯片模块或分布式计算系统,来扩展计算和存储能力,以满足大模型的需求。

判断三:电力成本越来越凸显

当算力需求达到一定规模时,供电成本确实成为了一个必须精打细算的关键因素。

我甚至要考虑自行建立发电厂以降低长期成本,因为1000块芯片的耗电量可达一兆瓦,这种规模的能耗可能超过一个校园的总电量需求 。

判断四:未来,训练大模型的价值会逐年减半

近年来,算力芯片设计商英伟达获得了垄断地位,导致算力芯片价格成了训练大模型的主要成本之一。短期来看,算力每一次翻倍,价格都会有1.4倍的提升。目前,做推理的芯片可能还有多个品牌选择,但做训练的芯片门槛还比较高,市场选择并不多。

可是在过去很长的一段时间里,在充分竞争的市场里,算力芯片维持了性能翻倍、价格不变的态势。长期看来,我认为市场还是会逐步变得有充分竞争。

我的结论是,在未来,训练大模型的价值会逐年减半。这给我带来的思索是,不要去追逐模型的大小,要更多思考模型能带来什么价值,把这作为你的战略考量。

判断五:10T到50T是大模型可用的参数规模上限

虽然人类历史产生的数据远远不止50T token,但超过这个规模的数据质量并不一定能给大模型带来更好的提升。我认为大模型的可用参数规模会在10万亿到50万亿token之间,也许你能获得更多数据,但通过清洗后会回归到这个数值范围。

就目前的尺寸而言,大模型预训练参数量应该在100B到500B token之间,超过500B不是说训练不动,而是做部署会很难。在Google历史上,它没有真的上线过超过500B的模型。在未来一段时间,受限于数据,我认为100B到500B会是大模型的主流尺寸。

判断六:人机交互模式会发生改变

在ChatGPT出现之前,我们的人机交互模式是点按钮。不过,点按钮只能满足你80%的需求。

其实点按钮是一个将需求标准化的程序,将一个需求做成了一个按钮(窗口)在那里,但未来,人机交互的目标是实现你更定制化的需求。

如果想实现更精确的需求,长文本、语音会发挥作用。原始的语音信号其实包含很多文本无法覆盖的信息,比如说情绪、方言、性格。语音方面的延迟已经控制在300毫秒以内,可以做到交流不被打断的程度,视频方面我觉得发展还没有那么快。

判断七:垂直模型是个伪命题

很多人都提出要建立垂直模型来解决特定领域的问题,但经过我们长时间的研究,发现这是一个伪命题。

我们的实践发现,如果一个模型要在知识面评测上赢过通用模型,首先要在通用智能的评测上和通用模型几乎打平。

判断八:预训练不再是技术问题,而是工程问题

两年前,预训练是技术问题,两年后的今天,它已经是工程问题,而后训练才是技术问题。对于后训练,高质量的数据和改进的算法能够极大地提升模型效果。高质量的数据一定是结构化的,并且与应用场景高度相关,以保证数据的多样性和实用性。

做大语言模型的研究,你可以不去做预训练,你就做后面的一部分,因为后面部分其实对大家有利的。前面变成了一个工程问题,需要很多卡,很多人来完成,后面才是算法创新。

我认为数据决定了模型的上限,而算法决定了模型的下限。如果你想要让模型在某个地方做得好,首先要把这一块的数据准备好,大家应该把80%的时间放在数据上。

以下有关我的人生选择和创业:

我自己是有“打卡”一般的人生,此前的人生履历一直都还不错。

不过,不管读博士还是打工,都是一个相对简单的关系。公司从最上层把世界的复杂关系抽象成简单任务,一层一层落实下来,越到下面你越是螺丝钉。螺丝钉的工作就是去对应一个螺母钉上去就行了,你不需要去管那个机器有多复杂、外面世界有多复杂。

如果你在这个简化的世界待久了,你会忘了你的人生动机。

其实人生动机是由你深层次的恐惧激发出来的。如果你仔细想,你会知道内心有一些特别不愿意分享出来的事情,很多时候我们都选择逃避。我们能满足的是自己浅层的欲望,但这种深层次的恐惧,很少有人能直面。

我的深层次恐惧是什么?很小的时候,我就曾经恐惧人生意义消逝。现在我要直面这种恐惧,我选择把这种恐惧转换成一个向上的动机。

我想选择直面复杂的社会,没有人帮我做抽象,我要去自己把这个社会理解清楚,然后快速学习复杂的环境,自己把一些复杂的事情做抽象。

创业真是最好的经历苦难的办法,我拥有了“婴儿般的睡眠”,每三小时醒一次。

我问了很多人,你们创业的时候是怎么熬过来的,后来总结的核心是延迟满足。工作的话,我今天的工作明天就能得到肯定;读phD的话,需要三年,我才能得到学术成果。创业,我需要更耐心的等待。

这真是一个最好的时代,新的技术带来了新的机会,语言模型对社会的影响将会很大。这也是一个最坏的时代,我知道我需要付出的东西比以往任何时候都要更多。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
银杏的铁律太难了,男人睡过的女人越多,就越不在乎女人,女人睡

银杏的铁律太难了,男人睡过的女人越多,就越不在乎女人,女人睡

风起见你
2026-01-21 13:58:40
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
评论 | 密切关注:中印近期隔空交锋下的克勒青河谷!

评论 | 密切关注:中印近期隔空交锋下的克勒青河谷!

南亚研究通讯
2026-01-21 23:13:28
卖给越南一度电三四毛惹争议

卖给越南一度电三四毛惹争议

辣条叨叨叨
2025-12-29 02:52:56
联合国就伊朗抗议被镇压紧急召开会议,中国未支持

联合国就伊朗抗议被镇压紧急召开会议,中国未支持

桂系007
2026-01-22 04:07:35
曼联内部讨论回购格林伍德,同时希望留住B费

曼联内部讨论回购格林伍德,同时希望留住B费

乐道足球
2026-01-22 19:53:31
约旦、阿联酋、印尼、巴基斯坦、土耳其、沙特、卡塔尔、埃及发表联合声明!普京表态

约旦、阿联酋、印尼、巴基斯坦、土耳其、沙特、卡塔尔、埃及发表联合声明!普京表态

每日经济新闻
2026-01-22 07:35:15
小米汽车再出重大事故,官方回应来了

小米汽车再出重大事故,官方回应来了

电商派Pro
2026-01-21 17:41:23
网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

映射生活的身影
2026-01-21 16:41:27
给大家发钱了,退休人员养老金提高2%,企业、个人都有贴息福利

给大家发钱了,退休人员养老金提高2%,企业、个人都有贴息福利

恪守原则和底线
2026-01-22 06:05:05
安东尼奥看人真准!弃用2大国脚后,中国队成夺冠热门

安东尼奥看人真准!弃用2大国脚后,中国队成夺冠热门

何老师呀
2026-01-22 23:11:08
“国民神车”连续两个月 0 销量之后,搞了个骚操作

“国民神车”连续两个月 0 销量之后,搞了个骚操作

蓝字计划
2026-01-20 15:13:01
同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

同样是不敌中国队,看看澳大利亚、乌兹别克斯坦、越南都怎么说

不写散文诗
2026-01-22 19:44:04
贝克汉姆亲家的继承之战!10个子女17亿家产,妮可拉分不到多少钱

贝克汉姆亲家的继承之战!10个子女17亿家产,妮可拉分不到多少钱

有范又有料
2026-01-21 17:53:26
春晚女星离世十年,56岁异国逝世前吐露一生遗憾

春晚女星离世十年,56岁异国逝世前吐露一生遗憾

倔强的毛驴
2026-01-21 22:30:59
“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

每日经济新闻
2026-01-22 15:35:19
叶珂带娃直播崩溃!女儿哭到捂耳朵,奶奶只认小海绵,黄晓明真没用

叶珂带娃直播崩溃!女儿哭到捂耳朵,奶奶只认小海绵,黄晓明真没用

八星人
2026-01-22 11:29:51
嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

古希腊掌管月桂的神
2026-01-21 15:21:20
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
眼神给出去刷屏,“性商教母”捞金超2400万元,谁在为“性商”课程买单?

眼神给出去刷屏,“性商教母”捞金超2400万元,谁在为“性商”课程买单?

新民周刊
2026-01-22 18:24:18
2026-01-23 01:16:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
230119文章数 743595关注度
往期回顾 全部

财经要闻

西贝拿到“救命钱”,然后呢

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

头条要闻

猝死程序员底薪3千24小时待命 公司前三季度营收180亿

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

手机
旅游
本地
教育
公开课

手机要闻

20周年版iPhone或依然难以实现“真全面屏”设计

旅游要闻

广货行天下!从一粒米到一桌年味,广东文旅的“带货”新玩法

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

教育要闻

32岁程序员倒在客厅:请告诉孩子,这3条底线比考满分重要!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版