网易首页 > 网易号 > 正文 申请入驻

李沐:大模型发展趋势与个人职业选择

0
分享至

思源Source报道

编辑:seefun

2024.8.23,李沐学长回交大讲座纪要。 李沐学长在讲座中介绍了大语言模型的发展趋势,创业Boson.AI的心得体会,以及个人职业选择(PhD,打工 or 创业)

李沐学长在今天上海交通大学的讲座上,分享了过去两年在大语言模型训练、部署、产品化、和基础架构上的一些实际经验,对大语言模型未来趋势做一些预测,以及个人职业生涯选择上的一些建议;

大语言模型

与传统AI一样,LLM(大语言模型)的三大基础依然是:算力,数据,算法

从硬件上看,摩尔定律依然活着。带宽和存储的增长或许逼近极限,但更低bit数据格式带来了更大的通量和更快的速度。由于显卡规模的增大,水冷散热变得非常必要。由于大语言模型火热带来的高溢价,和老黄关系再好,也不得不加价买卡。新卡每年性能翻倍,但价格是原先的1.4倍。但长期看算力依然是越来越便宜。各种厂商AI加速卡很多,但大多只在推理阶段还算OK,nVIDIA依然垄断了大模型的训练阶段的算力,短期很难找到替代品。

长期看算力的持续贬值,大模型训练成本也会不断下降,所以大模型本身也不是一个能保值的东西,价值会随着时间降低,也某种意义上受摩尔定律的影响。

10-50T token的预训练数据规模已经接近极限(因为全人类的知识量有限,当前数据质量的提升比数量提升更重要);由于硬件和数据瓶颈,大模型的激活参数在 500B 可能是极限,100-500B 的大模型会是未来主流的大小。

End-to-end和多模态是当前大模型的趋势。由于文本是信息密度最高的,也是最容易获得的。通过文本模型的泛化能力,用文本模态作为多个模态中介是一个很好的方案。

在人机交互产品设计方面,对于单一的简单操作,比如关窗户,用户更倾向于手动点一下按钮,可能会觉得和大模型交互不是那么有意义。而对于一些复杂的任务则并非如此,需要按一系列条件执行一系列任务,交给大模型则更为省事。但长文本的prompt控制也远不如直接说话方便,使用语音更符合用户习惯。

模型层面,语言模态已经比较成熟,能给个80-85分;语音(audio)则是勉强可用,70-80分水平,而视觉(video)则比较薄弱,大概只能给个50分。

应用层面,数据越多的领域,就越能被自动化。当前大模型在简单的文科任务上已经能很好地代替人类。因为文科任务是最能简单快速采集大量数据的。在简单理科任务和复杂文科任务上能力正在突破。而当前想要替代蓝领,还非常遥远。工厂需要投放大量传感器,做好数字化基础设施建设,数据收集和整理方案成熟起来,才有大模型落地的希望。而这一切当前看来还很难,但一旦实现就会是重大变革。

我们在创业中学到了什么?高质量数据和后训练算法的创新,对行业大模型的提升很大。OpenAI的RLHF有点牵强,(RL)这套技术很原始。Llama标数据据说花了5000w美金,和内部人士聊过,感觉数据没标好,算法也没花太多时间,所以开源的Llama还有很大提升空间。

对于不一样的数据,不一样的目标函数,针对性做研发是有意义的。

之前的机器学习范式:先做好Evaluation(评估),再去做其他事情。自然语言非常难评估,但是也非常关键。LLM本质还是ML(机器学习),都吃数据,都需要很好的评估方法,特点都是一致的。

自建GPU集群不会比租便宜很多,利润大头都被nv吃掉了。

职业规划建议

沐神兜兜转转,什么地方都去过,无论是学校,大公司还是创业。在交大6年读完本硕,CMU读了5年PhD,也还在港科有2年科研助理经历。也去过UCB和斯坦福做过访问学者。大厂在百度待过2年(首席架构师),在亚马逊待过7年(资深首席科学家)。加上两年的创业经历。(这些经历时间线上可能有重叠)

沐神总结了一下大厂打工人、PhD,创业的区别。大厂的目标是升职加薪,PhD的目标就是博士毕业,创业的目标就是套现退出;为了达成这些目标,作为大厂员工,就得去解决问题,对其公司目标;读博则是需要找到有价值的科研问题并解决;而创业是要为付费客户解决问题。而这三者需要的动力则是不一样的,而创业需要最强的动力。

作为打工人、PhD、创业者,有着不同的优缺点:

无论哪个选项,都面临着不同程度上的延迟满足:打工一般做出成果,很快便能升职加薪,PhD做出成果可能要延迟几年才能收获认可,而创业通常至少要5年以上才能得到正反馈。

创业是最艰难的,要面临长时间没有正反馈的生活,也要能一直保持着热情。

关于大厂工作、读博、创业,沐神都写过对应的文章,《工作五年反思》《博士这五年》《创业一年,人间三年》,这种定期总结的习惯,也是持续自我提升的一个不错的方法。

QA彩蛋,关于toB:

国内toB环境差,toB相比于美国而言更加难做,这已经是共识。但越艰难也意味着竞争对手会更少,不至于陷入低价值的内卷,早入场也许会更有机会。随着人力成本的不断增加,企业的付费意愿也会相应增加。交付超出用户预期的产品是企业获得竞争优势的关键。

——The End——

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海交大研究:血糖没超这个数,不用太克制,别担心好好吃饭睡觉

上海交大研究:血糖没超这个数,不用太克制,别担心好好吃饭睡觉

白话电影院
2026-04-12 13:16:22
新型卖淫方式五花八门,让人大开眼界。

新型卖淫方式五花八门,让人大开眼界。

蔚蓝的珊瑚海
2026-04-10 17:02:21
14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

每日经济新闻
2026-04-12 20:30:04
中纪委发话了!释放一个重要信号,一个都不放过!

中纪委发话了!释放一个重要信号,一个都不放过!

细说职场
2026-04-11 18:42:12
陪玩陪睡不算啥!继注射不明物体后,内娱又传噩耗连杨紫也被牵连

陪玩陪睡不算啥!继注射不明物体后,内娱又传噩耗连杨紫也被牵连

林轻吟
2026-04-11 19:36:46
后来,我才明白,断联后不删除、不拉黑、不联系的人,不是在等对方回头,而是在等自己放下

后来,我才明白,断联后不删除、不拉黑、不联系的人,不是在等对方回头,而是在等自己放下

品读时刻
2026-04-12 09:08:19
曝何超蕸去世更多细节,闺蜜杨千嬅痛哭,最后露面状态已水肿疲惫

曝何超蕸去世更多细节,闺蜜杨千嬅痛哭,最后露面状态已水肿疲惫

小彭美识
2026-04-12 18:24:32
恭喜俄罗斯和乌克兰!打了1500天,终于打成全世界都喜欢的样子!

恭喜俄罗斯和乌克兰!打了1500天,终于打成全世界都喜欢的样子!

温读史
2026-04-08 17:38:05
朝鲜空姐,和想象中的不一样

朝鲜空姐,和想象中的不一样

微微热评
2026-04-12 13:57:10
伊朗伊斯兰革命卫队海军发出警告

伊朗伊斯兰革命卫队海军发出警告

财联社
2026-04-12 22:23:06
王菲的两助理都挺漂亮的,她们当她的助理,一月工资得多少啊

王菲的两助理都挺漂亮的,她们当她的助理,一月工资得多少啊

动物奇奇怪怪
2026-04-12 20:30:19
广东男篮靠什么击败了广厦?一人的贡献似乎被奎因和麦考尔掩盖!

广东男篮靠什么击败了广厦?一人的贡献似乎被奎因和麦考尔掩盖!

野渡舟山人
2026-04-13 00:38:30
万科走向深渊的最大推手——郁亮

万科走向深渊的最大推手——郁亮

地产微资讯
2026-02-06 10:15:49
中超未扣分积分榜:成都仍榜首,申花第二,津门虎仍垫底

中超未扣分积分榜:成都仍榜首,申花第二,津门虎仍垫底

懂球帝
2026-04-13 01:17:22
女子独自带5岁女儿和未满1岁儿子到餐厅用餐,女儿不幸从包间窗户坠亡……法院判了:餐厅赔近74万元,母亲担责三成

女子独自带5岁女儿和未满1岁儿子到餐厅用餐,女儿不幸从包间窗户坠亡……法院判了:餐厅赔近74万元,母亲担责三成

极目新闻
2026-04-12 18:00:56
“常洲”宣布:放假一天,免费!

“常洲”宣布:放假一天,免费!

江南晚报
2026-04-12 09:56:36
港媒曝全红婵曾向单位求助!单位认为不够严重没处理 网友:泼脏水甩锅

港媒曝全红婵曾向单位求助!单位认为不够严重没处理 网友:泼脏水甩锅

音乐时光的娱乐
2026-04-12 21:34:59
多名院士调查发现:吃一根油条,就等于喝一勺油,真的假的?

多名院士调查发现:吃一根油条,就等于喝一勺油,真的假的?

岐黄传人孙大夫
2026-04-12 17:05:03
委内瑞拉彻底炸锅:97天的沉默,终于变成怒吼

委内瑞拉彻底炸锅:97天的沉默,终于变成怒吼

策略述
2026-04-12 16:55:28
泽连斯基:不入北约、不进欧盟、不驻外军皆可谈,只一原则不退让

泽连斯基:不入北约、不进欧盟、不驻外军皆可谈,只一原则不退让

z千年历史老号
2026-04-12 15:15:06
2026-04-13 03:19:00
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
299文章数 134关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

头条要闻

伊媒:美驱逐舰遭革命卫队锁定 距离被摧毁仅差几分钟

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

美伊谈判破裂的三大症结

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

家居
教育
本地
公开课
军事航空

家居要闻

复古风格 自然简约

教育要闻

小班教学,9月开校,树德派校长!这所中学,正在招老师

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版