网易首页 > 网易号 > 正文 申请入驻

李沐:大模型发展趋势与个人职业选择

0
分享至

思源Source报道

编辑:seefun

2024.8.23,李沐学长回交大讲座纪要。 李沐学长在讲座中介绍了大语言模型的发展趋势,创业Boson.AI的心得体会,以及个人职业选择(PhD,打工 or 创业)

李沐学长在今天上海交通大学的讲座上,分享了过去两年在大语言模型训练、部署、产品化、和基础架构上的一些实际经验,对大语言模型未来趋势做一些预测,以及个人职业生涯选择上的一些建议;

大语言模型

与传统AI一样,LLM(大语言模型)的三大基础依然是:算力,数据,算法

从硬件上看,摩尔定律依然活着。带宽和存储的增长或许逼近极限,但更低bit数据格式带来了更大的通量和更快的速度。由于显卡规模的增大,水冷散热变得非常必要。由于大语言模型火热带来的高溢价,和老黄关系再好,也不得不加价买卡。新卡每年性能翻倍,但价格是原先的1.4倍。但长期看算力依然是越来越便宜。各种厂商AI加速卡很多,但大多只在推理阶段还算OK,nVIDIA依然垄断了大模型的训练阶段的算力,短期很难找到替代品。

长期看算力的持续贬值,大模型训练成本也会不断下降,所以大模型本身也不是一个能保值的东西,价值会随着时间降低,也某种意义上受摩尔定律的影响。

10-50T token的预训练数据规模已经接近极限(因为全人类的知识量有限,当前数据质量的提升比数量提升更重要);由于硬件和数据瓶颈,大模型的激活参数在 500B 可能是极限,100-500B 的大模型会是未来主流的大小。

End-to-end和多模态是当前大模型的趋势。由于文本是信息密度最高的,也是最容易获得的。通过文本模型的泛化能力,用文本模态作为多个模态中介是一个很好的方案。

在人机交互产品设计方面,对于单一的简单操作,比如关窗户,用户更倾向于手动点一下按钮,可能会觉得和大模型交互不是那么有意义。而对于一些复杂的任务则并非如此,需要按一系列条件执行一系列任务,交给大模型则更为省事。但长文本的prompt控制也远不如直接说话方便,使用语音更符合用户习惯。

模型层面,语言模态已经比较成熟,能给个80-85分;语音(audio)则是勉强可用,70-80分水平,而视觉(video)则比较薄弱,大概只能给个50分。

应用层面,数据越多的领域,就越能被自动化。当前大模型在简单的文科任务上已经能很好地代替人类。因为文科任务是最能简单快速采集大量数据的。在简单理科任务和复杂文科任务上能力正在突破。而当前想要替代蓝领,还非常遥远。工厂需要投放大量传感器,做好数字化基础设施建设,数据收集和整理方案成熟起来,才有大模型落地的希望。而这一切当前看来还很难,但一旦实现就会是重大变革。

我们在创业中学到了什么?高质量数据和后训练算法的创新,对行业大模型的提升很大。OpenAI的RLHF有点牵强,(RL)这套技术很原始。Llama标数据据说花了5000w美金,和内部人士聊过,感觉数据没标好,算法也没花太多时间,所以开源的Llama还有很大提升空间。

对于不一样的数据,不一样的目标函数,针对性做研发是有意义的。

之前的机器学习范式:先做好Evaluation(评估),再去做其他事情。自然语言非常难评估,但是也非常关键。LLM本质还是ML(机器学习),都吃数据,都需要很好的评估方法,特点都是一致的。

自建GPU集群不会比租便宜很多,利润大头都被nv吃掉了。

职业规划建议

沐神兜兜转转,什么地方都去过,无论是学校,大公司还是创业。在交大6年读完本硕,CMU读了5年PhD,也还在港科有2年科研助理经历。也去过UCB和斯坦福做过访问学者。大厂在百度待过2年(首席架构师),在亚马逊待过7年(资深首席科学家)。加上两年的创业经历。(这些经历时间线上可能有重叠)

沐神总结了一下大厂打工人、PhD,创业的区别。大厂的目标是升职加薪,PhD的目标就是博士毕业,创业的目标就是套现退出;为了达成这些目标,作为大厂员工,就得去解决问题,对其公司目标;读博则是需要找到有价值的科研问题并解决;而创业是要为付费客户解决问题。而这三者需要的动力则是不一样的,而创业需要最强的动力。

作为打工人、PhD、创业者,有着不同的优缺点:

无论哪个选项,都面临着不同程度上的延迟满足:打工一般做出成果,很快便能升职加薪,PhD做出成果可能要延迟几年才能收获认可,而创业通常至少要5年以上才能得到正反馈。

创业是最艰难的,要面临长时间没有正反馈的生活,也要能一直保持着热情。

关于大厂工作、读博、创业,沐神都写过对应的文章,《工作五年反思》《博士这五年》《创业一年,人间三年》,这种定期总结的习惯,也是持续自我提升的一个不错的方法。

QA彩蛋,关于toB:

国内toB环境差,toB相比于美国而言更加难做,这已经是共识。但越艰难也意味着竞争对手会更少,不至于陷入低价值的内卷,早入场也许会更有机会。随着人力成本的不断增加,企业的付费意愿也会相应增加。交付超出用户预期的产品是企业获得竞争优势的关键。

——The End——

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽阳奔驰车陪葬后续:主家原因曝光,车被挖出,村民透露全村第一

辽阳奔驰车陪葬后续:主家原因曝光,车被挖出,村民透露全村第一

奇思妙想草叶君
2026-04-11 14:56:58
以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

以色列袭击黎巴嫩被谴责,内塔尼亚胡:“以军是世界上最有道德的军队”;此前以色列对黎巴嫩发动袭击,造成包括儿童在内数百名平民死伤

扬子晚报
2026-04-11 11:33:21
东契奇最新动态:在斯洛文尼亚陪女儿 下阶段治疗结束与湖人会合

东契奇最新动态:在斯洛文尼亚陪女儿 下阶段治疗结束与湖人会合

罗说NBA
2026-04-12 06:24:57
万茜蹲火了

万茜蹲火了

可乐谈情感
2026-04-12 06:46:14
怎么会有如此颠倒黑白、罔顾历史的儿童读物?

怎么会有如此颠倒黑白、罔顾历史的儿童读物?

作家加野
2026-04-11 12:46:50
别嫌女保镖太瘦!手摸腰大有玄机,真实实力打脸

别嫌女保镖太瘦!手摸腰大有玄机,真实实力打脸

可乐谈情感
2026-04-11 18:42:59
美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

美国绕月飞船成功降落!宇航员能自己走路,隔热罩扛住2700℃灼烧

火星一号
2026-04-11 13:42:49
千元童鞋把脚穿肿?泰兰尼斯遭家长“围攻”,医生警惕影响发育,90%专利竟是外观设计

千元童鞋把脚穿肿?泰兰尼斯遭家长“围攻”,医生警惕影响发育,90%专利竟是外观设计

新浪财经
2026-04-10 17:33:59
理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

理想称遭某品牌恶意拉踩将追究法律责任,东风日产回应:尊重同行

澎湃新闻
2026-04-12 04:46:55
演员吕严吃面加葱花被拒,遇见小面致歉

演员吕严吃面加葱花被拒,遇见小面致歉

界面新闻
2026-04-11 16:26:18
70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

70 岁外长王毅这一跪让我泪崩!为国奔波万里,却让所有人破防!

眼界看视野
2026-04-11 21:09:54
李想的这个朋友圈越界了

李想的这个朋友圈越界了

关尔东
2026-04-11 23:22:30
郑丽文一声“毛主席”,打破了国民党一个禁忌

郑丽文一声“毛主席”,打破了国民党一个禁忌

月明风清1029
2026-04-11 17:27:07
男子半年花300万,嫖了160个小姐,2015年小姐:最高一次收费15万

男子半年花300万,嫖了160个小姐,2015年小姐:最高一次收费15万

汉史趣闻
2026-04-11 15:02:54
湖南一男子自带茅台就餐,饮用时感觉味道不对怀疑被调包!民警发现当日服务员连工资都没结就“消失”了

湖南一男子自带茅台就餐,饮用时感觉味道不对怀疑被调包!民警发现当日服务员连工资都没结就“消失”了

大风新闻
2026-04-11 16:08:07
全红婵网暴事件升级,网暴群群主身份曝光,身后留下3大疑问

全红婵网暴事件升级,网暴群群主身份曝光,身后留下3大疑问

悦君兮君不知
2026-04-11 16:05:17
求复合?马伊琍官宣两大喜讯,前夫文章也传来好消息,这是闹哪出

求复合?马伊琍官宣两大喜讯,前夫文章也传来好消息,这是闹哪出

子芫伴你成长
2026-04-11 23:34:33
广东:超强台风,可能发生20年一遇洪水!

广东:超强台风,可能发生20年一遇洪水!

东莞好生活
2026-04-11 16:40:22
回到台湾就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

回到台湾就被抓?郑丽文和大陆谈完,临走前达成共识,赖清德急了

本末倒置也
2026-04-11 23:41:41
帮伊朗扫雷?美舰穿行霍尔木兹海峡成“罗生门”,美伊昼夜谈判陷僵局

帮伊朗扫雷?美舰穿行霍尔木兹海峡成“罗生门”,美伊昼夜谈判陷僵局

澎湃新闻
2026-04-12 09:04:27
2026-04-12 10:04:49
人工智能研究 incentive-icons
人工智能研究
分享深度学习、CV、NLP
299文章数 134关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
游戏
健康
本地
公开课

艺术要闻

郑丽文缺席丈夫引争议!洪秀柱书法爆红,传统与现代的碰撞!

因为蓝色星原实在是太大了,急不可耐的玩家们纷纷用梗图表达不满

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版