网易首页 > 网易号 > 正文 申请入驻

李沐创业这一年:张一鸣宿华给建议,黄仁勋帮忙搞卡,逃离地狱模式后要做“人类陪伴的智能体”

0
分享至

作者|王兆洋
邮箱|wangzhaoyang@pingwest.com

这几乎是迄今最真诚和干货满满的大模型创业复盘。

2024年8月14日晚上,李沐在他自己运营的B站和知乎专栏里发布了一篇创业一年的复盘文章:《创业一年,人间三年》,分享了他大模型创业第一年的进展、纠结和反思。

在文章中他回顾了自己创业的历程:

从最初有创业的想法想做大模型的生产力工具,到遇到张一鸣被对方“点醒”,决定直接做模型本身;

到融资过程里被“放鸽子”,因首次创业而有些“缩手缩脚”没能像一些同行那样“拿10亿现金”;

到直接联系黄仁勋获得对方直接“安排”的H100,但却发现这些卡在训练中bug一堆;

再到最终磕磕绊绊找到商业化盈亏平衡的方法,并继续朝着“人类陪伴的智能体”的目标前进。

李沐在分享自己直接踩过的坑的同时,也在这一年里不停问着自己:“到底为什么要创业”。他被宿华“质问”,从蔡浩宇对他公司的不经意点评里获得启发,而最终他对于这个问题给出的答案非常李沐:

如果今天再来回答这个问题,我会说:“我就是脑子抽了”。

但是他也说,“我深层的动机来自对生命可能没有意义的恐惧。”

“那么一个人的存在的意义是什么呢?小时候曾因为想不清这个问题而抑郁。所以我想去创造价值,获得存在的意义。我选择“上进”,去提升自己的创造价值的能力;选择录长视频和写教材,创造教育价值;选择去写读博、工作、创业的总结,描述里面的纠结和困难,创造真实案例的价值;选择去创业,团结很多人的力量去创造更大价值。”

以下是李沐的复盘全文,文章转载自李沐。括号里编者注为一些补充信息:

给小伙伴汇报一下LLM创业第一年的进展、纠结和反思

在Amazon呆到第五年的时候就想着创业了,但被疫情耽搁了。到第7年半的时候,觉得太痒了,就提了离职。现在想来,如果有什么事这一辈子总要试下的,就蹭早。因为真开始后会发现有太多新东西要学,总感叹为啥没能早点开始。

李沐是AI领域知名学者,2023年离开亚马逊创办了Boson.ai。此前他担任亚马逊首席科学家,是人工智能框架Apache MXNet作者之一。他本科就读于上海交通大学,卡耐基梅隆大学博士毕业,并先后在伯克利、斯坦福大学担任教职。他在B站上持续更新《跟李沐学AI》的系列视频,目前有80万粉丝,这让他被很多AI领域的年轻人称为他们的“赛博导师”。

1

名字:BosonAI的来源

创业前做了一系列用Gluon命名的项目。在量子物理里,Gluon是把夸克绑在一起的一种玻色子,象征这个项目一开始是Amazon和Microsoft的联合项目。当时项目经理拍拍脑袋名字就出来了,但取名对程序员来说很困难,我们每天都在纠结各种文件名和变量名。最后新公司干脆就用玻色子(Boson)来命名了。希望大家能get到“Boson和费米子组成了世界”这个梗时会会心一笑。但没料到很多人会看成Boston。

“我来波士顿了,找个时间碰碰?” “哈?可我在湾区呀 ”

1

融资:签字前一天领投方跑路

22年年底的时候想到两个用大语言模型(LLM)做生产力工具的想法。碰巧遇到张一鸣,就向他请教。讨论之后他反问:为什么不做LLM本身呢?我的下意识退缩:我们之前在Amazon的团队做了好几年这个,得上万张卡,和blabla这么一大堆困难。

一鸣呵呵表示:这些都是短期困难,眼光得看长远点。

我的优点是听劝,真就去做LLM了。凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队,就去融资了。运气不错,很快拿到了种子投资。但钱还不够买卡,得去拿第二轮。这一轮领头是一家非常大的机构,做了几个月文档、商讨条款。但在签字前一天,领头说不投了,直接导致了跟投的几家退出。很感激剩下的投资方,还是做完了这一轮,拿到了做LLM的入场券。

今天反思的话,当时趁着资本市场热情还在,其实可以继续融资,说不定也跟其他友商一样,现在十亿现金在手。当时担心融资太多,会不好退出,或者被架到天上去了。现在想来,创业就是想逆天改命,想什么退路呢?

1

机器:第一批吃螃蟹的人

有了钱后就去买GPU。问各个供应商,统一回复是H100交货得一年以后了。灵机一动,直接给老黄写邮件。老黄秒回说他来看下。一个小时后超微的CEO就打电话过来了。多付了些钱,插了个队,20天后拿到了机器。很荣幸早早的吃到了螃蟹。

这不是李沐第一次给老黄发邮件了,以前他就干过在NIPS的闭门活动给老黄发邮件带研究员朋友去“开后门”参加论坛的事。在他的“粉丝”间一直流传着他是随时可以跟老黄吃便饭的人

螃蟹吃到怀疑人生,遇到了各种匪夷所思的bug。例如GPU供电不足导致不稳定,后来靠超微工程师修改bios代码打上补丁;例如光纤的切开角度不对,导致通讯不稳定;例如Nvidia的推荐网络布局不是最优,我们重新做一个方案,后来Nvidia自己也采用了这个方案。至今我都不理解,我们就买了不到一千张卡,算小买家吧。但我们遇到的这些问题,难道大买家没遇到吗,为啥需要我们的debug?

在和业内有些人讨论时,发现有些人已经“回答”了李沐:很多大厂更早经历这些问题,他们并没有把这些问题和解决方案反馈,而是做为一种技术门槛来对待了。把bug留给竞争对手们。

同时我们还租了同样多的H100,一样是各种bug,GPU每天都出问题,甚至怀疑是不是这个云上就我们一个吃螃蟹的。后来看到Llama 3的技术报告说他们改用H100后,训练一次模型被打断几百次,对字里行间的痛苦,很是共情。

如果对比自建和租卡的话,租三年成本和自建成本差不多。租卡的好处是省心。自建的好处有两个。一是三年后如果Nvidia技术还遥遥领先,那么它能控制价格使得GPU仍然保值 。另一个是自建的数据存储成本低。存储需要跟GPU比较近,不管是大云还是小GPU云,存储价格都高。但一次模型训练可以用几TB空间存checkpoint,训练数据存储是10PB起跳。如果用AWS S3的话,10PB一年两百万。这钱用来自建的话,可以上100PB。

1

商业:感恩客户,第一年收支平衡

非常幸运的,我们第一年收入和支出是打平的。

我们支出主要在人力和算力上,感谢Openai的财力和Nvidia的遥遥领先,这两项支出都挺大的 。我们的收入来源是给大客户做定制的模型。很早就上LLM的公司大都是因为CEO非常有决策力,他们没被高昂的算力和人力成本吓到,果断的去推动内部团队配合尝试新技术。非常感恩客户给了我们喘气的时间,不然这个几个月我又是奔波在各个投资人那里。

接下来应该会有更多公司去尝试使用LLM,不论是自己产品的升级,还是降本增效。原因是一方面技术成本在降低,另一方面行业领先者(例如我们客户)会陆续放出基于LLM的产品出来,把行业卷了起来。

我们也在关注LLM在toC上的落地。上一波顶流例如c.ai和perplexity还在找商业模式,但也有小十来家LLM原生应用收入还不错。我们给一家做角色扮演的创业公司提供了模型,他们主打深度的玩家,打平了收入和支出,也是厉害的。模型能力还在进化,更多模态(语音、音乐、图片、视频)在融合,相信接下来还会有更有想象力的应用出现。

整体来说行业和资本还是急躁的。今年好几家成立一年多但融资上十亿的公司选择退出。从技术到产品是一个很长的过程,花2、3年实属正常。算上用户的需求的涌现,可能得花更长时间。我们专注当下在迷雾中探路,对未来保持乐观。

商业化几乎是所有LLM公司头上悬着的利刃,李沐轻描淡写就透露了公司已经收支平衡。BosonAI的第一年选择了两类生意,给大客户做模型定制,和给创业公司们提供基座模型。其实这个思路很务实,哪有钱就去哪。被投资人放鸽子的经历对李沐的商业化选择看起来也有影响,希望自己能“养活”自己,为技术的进步争取时间和空间。

1

技术:LLM认知的四个阶段

对LLM的认知经历了四个阶段。第一阶段是Bert到GPT3,感受是新架构,大数据,这个可以搞。我们在Amazon的时候也是第一时间去做了大规模的训练和在产品上的落地。

第二阶段是刚创业的时候GPT4了放出来,大受震撼。大半原因来自技术不公开了。根据小道消息估算一次模型训练一个亿,标数据成本几千万。很多投资人问我复现GPT4成本得多少,我说3-4亿要把。后来他们中一家真一把投了大几亿出去。

第三阶段是创业的第一个半年。我们做不动GPT4,那就想着从具体的问题出发吧。于是开始找客户,有游戏的、教育的、销售的、金融的、保险的。针对具体的需求去训练模型。一开始市面上没有好的开源模型,我们就从头训练。后来很多很好的模型出来了,降低了我们成本。然后针对业务场景设计评估方法,标数据,去看模型哪些地方不行,针对性提升。

半年,Boson从闭源快速转为开源,一切从效果和客户出发。反而越是像李沐这样对AI发展理解更深的从业者,在这个阶段越不在乎所谓开源闭源的争论。

23年年底时,惊喜发现我们的Photon(Boson的一种)系列模型在客户应用上的效果都打赢GPT4了。定制模型的好处是推理成本是调用API的1/10。虽然今天API已经便宜很多,但我们自己技术也同样在进步,仍然是1/10成本。另外,延时等都可以更好的控制。这个阶段的认知是对于具体应用,我们是可以打赢市面最好模型的。

第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型,但还不是他们理想中的东西,因为GPT4还远不够。年初时发现针对单一应用训练,模型很难再次飞跃。回过头想,如果AGI是达到普通人类水平,客户要的是专业人士的水平。游戏要专业策划和专业演员、教育要金牌老师、销售要金牌销售、金融保险要高级分析师。这都是AGI加上行业专业能力。虽然当时我们内心对AGI充满敬畏,但感觉是避不开的。

年初我们设计了Higgs(上帝粒子,Boson的一种)系列模型。主打通用能力紧跟最好的模型,但在某个能力上突出。我们挑选的能力是角色扮演:扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。24年年中的时候迭代到第二代,在测试通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有来有回,在测试知识的MMLU-Pro上也没差很远。

Higgs-V2是基于Llama3 base,然后做了完整的post-training。我们没资源像Meta那样花大钱标注数据,所以V2比Llama3 Instruct好,原因应该还是主要来自算法的创新。

然后我们做了个评估角色扮演的评测集,包含按照人设扮演,和按照场景扮演。怪不好意思是自己的模型在自己的榜单上拿了第一。但模型训练中是没有碰评测用的数据。因为这个评测集是想自用,希望能真实反映模型能力,所以要避免模型overfit数据集。但做评测集的同学想写技术报告,所以干脆放出来了。有意思的是,按角色扮演的测试样本来自c.ai,但他们家的模型能力是垫底的。

第四阶段的认知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following这些能力垂直上也是需要的。长远来看,通用和垂直模型都得朝着AGI去。只是垂直模型可以稍微偏科一点,专业课高分,通用课还行,所以研发成本稍微低一点,研发方式也会不太一样。

那第五阶段认识呢?现在仍在进行中,希望能很快分享。

1

愿景:人类陪伴

说来惭愧,我们蒙头做技术,给客户做定制,然后再慢慢想我们自己追求什么愿景。我们去看客户想要什么、我们自己想要什么、未来可能需要什么。我自己的话,多年前我憧憬有个机器人保姆能帮我带娃、陪他们,因为干这个我觉得很难,而且也不太理解娃当前的认知和想法。

我希望工作上有个非常厉害的虚拟助手能跟我一起发明新的东西。等我老了也想有很有意思的机器人陪着。我对于未来的预测是,生产工具越来越发达,一个人完成之前一个团队才能完成的事情,导致人类更加个体独立,大家都忙着追求自己的事情,从而更加孤独。

这些综合在一起,我们把愿景定成了“人类陪伴的智能体”。一个情商很高的,智商在线的智能体。算换成现实中的人的话,应该会是一个专业团队。例如你想让它陪你玩,那它是专业策划+演员。陪你运动,那么鼓励师+专业运动教练。陪你学习,那么能把你不懂的讲懂。模型的好处是,它能做长期的陪伴,真的了解你。而且可以“真心为你”。

不过目前技术离愿景还挺遥远。当下技术就能陪着聊聊。很多场景下聊得也不是那么好,内容匮乏,智商情商有时都不在线。都是当下要解决的问题。如果有小伙伴做这一块的海外应用,欢迎联系我们。

1

团队:有挑战的事情得靠团队

创业之后才真正觉得团队的重要性。在大厂的时候,觉得自己是个螺丝钉,团队成员是螺丝,甚至团队也是个螺丝钉。但创业团队就是一辆车。车小点,但能跑,能载重,转弯灵活,各个角落都能去。公司成立不久的时候,米哈游老蔡来看了眼,看见所有人在一间房子里,他感慨说小团队真好。

两人是上海交大校友,李沐是2004级本科,蔡浩宇2005级本科,且都留校读了研究生

不方便的地方当然也是有的,时刻要看有没有油,不好走的路得小心别把车震散架了。每个成员都很重要,没有冗余,一个人不给力,就可能是一个轮胎没气。人也宝贵,走一个人就可能少一个轮胎。

以前我选项目会选自己能主导开发的。但这也意味着问题不会超出我能力太多。创业选了个很大的问题去做,只能全靠团队了。别看本文里用了大量的“我”,其实工作都是团队做的。没了团队,我可能得转行去卖课了(此处不需要掌声)。

李沐在B站上的AI课程是中文互联网里最受欢迎的课程。很多人把他称为“素未谋面的导师”。这些课程通俗易懂,充满耐心且经常分享行业八卦。

1

个人追求:名还是利?

到目前为止我都靠跟着内心的声音做决定,工作后再去读博、去做视频、去创业。创业需要强烈动机的支撑,才能克服层出不穷的困难。这需要对自己的动机做更深入的分析。

动机要么来自欲望,要么来自恐惧。十年前我可能更热衷名利,但到了现在的年纪,觉得金钱的边际效用已经不高,名声带来的情绪价值也已经很小。我深层的动机来自对生命可能没有意义的恐惧。先不说宇宙的浩瀚,就是在人类的历史长河,一个人也只是一粒沙。意外的到来,迅速的消失。地球上生活过一千亿人,绝大部分人不会在历史上留下痕迹。我家家谱上那上千个人名,我几乎都不认识。

那么一个人的存在的意义是什么呢?小时候曾因为想不清这个问题而抑郁。所以我想去创造价值,获得存在的意义。我选择“上进”,去提升自己的创造价值的能力;选择录长视频和写教材,创造教育价值;选择去写读博、工作、创业的总结,描述里面的纠结和困难,创造真实案例的价值;选择去创业,团结很多人的力量去创造更大价值。

1

后记

去年跟宿华在斯坦福散步,他拍着我肩膀说:“跟我说句实话,你为什么想创业呀?”当时候不以为然:“就是想换个事情做做”。然后宿华笑了笑。

现在我懂了,因为他经历了创业酸甜苦辣。如果今天再来回答这个问题,我会说:“我就是脑子抽了”。但也庆幸当时没想到会那么不容易,所以一头扎进来了。否则,大家看到的可能是「工作十年反思」。我觉得我今天写的故事更有意思些。

致敬所有创业人。

知乎原文链接:

https://zhuanlan.zhihu.com/p/714533901

最后李沐也打了广告,目前BosonAI总部在Santa Clara,招聘包括旧金山湾区和温哥华。

https://jobs.lever.co/bosonai

有做出海应用的小伙伴也可以联系:api@boson.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈慧琳演唱会穿三角裤衩,五十多了合适吗?人老心不老 不愧是女神

陈慧琳演唱会穿三角裤衩,五十多了合适吗?人老心不老 不愧是女神

陈意小可爱
2026-05-01 20:25:19
2026娱乐圈男明星咖位大洗牌:欧豪难进前5,肖战第2,第1没争议

2026娱乐圈男明星咖位大洗牌:欧豪难进前5,肖战第2,第1没争议

不似少年游
2026-04-17 19:35:14
哪种女生‬一眼看上去‬很穷?网友:贫穷这东西是藏不住的

哪种女生‬一眼看上去‬很穷?网友:贫穷这东西是藏不住的

带你感受人间冷暖
2026-05-03 01:11:33
心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

心怎么这么坏,甘蔗里掺石头泥块劣果,农夫与蛇再次上演陈耀心寒

奇思妙想草叶君
2026-04-30 16:48:53
5月开始将迎来4大降价潮:除房价以外,这几类也开始降价了

5月开始将迎来4大降价潮:除房价以外,这几类也开始降价了

梁伫爱玩车
2026-05-01 21:50:57
电商乱象:AB货已经猖獗到恐怖如斯!

电商乱象:AB货已经猖獗到恐怖如斯!

黯泉
2026-05-01 10:34:48
进入人生新阶段,多纳鲁马宣布与相恋9年的女友结婚

进入人生新阶段,多纳鲁马宣布与相恋9年的女友结婚

懂球帝
2026-05-03 04:34:10
又一个巴拿马?中国耗时七年倾尽百亿出海,竟成最蠢的赔本买卖

又一个巴拿马?中国耗时七年倾尽百亿出海,竟成最蠢的赔本买卖

遁走的两轮
2026-05-02 11:36:03
公婆又将侄子接来过暑假,我反对不了,我直接带儿子飞去国外游玩

公婆又将侄子接来过暑假,我反对不了,我直接带儿子飞去国外游玩

麦子情感故事
2026-05-02 17:15:19
上映仅一天丢掉冠军,观众口碑一般,《寒战1994》10亿票房梦碎了

上映仅一天丢掉冠军,观众口碑一般,《寒战1994》10亿票房梦碎了

影视高原说
2026-05-02 14:18:15
中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

中国最孤独的大使:一个人带着一条狗坚守三年,改善生活靠挖野菜

西楼知趣杂谈
2026-05-02 21:21:03
劳动的尊严:发达国家高人工成本背后的文明密码

劳动的尊严:发达国家高人工成本背后的文明密码

吃瓜盟主
2026-05-01 15:01:25
Manus创始人肖宏为什么不直接在美国或者新加坡创业?

Manus创始人肖宏为什么不直接在美国或者新加坡创业?

创业者李孟
2026-05-02 23:55:16
“遮羞布”被扯下!以色列深夜挑衅惨遭反杀,内鬼现身已无处遁形

“遮羞布”被扯下!以色列深夜挑衅惨遭反杀,内鬼现身已无处遁形

三石记
2026-05-03 04:34:34
打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

打什么电话比12345更管用?这些电话比它管用100倍,建议收藏好

细说职场
2026-04-28 10:39:02
斯诺克世锦赛决赛:22岁吴宜泽vs墨菲,第1阶段5月3日20点开始

斯诺克世锦赛决赛:22岁吴宜泽vs墨菲,第1阶段5月3日20点开始

懂球帝
2026-05-03 07:12:07
农民工讨薪败诉后,持刀捅伤4名法官!这种悲剧是谁的责任?

农民工讨薪败诉后,持刀捅伤4名法官!这种悲剧是谁的责任?

今朝牛马
2026-04-09 16:49:10
美国最高院最新裁决,川普阵营赢得压倒性胜利

美国最高院最新裁决,川普阵营赢得压倒性胜利

壹家言
2026-05-02 09:21:56
景区内游客爆发肢体争执,冲突中多人坠落,现场实景被拍下

景区内游客爆发肢体争执,冲突中多人坠落,现场实景被拍下

星娱叨叨社
2026-04-30 14:32:32
男子把降压药掰开吃30分钟后昏迷!医生提醒:部分降压药掰开或咬碎或可致死亡,这几类药千万不能掰开吃

男子把降压药掰开吃30分钟后昏迷!医生提醒:部分降压药掰开或咬碎或可致死亡,这几类药千万不能掰开吃

极目新闻
2026-05-02 22:35:48
2026-05-03 08:23:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3053文章数 10493关注度
往期回顾 全部

财经要闻

雷军很努力 小米还是跌破了30港元大关

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

头条要闻

伊朗公布伊方最新谈判方案: 总计14点提议 聚焦终战

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
本地
艺术
健康
公开课

手机要闻

联想拯救者手机Y70新一代规格曝光

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版