网易首页 > 网易号 > 正文 申请入驻

梁文锋“藏锋”|DS爆火100天

0
分享至

编者按:自1月20日DeepSeek R1爆火以来,过去100天的大模型世界中,DeepSeek成了当之无愧的顶流明星。DeepSeek不仅展现了中国AI的力量,也在一定程度上影响了世界AI发展的方向。值此之际,字母榜&直面AI特推出“DeepSeek爆火100天”专题报道。

“无人不识梁文锋。”

这句话大概足以形容梁文锋今天在AI圈的地位:媒体想尽办法一访难求、投资人用尽手段一面难约。

DeepSeek爆红后,其研发团队所在的北京融科资讯中心和杭州汇金国际大厦,一段时间内挤满了媒体和投资人,甚至众多慕名而来的网友,直接将北京融科资讯中心楼下的透明水牌,挤成了小红书上的网红打卡点。

这一切都是因为DeepSeek R1的发布。1月20日,DeepSeek正式发布性能比肩OpenAI o1完整版的R1推理模型后,直接带动大模型行业的研究焦点,从之前的GPT模式,转向了Reasoner模式。

梁文锋和DeepSeek R1的到来,将新的AI时代切割成由两大milestones(里程碑)节点分割而来的两段不同时期:一个是ChatGPT的问世,一个是DeepSeek R1新模型的发布。身处不同节点之中的企业,在拥抱AI上也开始衍生出新的变化。

国内外一众AI大厂都开始发力推理模型,国内科技大厂更是在DeepSeek效应之下纷纷加码C端应用。

梁文锋所一力主导的低成本大模型训练策略,更是让DeepSeek成了AI时代最大受益者英伟达的最大空头:资本市场开始怀疑,当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否会迎来新的泡沫。

上述担忧曾在DeepSeek R1发布后一周的1月27日发酵至巅峰,导致英伟达股价一夜蒸发近6000亿美元。

梁文锋逼得英伟达创始人黄仁勋不得不在公开场合多次强调,DeepSeek并没有降低算力需求,反而在进一步放大。

但黄仁勋的麻烦不止于此。梁文锋的低成本大模型训练方法,还意外带火了H20芯片在国内的需求新高。

自2023年以来,H20芯片是英伟达可合法出口至中国的最强AI芯片。但在DeepSeek影响之下,4月份,美国对其实施新的出口管制许可,其被禁止卖入中国市场。英伟达官方在一份报告中披露,这项限制将造成高达55亿美元的额外损失。

但好消息是,黄仁勋已经在加紧研制新一代的中国特供芯片。近期,据路透社报道,英伟达已通知其主要中国客户,计划在7月推出修改版H20芯片。

从模型、应用到芯片,梁文锋携DeepSeek之威,掀起了一场波及全产业链的震荡。

2024年12月,梁文锋在朋友圈转发了一篇文章,内文是其为文艺复兴科技公司创始人——“量化之王”詹姆斯·西蒙斯的传记《征服市场的人:西蒙斯传》一书所做的序言,其中有句话写道,“西蒙斯是幸运的,他遇到了好的时代。”

梁文锋无疑同样是幸运的,他遇到了能令自己大放异彩的AI时代。如今,随着R2模型发布越来越近,全行业都在期待梁文锋带来的新惊喜。

A

凭借R1发布爆火之前,梁文锋其实引发过两次行业热议。

2023年4月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索AGI(通用人工智能)。

一个月后的2023年5月,该组织被命名为“深度求索”,并发布了首款模型DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家。而DeepSeek就是其中之一,并由此开始得到外界关注。

及至2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

只不过,当时暂未推出C端应用的梁文锋,其声量更多局限在大模型行业圈层,外界的更多目光被吸引到了科技大厂身上。

爆火之前,梁文锋也曾渴望得到投资机构的青睐,但在找不同出资方洽谈后,很多VC在退出需求下,因看不到商业化前景,而放弃了投资梁文锋的可能性。

但随着DeepSeek爆火,梁文锋成了一众投资机构的座上宾,还是请不到的那种。

就连一直宣称不投资大模型的朱啸虎,都在感受完DeepSeek新模型后,希望能够参与其中。

值得一提的是,DeepSeek的爆火,并未改变梁文锋一贯的低调作风。

成立DeepSeek之前,作为幻方量化创始人,由于梁文锋一直隐身幕后,外界在很长一段时间内都以为公司核心高管只包括另外两位联合创始人。

即便因DeepSeek一夜成名,梁文锋依然继续保持着每天看论文、写代码、参与小组讨论的习惯,且至今DeepSeek都暂未设立公关团队,对外发声主要通过在相关社交媒体上设立的官方账号,以及上百个DeepSeek微信交流群。

自1月20日DeepSeek R1发布至今,梁文锋唯二的公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。

尽管甚少露面,但通过国内外科技大佬之口,梁文锋一直活跃在大众视野。

只不过,不同于硅谷如马斯克、奥特曼等人对DeepSeek和梁文锋的质疑之声,国内科技大佬几乎清一色展现出了对DeepSeek的拥抱,和对梁文锋的赞赏。

靠接入DeepSeek攫取到最大红利之一的马化腾,在谈到梁文锋时称“很敬佩市场上出现独立、开源的产品,我们非常尊重。”

去年12月宣布追逐AGI的李想,在时隔130天后,再次对外谈及AI,不仅认为DeepSeek加速了理想在大模型上的研发效率,而且总结了自己对梁文锋的两个印象,“第一他是个特别自律的人,第二他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。”

当然,被梁文锋改变的科技大佬名单还有很长,包括张一鸣、李彦宏、蔡崇信……

B

被聚光灯环绕的梁文锋,却选择了一系列反常识的操作。

尽管受到万千瞩目,但梁文锋既没有利用投资人的热情,疯狂融资扩张资源,也没有借机做大C端用户规模。

在各路投资人看来,上述场景原本应该是摆在梁文锋面前的一手好牌。

对于想要参与投资DeepSeek的朱啸虎来说,梁文锋的安卓开源梦想,再往前走是需要烧钱的。

更现实的考量上,无论是未来在模型路线上继续scale up,还是承接B端和C端暴涨的客户需求和流量,在外界看来,梁文锋都需要用更多的钱来构建更充裕的算力资源。

2月份,甚至外界一度传出阿里将以100亿美元估值,投资DeepSeek 10亿美元占股10%的消息,但被阿里予以否认。

不过,据投中网消息,彼时DeepSeek确实在与部分投资人接触,希望以80亿美元估值寻求融资,当时国内AI六小龙中估值最高的也不超过40亿美元。

但事实是,爆火100天内,DeepSeek官方API一度因调用需求过高而暂停充值服务,APP也几度因服务繁忙而频频卡顿,但梁文锋除了带队优化服务体验外,并没有明显的算力扩建迹象,也丝毫未展现出对用户规模效应的追逐。融资一事被暂时搁置了。

这也使得DeepSeek成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即暂未寻求外部融资的公司。

与在融资上的犹疑相反,梁文锋则继续坚持践行开源。2月底,梁文锋带领DeepSeek用一场开源周行动,通过开源FlashMLA、DeepEP通信库、DeepGEMM等多个代码库,向外界证明了DeepSeek小力出奇迹的原因所在,并首度对外揭秘了一系列针对英伟达H卡的算力优化方案。

同时,梁文锋继续沿着拟定好的节奏,追赶AGI脚步。

在内部规划中,梁文锋曾表示,团队押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。围绕这三条路,梁文锋在过去100天内动作频频。

2月18日,DeepSeek发布了最新的技术论文,以挑战Transformer架构最核心的注意力机制,让它能更高效地处理更长的上下文。

尤其值得一提的是,梁文锋的名字,也出现在了上述论文的共同作者里。文中,DeepSeek提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高。

除了带领团队创新算法,梁文锋还推动着公司在模型更新上的节奏。

语言模型上,3月25日,DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,官方称其大幅提高了在推理类任务上的表现水平,中文写作和中文搜索能力也都得到了优化。

一个月后,数学和代码新模型DeepSeek-Prover-V2也来了。以DeepSeek-V3作为基础模型微调而来的Prover-V2,其参数规模扩展到了671B,相较于前一代V1.5版本的7B,参数规模增加了近百倍,这让其在数学测试集上的效率和正确率都变得更高。

C

尽管梁文锋还能保持自己的节奏推进模型更新,但外界的AI发展步伐已经被DeepSeek重构了。

在梁文锋验证成功低成本大模型训练方法后,AI行业开始分裂出两条进化路线:一是继续坚持Scaling Law,奉行大力出奇迹,堆高算力资源,训练更强大的基础大模型;二是追随梁文锋,以性价比思路开道,用更少资源训练更强大的专用模型。

围绕两条不一样的大模型进化路线,中美在AI发展策略上的分歧进一步扩大:硅谷AI创企继续追求Scaling Law,融资额屡创新高,前有OpenAI宣布完成历史性的400亿美元新融资,后有传闻中正在寻求200亿美元新融资的马斯克的xAI。

反观被冠以“AI六小龙”称号的国内AI创企,除了智谱拿下一些国资投资外,其他五家则罕有融资消息传出。

典型如零一万物,1月初,零一万物创始人李开复对外正式表态,自己将退出对AGI的追寻,未来公司主攻中小参数的行业模型。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”李开复说道。

DeepSeek爆火后,李开复更是将公司直接定位为一家开发AI应用的公司。

“AI六小虎”其他玩家也不同程度受到冲击:月之暗面暂停大规模广告投放,战略重心转向底层模型优化;MiniMax 和阶跃星辰目前都在探索Agent 相关的新应用;百川智能业务重心转向医疗;智谱AI重点布局政务、金融等市场。

国内科技大厂也不再对外讲述大力出奇迹的的AI叙事,而是纷纷跟梁文锋拼起了性价比。李彦宏更是在4月份的一场演讲中,点名DeepSeek慢且贵。

但DeepSeek红利之下,科技大厂又是结结实实享受到了一波红利。最大受益者腾讯,更是凭借率先接入DeepSeek的举动,助推旗下腾讯元宝一度超越豆包,成为国内AI助手下载量第一。

拥抱梁文锋之外,科技大厂的更大野心则在于超越梁文锋。直观表现之一是,在接入DeepSeek之外,科技大厂都纷纷加码了模型自研的决心。

从OpenAI到DeepSeek,这些惊艳业界的AI大模型公司,之所以能创新不断,更重要的是依靠了一帮才华横溢的年轻人。

作为DeepSeek创始人的梁文锋,更是将人才组织,视为自家在AGI大战中的护城河,不是闭源,更不是招募行业顶尖牛人。年轻人身上所具备的对创新的自信信念,成为梁文锋对这一群体青睐有加的重点所在。

现在,包括字节、腾讯、阿里、美团和京东在内的科技大厂,也想将年轻人身上的这种创新信念,汲取到自家公司身上,并由此开启了各自的“天才少年”招募计划。

但在科技大厂追赶梁文锋之前,全行业正在等待梁文锋带着自己的天才少年,发布新的R2模型。

参考资料:

《理想AI Talk第二季访谈实录》理想汽车

《DeepSeek-V3 模型更新,各项能力全面进阶》DeepSeek

《我所见过的梁文锋》聪明投资者

《跟DeepSeek做起邻居》投资界

《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》腾讯科技

《“我劝过梁文锋很多次,DeepSeek要融资”》投中网

《疯狂的幻方:一家隐形AI巨头的大模型之路》36氪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视曝光“麻醉鱼”乱象:你买的活鱼,可能比死鱼还毒!

央视曝光“麻醉鱼”乱象:你买的活鱼,可能比死鱼还毒!

迷世书童H9527
2026-03-23 11:58:56
C罗重返伯纳乌!享受起立鼓掌 名记:他替补 葡萄牙才能夺世界杯

C罗重返伯纳乌!享受起立鼓掌 名记:他替补 葡萄牙才能夺世界杯

念洲
2026-03-23 10:01:58
续航2000km!奇瑞官宣:3月25日,新车正式预售

续航2000km!奇瑞官宣:3月25日,新车正式预售

高科技爱好者
2026-03-21 23:07:41
“香港演员几乎全军覆没!无戏可拍”引发网友热议

“香港演员几乎全军覆没!无戏可拍”引发网友热议

阿废冷眼观察所
2026-03-17 17:42:50
鲁山舅舅后续:距调查组成立19天,女孩立下遗书,原告变成嫌疑人

鲁山舅舅后续:距调查组成立19天,女孩立下遗书,原告变成嫌疑人

观察鉴娱
2026-03-23 09:28:03
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
震惊!绵阳三台县五家地产商承诺,不再出售低于5000起的住宅…

震惊!绵阳三台县五家地产商承诺,不再出售低于5000起的住宅…

火山詩话
2026-03-23 08:40:59
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
22.98万起 贴着小米SU7打!尚界Z7/Z7T预售3小时 小订破1.8万台

22.98万起 贴着小米SU7打!尚界Z7/Z7T预售3小时 小订破1.8万台

快科技
2026-03-23 22:55:13
两国可能合并,一旦成功将变成超级大国,恐终结美国一家独大局面

两国可能合并,一旦成功将变成超级大国,恐终结美国一家独大局面

现代小青青慕慕
2026-03-15 09:34:25
越来越讨厌丈夫!浙江妻子吐槽40岁的他不思进取,留在家种地放牛

越来越讨厌丈夫!浙江妻子吐槽40岁的他不思进取,留在家种地放牛

火山詩话
2026-03-22 16:09:27
东北“金刀圣手”骨科医生今被查,患者质疑手术费为啥翻倍

东北“金刀圣手”骨科医生今被查,患者质疑手术费为啥翻倍

华庭讲美食
2026-03-23 18:47:50
院士定调!磷酸铁锂彻底成熟,固态电池当下买车真不用等

院士定调!磷酸铁锂彻底成熟,固态电池当下买车真不用等

阿芒娱乐说
2026-03-24 05:16:22
“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

“对儿子太失望了!”家长半夜偷拍大学儿子,评论区家长感同身受

妍妍教育日记
2026-02-07 16:26:32
最狠的报恩:被老师养大,考上北航,然后回来把老师女儿娶了

最狠的报恩:被老师养大,考上北航,然后回来把老师女儿娶了

艺鉴在线
2026-03-24 06:10:52
一架美国战斗机被击落

一架美国战斗机被击落

国际在线
2026-03-23 16:05:10
从盟友到死敌,巴列维六月起义做了什么?彻底和教士集团翻脸?

从盟友到死敌,巴列维六月起义做了什么?彻底和教士集团翻脸?

棠棣说史
2026-03-23 07:15:03
俄罗斯装钱的麻袋都不够了,每天多挣500亿,四年战争,一朝回血

俄罗斯装钱的麻袋都不够了,每天多挣500亿,四年战争,一朝回血

跳跳历史
2026-03-24 03:15:17
电子显微镜实验室为何会发生爆炸?重庆大学这次事故的原因是什么

电子显微镜实验室为何会发生爆炸?重庆大学这次事故的原因是什么

夏末moent
2026-03-23 13:57:34
就在刚刚,台当局正式宣布

就在刚刚,台当局正式宣布

安安说
2026-03-23 10:58:47
2026-03-24 09:28:49
字母榜 incentive-icons
字母榜
让未来不止于大。
2310文章数 8054关注度
往期回顾 全部

科技要闻

史上最大造芯计划启动,马斯克胃口为何这么大

头条要闻

特朗普"最后通牒"延期 美伊双方不同反应引发外界猜测

头条要闻

特朗普"最后通牒"延期 美伊双方不同反应引发外界猜测

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

钟丽缇就女儿考拉争议道歉:女儿还小

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

东风雪铁龙新凡尔赛C5X上市 官方一口价11.37万起

态度原创

数码
游戏
教育
手机
本地

数码要闻

雷军太懂女生:新一代小米SU7 Max防晒堪比物理遮阳帘

《漫威金刚狼》预售暂缓 失眠组想先展示更多内容

教育要闻

高考完档案袋为啥不能拆?不小心拆了会怎么样?

手机要闻

苹果WWDC26全球开发者大会官宣定档6月9日,iOS 27要来了

本地新闻

这里是宝鸡 嫽滴很!

无障碍浏览 进入关怀版