梁文锋三年没去美国,技术路线被盯上,国产大模型悄悄跑通了
从2023年到2025年,DeepSeek创始人梁文锋连续三年推掉了美国高校和研究机构发来的邀请,对方通过邮件联系他,想请他去做讲座、参加研讨会,甚至有实验室提出联合开展项目,他一律回绝了这些请求,虽然没公开说明原因,但后来大家慢慢看明白,他不是怕交流,而是担心暴露具体做法。
2025年初,DeepSeek公司把一个千卡级别的大模型,完整运行在华为昇腾芯片组成的集群上,这是全球首个实际落地的案例,过去人们认为做大模型必须用英伟达GPU,不然算力不够、训练速度太慢,但DeepSeek没有遵循这个思路,他们采用国产硬件,把服务器数量减少一半,训练成本压缩到原来五分之一,关键不在于“能用”,而是“好用”——接口完全兼容昇腾全系列产品,90%的软硬件都实现国产化,这不是临时拼凑的方案,而是经过重新设计的架构。
从2024年开始,许多中小企业和制造业公司开始采用他们的方案,之前一套大模型系统动不动就要几百万,现在几十万就能用起来,客户反馈很实际,不用调整参数,响应速度快,故障出现少,这证明技术不是空谈,确实能解决实际问题。
![]()
美国那边一开始还在限制芯片出口,到了2024年中却突然改变做法,社交平台上有人怀疑DeepSeek的数据可能有问题,实验室里很多人试着重复他们的结果,方法可以看懂,但实际操作做不出来,他们遇到的问题是硬件上的限制,却想从软件层面弄清楚怎么用更少的资源做到更多的事,临近年底中美科技协议续签之前,美国学术机构又频繁发来邀请,表面上是安排座谈交流,实际上是想了解模型压缩和分布式训练这些具体的技术细节。
梁文锋对这些邀请全都不理会,他不参加路演活动,不发宣传稿,连媒体采访也很少接受,平时就在GitHub上回复问题,半夜还在线查看压测日志,亲自调试边缘场景的bug,团队两年里换了两批人,但核心岗位还是开发、测试和适配人员,没有公关职位,也没有专门负责商务的人员,他觉得去一次座谈就等于把底层假设亮出来给别人分析,这样做不划算,他只开源接口部分,训练逻辑始终牢牢守住。
国内一些高校和企业主动来找我们,到了2025年,复旦大学、清华大学和华为公司的内部实验室开始用DeepSeek的模型做基准测试,不是因为它的名气大,而是因为它运行稳定、速度快,基本不用调整参数,在开源社区里,他们的GitHub活跃度在国内排第一,这不是靠宣传带来的流量,是用户自己选择的结果。
2026年初,有家美国科技公司的高管私下联系梁文锋,想邀请他去带队工作,梁文锋只回答一句,说中国的AI应用场景最复杂也最有发展机会,这话听起来很平常,但仔细想想挺有意思,他没有强调我们比你们强,也没有提到技术封锁或竞争对抗,只是点明一个实际情况,真正的需求在哪里,机会就在哪里。
国产芯片的出货量增长很快,信创领域的采购也在提速,DeepSeek这家公司没有专门喊口号,也没有举办发布会,但它是少数真正能做到“不需要进口替代”的企业之一,用户实际用了之后,发现它确实好用,同行尝试去模仿的时候,才意识到很难复制,创始人梁文锋三年没怎么外出,并不是在躲避什么,而是把时间花在了那些别人都不愿意做的细节上。
有人问这算不算对抗,其实不算,他没有写声明也没有发长文反驳,只是继续做自己的事,美国想通过学术渠道打听消息,他选择不参加那个游戏,他的团队不靠别人认可来生存,而是靠着用户每天调用模型、修复错误、提出需求,这些才是最实在的反馈。
到了2026年5月,大家在讨论国产大模型的事情越来越多,而DeepSeek那边还是没什么动静,他们每次更新版本的时候,连更新日志都写得简单直接,就像代码里的注释一样,没人要求他们非要证明什么,但他们已经走在前面了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.