中经记者 吴清 北京报道
2026年1月20日,全球AI开源社区的开发者们在DeepSeek的GitHub仓库中发现了一组意味深长的代码更新。一个名为“MODEL1”的新型模型架构悄然出现。
《中国经营报》记者注意到,其在FlashMLA代码库中被提及31次——这被业界视为DeepSeek下一代模型的技术预演,恰逢DeepSeek颠覆性产品R1发布一周年之际,而其新一代旗舰模型V4也预计在2026年春节期间发布。
从一年前以低成本推理模型震撼全球,到如今在底层架构上酝酿新一轮突破,DeepSeek的发展轨迹正勾勒出中美AI竞赛的新图景。多位业内人士向记者表示,当美国企业仍在堆砌算力“大力出奇迹”的道路上狂奔时,中国AI势力已开辟出一条以工程效率、成本控制和快速产业化为核心的“第二赛道”。
DeepSeek的“反周期”布局
在MODEL1的代码中,技术人员发现了耐人寻味的细节。这一架构与已知的DeepSeek-V3.2并列,却采用了完全不同的技术实现:创新的KV缓存布局、针对FP8数据格式的优化解码、跨GPU架构的灵活适配——特别是在英伟达最新的B200芯片上,MODEL1的Head128实现获得了支持。
“这不是一次渐进式升级,而是架构级的重新设计。”一位分析代码的资深工程师指出。更值得玩味的是,这些优化直指AI推理的两个痛点:内存占用和计算效率。结合DeepSeek近期发布的Engram(印迹/条件记忆)技术论文,业界推测MODEL1可能实现了“计算与记忆解耦”,让模型能够高效查阅信息而不必每次都重新计算。
这种技术选择深植于DeepSeek独特的发展哲学。上述工程师对记者表示,在母公司幻方量化年收益超50亿元的“输血”下,这家AI实验室保持了罕见的战略定力:不融资、不上市、不被资本裹挟。当OpenAI、Anthropic等竞争对手疯狂融资以维持算力军备竞赛时,DeepSeek却将资源投向算法优化和工程创新。
过去一年,当竞争对手们忙于将AI功能堆砌成“全能助手”时,DeepSeek却反其道而行之:51.7MB的极简安装包、专注推理的核心能力、彻底的开源策略。
这种“反周期”选择带来意想不到的收获。表面上看,DeepSeek的直接用户数据有所下滑——月活跃用户从峰值约2亿降至1.45亿左右,App Store排名滑落至第七。但水面之下,一场更深刻的渗透正在发生。
“DeepSeek已经把自己隐身融进了整个AI产业链。”据一位云计算企业技术负责人透露。目前,超过3万家企业接入了DeepSeek的底层能力,覆盖金融、医疗、工业等12个领域。腾讯云、阿里云、华为云等主流云服务商均已将其作为模型服务选项。
用户在手机银行查询账单、在短视频平台接收推荐,甚至通过智能音箱控制家电时,可能都在不知不觉中使用着DeepSeek的技术。
Hugging Face在《“DeepSeek时刻”一周年》报告中揭示了这种模式的影响力:在新建模型中,中国模型的下载量已超越美国;中国的开源发布从2025年2月起变得“明显更加活跃”;全球使用开放权重模型的初创公司和研究人员,“往往默认甚至依赖于中国开发的模型”。
中美路径分野:效率革命vs前沿突破
DeepSeek的崛起并非孤立现象,而是中国AI发展路径的集中体现。清华大学教授沈阳用两个“切片”概括了这种分野:三岁的ChatGPT代表了美国“把AI变成全球统一工作界面”的平台化能力;一岁的DeepSeek则象征着中国“通过开源和工程体系,把强推理能力迅速扩散到产业侧”的效率革命。
美国路径延续了硅谷的传统模式:高投入、高风险的“前沿突破”。OpenAI未来数年计划投入超过1.4万亿美元建设AI基础设施,微软、谷歌等巨头也在进行千亿美元级别的投资。这种“算力军备竞赛”确保了美国在模型前沿能力上的持续领先,却也带来了惊人的成本和商业化压力。
“当你拥有全球最先进的芯片、最充足的资本和最顶尖的人才,追求极限性能是自然选择。”一位硅谷AI创业者分析道。但这种模式的代价正在显现:Anthropic这些明星公司陷入持续融资的循环,Meta AI实验室传出内耗传闻,连马斯克都不得不为xAI筹集200亿美元以维持竞争优势。
中国路径则呈现出不同的逻辑。在芯片供应受限、资本相对谨慎的约束条件下,中国AI企业发展出了一套独特的“生存智慧”:极致的工程效率、严格的成本控制、快速的技术扩散。
据公开数据,DeepSeek-R1的训练成本仅为29.4万美元,耗时约80小时——这是美国同类模型成本的零头。阿里的通义千问、百度的文心一言等开源模型,都采取了“保留核心能力、加速产业落地”的策略。这种模式看似“不够激进”,却在实际应用中展现出强大生命力。
美国东北大学教授李向明观察到了一个有趣的现象:“在美国,AI主要在‘软处’渗透——算法推荐、保险定价、办公辅助;但在‘硬处’(物理硬件)的普及尚在爆发前夜。”而在最近的CES展会上,其表示,“中国产品的‘工程落地速度’和‘供应链完整度’令人震撼。”
这种差异在应用层面表现得尤为明显。当美国AI企业竞相开发通用聊天助手时,中国公司已经在特定垂直领域深耕:工业质检、供应链优化、能源管理、农业监测……
竞赛新阶段:从模型性能到生态落地
随着MODEL1架构的曝光和V4模型发布的临近,AI竞赛正在进入新阶段。单纯的参数比拼和基准测试已不再是决定胜负的关键,竞争焦点转向了更广泛的生态构建和商业落地。
DeepSeek的最新动向预示了这种转变。Engram技术试图解决的,不是“让模型更聪明”,而是“让智能更高效”。
全球最大的AI开源社区Hugging Face在报告中明确指出:“在这个阶段,仅靠比较原始模型性能已不足以获胜。竞争越来越多地集中在生态系统、应用场景和基础设施上。”
中国AI产业的“集体崛起”呈现出独特的协同效应。尽管百度、阿里、腾讯等大厂与DeepSeek、月之暗面等创业公司存在竞争关系,但在开源策略和技术路线上却展现出惊人的一致性。Hugging Face将这种现象称为“受限下的协同”——在共享的技术、经济和监管压力下形成的战略对齐。
结果是生态的繁荣:阿里开源近400个模型,衍生模型超18万个;百度的文心一言开源版本保留90%核心能力;腾讯在视觉、语音、3D生成等多个领域贡献开源项目。这种“生态效应”正在改变全球AI力量对比。
沈阳认为,如果只看“最强模型的前沿能力”,美国仍领先,但已不是代际差,更多是数月到一年的差距;如果看“产品平台、生态与规则制定”,美国依然领先一到两年;如果看“工程效率、成本和落地速度”,中国局部甚至更快。
业内人士认为,展望未来,中美AI发展路径可能出现一定程度的融合。美国企业在保持前沿优势的同时,开始关注效率和成本问题;中国企业在巩固工程优势的基础上,持续投入基础研究和原始创新。
上述工程师认为,下一阶段的竞争焦点可能集中在三个领域:一是人形机器人+大模型的融合,二是金融、医疗、工业等行业大模型的深化应用,三是端侧AI的突破。
对中国AI产业而言,DeepSeek的一周年既是里程碑,也是新起点。坚持开源开放、深化产业融合、加强基础创新——在这条被验证有效的道路上,中国AI与美国AI双雄并立,并有望在全球技术竞赛中走得更远。
“当行业从狂热走向理性,从炒作走向落地,那些真正解决实际问题、创造商业价值的技术和模式,终将赢得市场的最终认可。”上述工程师表示。
(编辑:张靖超 审核:李正豪 校对:翟军)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.