![]()
这个2016年由微软亚洲研究院何恺明团队提出的技术,在十年后迎来了一次硬核升级。
![]()
但模型越做越大,参数越来越多,问题就来了。
信息在神经网络里传递,跟高速路上堵车没两样,越到后面越混乱。
字节跳动2024年推出的超连接技术,本来想多开几条“车道”缓解拥堵。
![]()
可车道多了没规矩,大规模训练时反而更不稳定。
DeepSeek的mHC技术就聪明多了,给这些车道加了“流形约束”。
这词听着挺学术,其实就是用数学方法给信息流动定规矩。
他们用30亿、90亿和270亿参数的模型做了测试。
![]()
结果很惊喜,训练稳定性提上去了,可扩展性也更好,关键是没多花多少计算成本。
本来想简单解释下原理,但后来发现,这技术本质就是给老架构做了次“精装修”,既保留优势又补了短板,确实够巧妙。
mHC技术的诞生,说到底是现实压力逼出来的。
美国的OpenAI、谷歌这些巨头,训练一个模型动辄砸几亿甚至十几亿美元。
![]()
中国AI企业可没这条件,美国的芯片出口管制卡得很严。
商务部2025年9月就发起了反歧视调查,那些限制出口、限制投资的措施,让高端GPU成了稀缺资源。
无奈之下,中国企业只能另辟蹊径。DeepSeek之前发布的R1模型,训练成本才29.4万美元。
这个数字传到硅谷,不少工程师都觉得不可思议。
![]()
要知道,美国同行的同类模型成本可是这个数的几十倍。
如此看来,低成本路线不是选择题,是必答题。
mHC技术不是小修小补,而是从底层架构上做了系统性优化。
这路子走对了,毕竟不是所有企业都能烧钱拼算力,用技术巧劲降低门槛,才能让更多人参与到AI创新里来。
![]()
更让人意外的是,DeepSeek把这核心技术公开发表了。
HuggingFace可是NLP领域的开源重地,上面有海量预训练模型和数据集,全球开发者都在这交流。
![]()
这在学术界是惯例,意味着他是整个项目的主导者和把关人。
一个公司CEO能亲自扎进硬核研发,这在全球AI圈都不多见。
这几年中国AI企业的心态变了。以前总想着“闷声发大财”,现在更愿意把成果分享出来。
智谱AI、通义千问都开源了不少模型,截至2025年8月,中国开源模型的累计下载量已经超过美国。
![]()
开源不是吃亏,反而能吸引更多人才,通过社区反馈加速技术迭代。
这次mHC技术一出来,大家都在盼着他们的R2模型。2026年才刚开始,AI圈的竞争就已经火药味十足。
![]()
中国AI企业靠着底层技术创新,在算力受限的情况下走出了自己的路。
低成本不是妥协,开源也不是让利,这些都是构建核心竞争力的聪明做法。未来,mHC技术能不能在商业化应用中站稳脚跟,R2模型能不能带来更多惊喜,都值得期待。
但可以肯定的是,中国AI已经不是只能跟跑的角色。
靠着这种“逆境求生”的创新力和开放共享的格局,在和美国巨头的比拼中,一定能占据一席之地。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.