你敢信吗,盼了整整三个月的DeepSeekV4终于正式上线,一出场就把本就卷得发烫的AI大模型赛道,再搅出了大动静。这次新版本性能小幅超过Claude3.5Sonnet,就算和GPT-4o还有差距,可它拿出的王牌,直接戳中了整个行业的痛点。
![]()
百万token也就是AI对话的最小单位,全套服务只要12元人民币,后续华为昇腾节点批量上线后,价格还能进一步往下降。更值得留意的是,这个模型是目前国产化程度最高的大模型之一,全面适配华为昇腾芯片,软件架构也换成了国产开源技术。
好多人现在都觉得,AI大模型“打架”,比的就是谁参数大,谁显卡好,谁卖得便宜。美国拿着最先进的GPU卡我们脖子,咋反而我们成本还更低呢?这事儿仔细捋捋,真的挺有意思。
DeepSeek的路子其实已经给了答案,现在AI圈卷到最后,早就不是拼单块硬件参数了,核心就两点,一个是底层算力得自己说了算,另一个就是能源成本得压得住。
![]()
价格差其实一眼就能看明白,DeepSeekV4百万token只要12块,海外主流的同规格服务,价格是咱们的好几倍甚至十几倍。这份成本优势真不是赔本赚吆喝赚来的,是从根上重构了算力体系才拿到的。
DeepSeek干脆不用行业通用的英伟达算力卡,全换了国产软硬件体系,不光彻底摆脱了被海外芯片卡脖子的风险,还把定价权牢牢握在了自己手里。创始人梁文峰这个选择,看着挺敢赌,其实早就把行业本质看明白了。
高端算力一直被卡脖子,算力自主才能笑到最后,要是没有自己的底层算力,再牛的模型,再大的参数,说停就能给你停了,长期成本优势更是想都别想。
![]()
算力自主省下来的钱,最后都会落到每一次对话的token上,毕竟你每次和大模型聊天,都要耗算力,token就是最基础的成本单位。这么低的成本,不光让国产模型在国内站稳了脚,还让咱们有了出海抢市场的底气,现在不少海外企业都转过来用中国大模型,核心原因就是这个。
说起来,国产算力能走到今天,其实还是被美国的芯片禁售逼出来的。ChatGPT带火AI大模型之后,高端GPU就成了美国卡我们的工具。2022年8月和10月,美国连出两道禁令,不让卖高性能GPU给我们,直接掐断了英伟达高端芯片的供货。
![]()
对英伟达来说,这等于丢了全球最火的大市场,黄仁勋也没办法,一边讨好美国政府,一边推出了降带宽的A800、H800,后来又出了性能更差的H20,就想绕开禁令稳住中国市场。有意思的是,就算是这种砍了又砍的残次显卡,当时国内厂商抢着要,2023年第一季度,H20在中国卖了46亿美元,腾讯阿里这些大厂还有160亿美元的订单等着交。
美国本来想着,只要一直收紧禁令,就能把中国AI大模型锁死,结果剧情完全出乎他们意料。禁售这么多年,不光没干死中国AI产业,反而逼着国产芯片市场彻底爆发了。
![]()
国内三大芯片代工厂中芯国际、华虹、晶合集成都开足马力生产,华虹的产能利用率都超过106%了。之前没多少名气的国产GPU厂商全都站了出来,华为昇腾、阿里平头哥、昆仑芯、海光信息、寒武纪、沐曦这些品牌快速崛起,国产芯片扎堆出现在AI大模型的赛道上。
更讽刺的是,后来对H20、H200松绑,想让国内厂商再回去用美国芯片,结果松绑两个月,H200在中国销量居然是零。这不是我们不识货,是制裁这么多年,我们已经攒出了一套完整的国产算力替代体系,美国想用芯片卡脖子的日子,早就慢慢过去了。
![]()
平心而论,现在国产芯片单芯片性能、软件适配,和英伟达高端产品确实还有差距。就算是第一梯队的华为昇腾910系列,参数和A100差不多,但生态适配还差不少,可A100在英伟达那边早就已经是上一代的旧产品了。
但咱们中国企业最会的就是错位出牌,就算牌不算好,也能打出不一样的效果。面对单芯片性能的差距,我们走出了两条自己的路子,用体系优势补上了单点性能的不足。
一条是硬件端靠数量补质量差距,华为昇腾的思路很直接,把更多裸芯片封装到一块GPU里,昇腾910C封装了2颗,最新曝光的910D直接封装了4颗,性能直接追着H100走。还打造了384颗芯片连在一起的超大规模集群,靠集群的规模优势,把单芯片的性能短板抹平了。
![]()
另一条是软件端靠模型架构创新,把算力门槛降下来。国内厂商大多转用了MoE混合专家模型,说白了就是把大参数的整体模型拆成好多个独立的小模型。用的时候只激活需要的部分,其他模块不占显卡资源,一下子就降低了对单芯片算力的要求。
最典型的就是DeepSeekV3,整个训练过程只用了2048块H800,成本不到560万美元,训练完的模型灵活高效,完全能适配性能普通的国产芯片。这两条路子拼在一起,就是一套完整的国产算力方案,我们没有死磕单芯片的性能极限,靠体系化创新绕开了海外的技术壁垒,走出了属于我们自己的路。
![]()
当然,我们也不能盲目飘,国产算力要突围,还有一座大山必须翻,那就是软件生态。很多人觉得我们被卡脖子的是那块显卡,其实真正的壁垒从来都不是硬件,是英伟达攒了近20年的CUDA软件架构。
CUDA从2006年上线到现在,已经攒了450万全球开发者,大家写的每一行代码,做的每一次训练,都是英伟达的护城河。壁垒越高,切换的成本就越高,转到国产芯片架构,等于开发者要把所有代码重写一遍,去适配各种不兼容的标准,AI市场变化这么快,这个时间成本和风险,绝大多数企业都扛不住。
![]()
国产芯片厂商当然明白这点,华为昇腾CANN、海光DTK都在推自己的软件架构,可为了提高适配性,又不得不兼容第三方开源架构,比如海光现在就同时兼容AMD的ROCm生态,还主要靠着后者的开源社区。想要搭出一套能和CUDA抗衡的自研软件生态,我们还有很长的路要走。
等绕开了芯片卡脖子,翻过了生态这座山,你会发现,AI内卷到最后,拼的居然是最基础的能源和电价。谁能想到,决定大模型输赢的不是硅谷的顶尖工程师,是中国遍地都有的水电站、风电场和光伏板。
拿数据说话,现在中国的总发电量,比美国加欧盟还要高出40%,马斯克都曾说过,中国发电量是美国的2.5倍。更关键的是,中国居民用电只占总发电量的15%,美国居民用电占比居然高达36%,这意味着咱们不光发电量多,能给工业和科技用的工业用电,占比也比美国高太多。
![]()
跑大模型的数据中心,本来就是出了名的电老虎。2024年美国数据中心的耗电量,已经占到全美总发电量的4%,预计2030年这个数字会涨到20%到25%,加上居民用电,差不多要耗掉美国六成发电量。电力不够用,直接导致美国电价疯涨,过去五年,美国数据中心的电力成本涨了267%,好多数据中心都被迫停建了。
回头看咱们中国,不光电力供应够足,风电光伏水电核电这些年一直在发展,工业用电成本一直压在很低的水平。充足的电力加上自己说了算的算力,最后就变成了国产大模型的核心竞争力,极低的token价格,让中国大模型能卖到全球各个角落。
现在DeepSeek的用户里,本土占31%,印度占14%,美国占比都超过4%了。Airbnb的客服系统用了阿里的通义大模型,Oneself的AI编程产品用了智谱AI的大模型,越来越多海外企业,都开始选性价比更高的中国大模型。
![]()
现在全球AI竞争,已经形成了一种微妙的平衡,美国拿着更先进的算力技术,中国有更庞大稳定的能源供应和极致的成本优势,谁都没法一口吃掉对方。好多人把这场竞争说成非赢即输的战争,其实技术突破本身,就是推动人类进步的好事。
![]()
与其天天想着怎么按住别人不让发展,不如花精力突破自己的下一个技术节点,筑牢自己的优势。AI赛道这么长,从来都不是靠摁住对手赢的,只有一直往前跑,才能站在时代的潮头。
参考资料:新华网 国产大模型自主创新发展观察
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.