黄仁勋来访,走到哪里都说好话。
7月16日热搜 #黄仁勋称华为AI芯片将取代英伟达#,#黄仁勋称轻视华为的人极其天真#,#黄仁勋称想买一辆小米汽车#,#黄仁勋穿唐装亮相#。7月17日热搜 #黄仁勋称早就知道雷军会成功#,#黄仁勋盛赞中国多家新能源车企#,#黄仁勋称DeepSeek开辟新领域#。
1年前却是另一番光景,2024年6月7日热搜 #黄仁勋称台湾为国家#。2024年6月12日热搜 #国台办说希望黄仁勋好好补补课#。2024年12月7日热搜 #黄仁勋被曝避税80亿美元#。
待遇逆转,原因是英伟达H20芯片解禁了。7月16日,美国已批准H20芯片销往中国。
英伟达的GPU芯片,长相跟电脑机箱里的显卡差不多,像一块板砖,有几斤重。拆掉外壳和散热片之后,就看到了一个电路板。分成6小块1大块的黑色方块就是GPU,放大图片能看到NVIDIA字样。
H20芯片的性能已经相当落后。
评价AI芯片的性能,看3个关键指标:显存容量、BF16算力、GPU互连带宽。显存容量决定了能装载多大的模型,模型越大,能力越强。BF16算力决定模型的训练速度和推理速度。Deepseek r1这样的满血模型,参数量很大,训练的时候需要几百块甚至几万块GPU一起训练,GPU之间的互连带宽是一个瓶颈。
H20 GPU是H100的阉割版,BF16算力降低到7%(144/1979),而H100是3年前,2022年3月发货的产品。与最新型号B300相比,H20的三个关键指标的相对值分别为33%(96/288)、2.8%(144/5000),50%(900/1800)。H20在中国以外的地方卖不掉,如果中国不卖,只能当垃圾扔掉,亏损55亿美元。
性能落后的H20仍然在中国大卖,没有被国产GPU替代,是因为英伟达有卡脖子技术:BF16算力、nvlink、CUDA生态。
接下来这一段的技术名词较多,看不懂的段落可以跳过,不影响看懂结论。
BF16和FP16都是用16位存储一个数,形式是科学计数法,例如0.3141×10^1。差别在于BF16格式用8位存储指数部分,用7位存储小数部分。FP16格式用5位存储指数部分,用10位存储小数部分。BF16的表示范围较大,[9.2×10^(-41),3.38953139×10^38],但精度较低。FP16的表示范围较小,[5.96×10^(-8),65504],但精度较高。
BF16格式更适合大模型,训练时更容易收敛,训练花费时间短。如果用FP16格式,训练模型时容易梯度爆炸,不收敛,得微调参数,重新训练,训练花费时间长。英伟达GPU从2020年的Ampere 架构开始支持BF16。
有人会问,BF16不就是调整一下位数吗?看起来很简单,到底难在哪里?
仅仅增加BF16存储小数的功能不难,难的是后续有一大堆芯片单要设计,例如BF16的加法器、乘法器、矩阵乘。BF16的数据宽度得与GPU的寄存器、缓存、内存接口等存储系统匹配。还得跟FP16、FP32、INT8等格式转换。软件上,编译器和所有的函数库都要适配BF16。还得跟英伟达的FP16兼容,否则,在英伟达芯片上跑到好好的,换成你的芯片就出错,用户肯定要骂你。
最先进的国产GPU,华为昇腾(Ascend)910C还不支持BF16, 预计2026年910D会支持,落后英伟达6年。
英伟达的NVlink用来在两个GPU之间高速通信,B200 GPU的带宽是1.8TB/s。华为昇腾(Ascend)910C的互连带宽为392GB/s[2],是nvlink的22%。
FP16算力和NVlink超车虽然很难,但只要能追上,立刻就会有被很多人接受。CUDA生态不一样,即使做得比CUDA好,仍然很难让程序员接受。
CUDA是英伟达芯片上的编程语言,学习难度很大。对程序员来说,学习一门新的编程语言,只需要花费一两天就能掌握个大概,能写出一个及格的程序。对CUDA语言,一两周也难写出及格的程序。熟练掌握性能优化技巧,得用练习半年。
黄仁勋说,中国有150万会CUDA编程的人。全世界的CUDA开发者人数没有准确数字,不妨假设500万人。这些人学习CUDA费了很大的劲,CUDA是他们的饭碗,肯定不愿意轻易丢掉CUDA,再去学习一门替代CUDA的编程语言,去使用一种新的芯片,去跟刚毕业的学生回到同一起跑线。
有人可能会问,国产GPU能不能兼容CUDA编程呢?这样就没有学习成本了。
好问题,黄仁勋在2006年11月发明CUDA语言的时候,就防着这招了。老黄坚持CUDA不开源,闭源,不让竞争对手兼容。
国产GPU只能设计自己的编程语言,然后想办法让全世界的开发者去用,具体来说就是深度学习框架pytorch的开发者,大模型开发者社区“抱脸huggingface”社区的开发者,大模型部署软件vllm的开发者,OpenAI、谷歌、脸书、马斯克的xAI这些大公司,斯坦福大学等高校的教授。
这些人是AI技术的源头,他们发明各种AI新技术,写成论文公开发表,将训练好的代码和权重开源。第二梯队的科技公司、高校快速跟进,在美国的人基础上做一些微调,加入一些本地化的应用。
从前面的分析知道,国产GPU想要在中国替代英伟达,得先卖到美国去,让AI技术的发明人主动用起来。根据英伟达GPU的发家经验,国产GPU的性能指标必须超过英伟达10倍,开发者才愿意换掉熟悉的硬件。
跟在英伟达的屁股后面,老是对标英伟达2年前、3年前的产品,百分之一万地替代不了英伟达。
国产GPU厂商有这么几家。景嘉微,国内最早布局GPU的企业,专注于军用和信创领域。摩尔线程,成立于2020年的摩尔线程,同时布局消费级显卡和 AI 计算芯片。沐曦集成电路,聚焦AI计算领域,产品有曦思N100(推理)和曦云C500(训推一体)系列芯片,2023年量产以来累计销量突破2.5万颗。壁仞科技,专注高性能通用GPU,其BR104芯片采用自研架构,浮点运算效能达国际旗舰产品90%。
华为,最先进的芯片是昇腾(Ascend)910D。媒体报道中没有找到910D的性能参数,一个AI自媒体[3]在2025年6月23日爆料,Ascend 910D的FP16算力预计800-1000Tflops,达到英伟达B200的BF16算力的16%至20%。
国产GPU想超车,只有直道硬拼,没有弯道。硬件、软件目标各有一个,芯片算力指标超过英伟达最新产品10倍,设计出一种好学好用的编程语言。很多网友觉得只是芯片制造环节被卡脖子,没有光刻机,芯片设计环节很强很牛逼。实际上,芯片设计能力有至少6年差距,BF16功能就是一个例子。
国产GPU厂商设计一种新的编程语言是一个很大的挑战。世界流行的编程语言前50名[4],没有一种是中国人或者中国企业发明的。
2020年1月15日,中国科学院计算技术研究所正式对外发布由该所计算机体系结构国家重点实验室编译技术团队自主研发、面向新一代人工智能和物联网应用的“木兰”编程语言体系,并推出“木兰”开源软件包。发布时宣称该编程语言由编译组完全自主设计、开发和实现,与之配套的编译器与集成开发工具也完全由团队自主实现。
有开发者立刻发现,木兰语言只是套壳Python语言,涉嫌造假。随后,木兰语言研发团队负责人刘雷承认在接受记者采访中故意夸大为完全自主开发。2020年1月19 日,中科院计算所官方表示,木兰语言存在欺瞒和虚假陈述,已对当事人刘雷停职检查。2020 年1月23日,中科院计算所官网发布调查与处理意见,决定取消刘雷五年内专业技术岗位晋升的申请资格等多项处罚。
吹牛忽悠不了程序员,因为程序员的信条是“Talk is cheap, show me the code.”屁话少说,放码过来。新闻稿夸成花,PPT写得再漂亮,不行就不行,编译器不会因为你自研就不报错。
在这样的条件下,国产GPU厂商想设计出一种优秀的编程语言,难度很大。
英伟达在2006年至2010年推广GPU的时候,往各个大学猛送GPU。在中国,英伟达选中了中科院过程所。当时过程所的老师、学生,后来都成了技术大牛、大老板。
国产GPU厂商在硬件、软件超车之后,还要舍得砸钱赠送。三大关口,超车不知道要花几年。
拭目以待!
全文完,感谢阅读,欢迎点下关注,参加原始股东计划。
如何成为原始股东?只需1步:关注公众号“小小河”,限额前1万人。如何参与抽奖分红?给文章留言、点赞、点心♡,每种互动的中奖权重均为1。如果3种互动都参加了,那么中奖权重为3。抽3人平分文章流量收入的一半,直接给现金红包。苟富贵,无相忘。
[1] https://juejin.cn/post/7359893210796376075
[2] https://www.toutiao.com/article/7517439974522765862
[3] https://weibo.com/1402400261/PxPvm0t9q
[4] https://www.tiobe.com/tiobe-index/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.