China’s chipmakers are cleverly innovating around America’s limits
他们不断逼近工具性能极限,扩大规模并借助“模糊数学”
![]()
插图:Alberto Miranda
2025年10月22日
芯片领域的博弈始于2018年。当时,唐纳德·特朗普执政的美国(后来乔·拜登及特朗普再次执政时延续了这一政策)开始对希望向中国出售产品的半导体企业施加日益严苛的出口限制。这项高科技禁运措施的目的,是遏制中国自主打造先进芯片制造产业的雄心。
然而事与愿违,此举反而刺激了中国芯片产业的发展。中国政府希望本国企业能在硬件领域复刻其在软件领域的成功,突破美国的限制进行创新。今年1月,中国软件企业深度求索(DeepSeek)发布了一款人工智能模型,尽管训练时使用的计算资源仅为西方同类产品的一小部分,性能却能与之抗衡,这一成果震惊世界。如今,中国芯片制造商正试图在硬件领域实现类似突破:他们不断将工具性能推向极限,通过搭建大型处理器集群弥补芯片运算速度的不足,并将硬件与软件深度融合以榨取每一分性能。目前的关键问题在于,中国能否将芯片、系统、代码这些组件整合为一套自给自足且具备竞争力的人工智能“技术栈”。
![]()
图表来源:《经济学人》
首先来看芯片本身。风险投资公司Edgerunner Ventures的瑞安·坎宁安(Ryan Cunningham)收集的数据显示,中国人工智能芯片的中位性能为114万亿次浮点运算/秒(teraflops),远落后于美国竞争对手(见图)。华为的旗舰人工智能芯片昇腾910C(Ascend 910C)运算性能为800万亿次浮点运算/秒,而英伟达(Nvidia)的高端产品B200则能达到2500万亿次浮点运算/秒。
双方存在差距的一大原因是先进芯片制造难度极高。过去半个世纪里,提升微芯片运算速度最可靠的方法是缩小晶体管尺寸——晶体管是微小的电子开关,其“开”“关”状态分别对应二进制运算中的“1”和“0”。英伟达B200芯片包含2080亿个晶体管,这些晶体管被划分为数千个独立核心,全部集成在一块几十毫米宽的硅片上。
目前全球仅有三家企业有能力制造采用最先进极小尺寸晶体管的芯片:韩国的三星半导体、中国台湾的台积电(TSMC),以及(在一定程度上)美国的英特尔(Intel)。台积电在该市场占据主导地位,但在美国的压力下,其最先进的工厂已不对中国客户开放。中国企业只能依靠中芯国际、华为等本土芯片制造商满足需求。
但中芯国际和华为同样面临限制。芯片制造工厂需要使用由另一批企业生产的先进机床。例如,光刻机利用光线在硅晶圆上蚀刻出构成微芯片的电路图案。这就像毛笔比蜡笔能画出更精细的线条一样,波长更短的光线能蚀刻出更细微的电路细节。最先进的光刻机采用波长为13.5纳米(1纳米等于十亿分之一米)的极紫外光(EUV),这类设备仅由荷兰企业阿斯麦(ASML)生产,该公司花费数十年才完善了这项技术。
再次受美国压力影响,阿斯麦不会向中国芯片制造商出售极紫外光刻机。因此,中国企业只能选择将老旧的“深紫外光”(DUV)光刻机——采用193纳米波长光线——的性能推向极限。其中一种策略是“多重曝光”:工程师不再对晶圆进行单次曝光,而是重复多次曝光流程,逐步构建出单次曝光无法实现的更小电路结构。
不过,多重曝光技术也会带来弊端:它会增加成本、减慢生产速度,并降低良率(即每片晶圆上无缺陷芯片的比例)。对中国而言,自给自足的重要性或许远超效率,但深紫外光技术的性能提升存在物理极限。多数分析师认为,除非中国能获得阿斯麦极紫外光刻机的供应,否则大规模生产最先进芯片仍需数年时间。
既然中国在芯片质量上仍处于追赶状态,另一种选择便是追求数量优势。人工智能的数学特性使其非常适合“并行计算”——即将一项任务拆分为多个小块,由多颗芯片同时处理。今年4月,华为发布了CloudMatrix 384人工智能系统,该系统专为数据中心机架设计,将384颗昇腾910C芯片连接在一起,目标是与英伟达的GB200 NVL72系统竞争(后者搭载72颗B200芯片)。
咨询公司SemiAnalysis估计,单颗昇腾芯片的性能约为英伟达B200的三分之一。因此,华为使用五倍于对手的芯片数量,使其系统性能略低于英伟达产品的两倍。这种设计的代价是功耗:华为该系统耗电量达600千瓦,是英伟达设备的四倍多。但坎宁安认为这是合理的权衡,他指出“能源在中国并非问题”。
以这种方式连接大量芯片,也恰好发挥了华为的优势——该公司在计算机网络领域早已树立良好口碑。CloudMatrix 384系统以光脉冲而非电信号传输数据,这种被称为“光网络”(optical networking)的方式,比传统电网络功耗更低、产生的废热更少。光网络过去主要用于长距离光纤通信,如今正逐步应用于数据中心。投资公司伯恩斯坦(Bernstein)的芯片分析师Qingyuan Lin表示,华为的这一方案正“从根本上改变”人工智能基础设施的构建方式。
中国这一战略的最后一环,是让硬件与运行于其上的软件实现高度适配。一个典型例子是芯片处理内部数值的方式。多数通用处理器采用32位或64位(即二进制位数)来表示数值。与十进制计数类似,可用的位数越多,能表示的数值范围就越大;更多位数也能更精确地近似那些无法被精确表示的数值(例如十进制中的2/3、二进制中的1/5,两者都会产生无限循环的数字模式)。但每一个比特(即每一个“1”或“0”)都需要一个晶体管来存储,额外的晶体管会消耗更多电能。
逐步突破
不过,人工智能模型对数学计算的精度有一定容忍度。因此,许多现代人工智能芯片选择仅用16位、8位甚至4位来表示数值。美国伊利诺伊大学厄巴纳-香槟分校的电气工程师拉凯什·库马尔(Rakesh Kumar)称,这是一种“简单但极具成效”的硬件优化方法。今年8月,已迅速成为中国人工智能领域标杆企业的深度求索,发布了一种新的数值格式:它采用8位存储数值,不区分正负,且完全不包含小数部分。
![]()
图表来源:《经济学人》
这种格式虽然无法表示大范围数值,精度也较低,但运算效率理应大幅提升。深度求索发布该格式后,中国芯片设计企业寒武纪科技的股价大幅上涨——其处理器已支持这种新格式。华为的芯片目前尚未支持,但预计很快也会跟进。
由此可见,中国打造本土人工智能技术栈的努力已取得良好开端,但仍有漫长的路要走。英伟达的CUDA人工智能编程工具仍占据主导地位;中国芯片设计企业在设计芯片时,最初仍依赖新思科技(Synopsys)、楷登电子(Cadence)等美国企业开发的程序(美国曾在今年5月禁止这两家企业向中国出口产品,后于7月放宽限制)。此外,尽管中国芯片在“推理”环节(即人工智能模型响应用户查询的过程)正逐步缩小与国际水平的差距,但在用于创建模型的“训练”环节,仍明显落后。模型训练需要将海量数据在内存中频繁读写,而先进存储芯片正是美国试图限制中国获取的另一类关键组件。
但如果将计算与人工智能视为国家安全的关键领域,中国芯片产业未必需要成为全球最顶尖水平才能发挥作用——只要具备竞争力,就能产生深远影响。■
说明:本号刊发来自各方的文章,是为了获得更全面的信息,不代表本号支持文章中的观点。由于微信公众号每天只能推送一次,无法即时更新,本站目前在腾讯新闻发布最新的文章,每天24小时不间断更新,请收藏以下地址(请完整复制),随时刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.