关注飞总聊IT,了解IT行业的方方面面。
一年一度的全连接大会,是华为最重要的会议。
今年的会议继续在上海召开。
华为轮值董事长徐直军在全连接大会上表示,美国对中国的制裁是长期的,中国的半导体制造工艺将长时期处于落后状态。
而人工智能发展的可持续化,首先就是算力发展的可持续化。
但是算力发展,只能基于实际可以获得的芯片制造工艺进行下去。
人工智能成为主导性算力要求,但是中国的半导体制造工艺将长时期处于落后状态。
因此现实来说,发展人工智能,和发展算力,都面临重重挑战。
这一点飞总确实是认同的。
当然,当前的 AI 基础设施在训练大型模型时,传统依赖单个数据中心进行同步训练的方法正面临瓶颈。
随着模型规模的增长,通信开销大幅增加,节点间的同步带来延迟,导致系统效率下降。
同时,落后者问题(最慢节点拖累整体进度)也愈发明显,限制了向单个任务扩展更多 GPU 的能力。
以 Meta Llama 3 的训练为例,训练过程中出现了多次中断和GPU 利用率下降的问题,突显了当前计算能力的局限性。
尽管增加 GPU 数量理论上能提升性能,但实际中,由于通信和同步问题,资源并不能得到充分利用。
这些挑战显示出目前 AI 计算发展的困境,也为未来基础设施设计提出了新的要求。
但是,伴随挑战的也有机遇。
AI计算推动了计算机系统的结构性变革,重点变成了整体系统的算力,而不仅仅是单个处理器的性能。因此,单个处理器的性能问题,中国半导体制造工艺长期落后的问题,只是一部分问题。
而整体系统问题,对华为的架构创新和自主研发是有利的。因为华为有全世界领先的连接技术和光通信技术,这些技术确保华为能够在多个超级节点进行高效率的链接。
所以,固然单个节点的计算能力受限于芯片的工艺,但是节点和节点之间的连接问题,在华为这里是有优势的。
所以,基于实际可以获得的芯片制造工艺,通过计算存储和网络协同创新,开创计算架构,打造超节点+集群系统算计解决方案,是目前可以解决中国的算力问题的方式。
华为的超节点可以达到数万张卡,而集群可以达到数十万张卡的系统算力。
这个解决方案还能够通过华为云的方式服务海外客户。
不知道大家对华为轮值董事长的发言,是怎么看的。我想其中一半应该是客观事实,半导体的制造工艺的突破需要的时间可能不是一年两年。
另外一半,则是能不能够通过高效连接更多的慢的卡,来达到整体算力的提升的目标。
这里,我想在芯片连接技术上的积累,确实没理由质疑华为。
但是英伟达的成功,也不仅仅是硬件的成功,还有软件生态的成功,而后者的复制性,似乎更难。
也许我们可以看到硬件解决的替代方案,但是软件层面到底要怎么样做,这只能等后续观察,才知道了。
我朋友西城李老斯最近写了一篇关于美国房价的文章:,有数据有分析,推荐给想买房的小伙伴和对房地产有兴趣的人读读。
欢迎订阅飞总知识星球:
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.