他山石智库专家,郑纬民院士,出席信百会2024年度研讨会聚焦“因‘智’生力,向‘数’而新,AI驱动数字经济新发展”主题。会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民发表了关于AI大模型算力与国产AI芯片生态的重要演讲。
郑纬民指出,当前AI大模型正经历从单模态向多模态的发展,其广泛应用导致算力需求爆发式增长。然而,与英伟达等国际巨头相比,国产AI芯片在生态系统方面存在明显不足。他强调,算力存在于大模型生命周期的每一环,包括模型研发、训练、精调和推理,且成本高昂。例如,GPT-4的训练使用了1万块A100芯片,耗时11个月,开销高达2亿美元;ChatGPT每天的推理开销也达到70万美元。
在算力成本中,大模型训练阶段算力占比70%,推理阶段则高达95%。郑纬民提到,目前有三种系统支持大模型训练:基于英伟达芯片的GPU系统、基于国产AI芯片的系统以及基于超级计算机的系统。尽管国产AI芯片在软硬件方面取得了显著进展,但用户接受度不高,主要因为生态系统不完善。他定义,如果原有基于英伟达CUDA的软件能轻松移植到国产系统,且编写方法相近,则视为生态良好。
郑纬民认为,要优化国产AI芯片生态,需在系统设计和软件优化上下功夫,包括编程框架、并行加速、通信库、算子库、AI编译器等十个方面。他预计,即使国产AI芯片性能达到国外芯片的60%,只要软件生态做得好,用户也会满意。
此外,郑纬民还指出,国产芯片设计应注重半精度和双精度浮点计算性能的平衡,以适应更广泛的AI算法。他强调,网络平衡设计、I/O子系统平衡设计和内存设计等技术能力是国产AI芯片亟待解决的问题。
尽管近年来天数智芯、沐曦、摩尔线程、百度昆仑芯等GPU创业公司发布了新产品并投入量产,但采购量仍未起量,生态构建亟待加强。与此同时,英伟达有望在中国交付超过100万颗“中国特供版”H20芯片,今年在中国销售AI芯片总额预计达到约120亿美元。
最后,郑纬民强调,如果在大模型基础设施平衡设计方面做得好,可以显著降低算力需求。他呼吁业界共同努力,优化国产AI芯片生态,推动AI驱动的数字经济新发展。
郑纬民指出,国产芯片在设计层面不能一味追寻提升大模型训练多用的半精度(FP16)浮点计算性能,而应注重半精度和双精度(FP64)浮点计算性能的平衡,两者算力之比应为100:1,这样才能适应更广泛的AI算法。此外,大模型任务训练量大、往往需要多卡互联,芯片层的网络参数、体系结构、存储性能愈发成为关键。
他认为,国产 AI 芯片亟待解决网络平衡设计、I/O子系统平衡设计、做好内存设计等技术能力。
近年来,包括了天数智芯、沐曦、摩尔线程、百度昆仑芯等一众GPU创业公司发布新产品并投入量产,但由于软件生态等原因,采购仍未起量,生态构建亟待加强。而同时,据第一财经报道,尽管性能大幅下降,英伟达有望未来几个月内在中国交付超过100万颗“中国特供版”H20芯片,今年整体在中国销售 AI 芯片总额达到约120亿美元,而这些芯片不受美国对华 AI 芯片出口管制,每颗H20芯片价格则为1.2万-1.3万美金之间。
“如果把大模型基础设施平衡设计这些方面做好,别人用1万张卡,我们用9000张卡就可以了。如果这个事情不考虑,乱做一通,人家1万块卡,你可能得3万块卡才能达到(类似)效果。”郑纬民在演讲结尾表示。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.