新年伊始,备受瞩目的华为ICT大赛挑战赛又有新进展。1月4日,来自全国多所知名高校的参赛队伍正式提交了初赛技术方案。这些方案其实就是参赛答卷。不久后,赛事评委们将根据这些方案进行评分,并选出最终晋级决赛的队伍名单。
小枣君之前曾经给大家介绍过华为ICT大赛挑战赛。这个比赛是华为ICT大赛的五大赛项之一,专门针对“超智融合(超算+智算)”主题,仅面向国内高校开放报名。
比赛以国产算力平台(昇腾和鲲鹏)为核心,重点考察参赛队伍在系统优化、算法调优方面的综合能力,极具创新性和挑战性,吸引了业界的广泛关注。
本次初赛方案提交,不禁让人对初赛的赛题内容产生了兴趣——初赛到底考了些什么呢?难度大不大呢?该如何进行准备?
接下来,我们就对赛题进行一个全方位的解读。
▉ 挑战赛初赛赛题分析
华为ICT大赛挑战赛分为初赛和决赛两个阶段,初赛采用线上的方式进行。比赛主办方会公布4道赛题,参赛队伍需要针对这4道赛题,提出相应的优化方案,并线上提交。
这4道赛题,具体是:
![]()
可以看出,第1题是基于鲲鹏CPU进行优化,第2-4题是在昇腾NPU上进行优化。这些赛题既涵盖了超算性能评估、算子优化等基础领域,又涉及大语言模型推理加速、新型大模型架构开发等前沿技术方向,对参赛队伍的知识储备和技术实力提出了全方位的考验。
我们先看第1题——HPCG优化。
HPCG,是指High Performance Conjugate Gradient(高性能共轭梯度基准测试)。
大家都听说过手机的“跑分”测试,超算也有自己的“跑分”测试。HPCG就是属于其中一种。
HPCG用于评估超级计算机在非结构化稀疏线性代数计算中的性能。相比另一种传统的HPL(High Performance Linpack,聚焦稠密矩阵计算)基准测试,HPCG更贴近真实科学计算、工程模拟的负载特征(如流体力学、有限元分析、地球物理模拟等)。
在超算领域,HPCG优化赛题非常经典,几乎每年都被各类竞赛所采用。在鲲鹏HPC平台上的各类性能优化竞赛上,HPCG优化也是“常客”。
挑战赛初赛阶段,要求参赛队在鲲鹏CPU上进行HPCG优化,并且限定了编译器、进程和线程的并行编程模型。我们可以把这道题看成一道“开胃菜”,难度适中。
再来看第2题——Pdist算子优化。
在神经网络的计算图中,每个节点就是一个算子,它是模型中最基本的计算单元。整个深度学习模型,可以看作是一个由数据和算子构成的有向无环图。算子接收一个或多个张量作为输入,执行特定运算后,产生一个或多个张量作为输出。
Pdist是机器学习、计算机视觉、自然语言处理等领域的基础算子,广泛用于聚类(如DBSCAN)、度量学习、目标跟踪、特征匹配等任务。Pdist算子优化,是一个平台性能优化的基础。
昇腾原生支持Pdist算子,并且在芯片硬件架构(如达芬奇架构的 Cube/Vector 计算单元)上进行了充分适配,可以通过算子级优化(如数据分块、并行计算)提升计算效率。
赛题要求参赛队在昇腾处理器上实现并优化Pdist算子,达到赛题任务书所要求的精度,并根据性能进行排名。
整体来说,这道题的难度相对较小。作为昇腾NPU上的第一道赛题,也算是一道“热身题”。完成这道赛题,会有利于拓展思路,更好地完成后面的赛题。
第3题,推理引擎加速。
近两年,大语言模型(LLM)从十亿参数发展到千亿参数级别,已在对话问答、代码生成、搜索增强、Agent编排、垂直领域知识问答等场景广泛落地。
模型规模越大,带来的问题也越多。例如:
计算量巨大:一次完整长上下文生成包含多轮解码;
延迟敏感:在线对话、搜索推荐、交互式编程对响应时间非常敏感;
成本敏感:大规模部署需要在有限GPU/NPU资源下尽可能提升吞吐。
因此,业界一直在不断优化LLM推理系统,包括引入vLLM、SGLang等高性能推理框架,通过KV Cache复用、张量并行、连续批处理等手段,提升生成吞吐。
第3道赛题,是前一道算子优化赛题的进一步扩展和延伸,要求参赛队针对推理采样后处理阶段进行优化,达成端到端推理加速的目的。
赛题任务书推荐了采用Triton融合算子进行加速的方法,同时也欢迎参赛队提出其他有效的优化方法。
基于第2和第3题,参赛队会发现,CANN(Compute Architecture for Neural Networks,华为针对AI场景推出的异构计算架构)的算子优化能力对于在昇腾NPU上进行AI模型性能优化非常关键。
作为昇腾AI全栈解决方案的核心,CANN发挥着承上启下的作用。
![]()
它提供了完善的工具链,支持将PyTorch、TensorFlow等框架的模型快速迁移到昇腾平台进行高效训练和推理。它还拥有超过1400个高性能原生算子,以及配套的Ascend C编程语言,可以很方便地进行融合算子的开发。
华为在2025年8月正式宣布CANN全面开源。通过代码开放、技术赋能和社区运营,已经构建了一个能够与主流生态竞争的、充满活力的昇腾AI生态系统。这也是本次挑战赛能够举办的重要前提。
第4题,Diffusion LLM单卡推理优化(基于昇腾NPU进行优化)。
最后一道赛题,由xLLM团队为本次挑战赛精心设计。这不仅体现了xLLM与昇腾团队的深入合作,也体现出xLLM团队对于高校人才生态的重视。
xLLM是一款高效的开源大语言模型推理引擎,基于国产人工智能芯片进行了深度优化,可实现企业级部署,兼具更高效率与更低成本。
xLLM采用服务-引擎分离的推理架构,通过多项技术实现效率突破:服务层包含在离线请求弹性调度、动态PD分离、面向多模态的混合EPD机制及高可用容错能力;引擎层则融合多流并行计算、图融合优化、投机推理、动态负载均衡与全局KV缓存管理等技术。
Diffusion LLM(dLLM)是近年来兴起的新型大模型架构,通过扩散过程生成文本,与传统自回归模型有显著差异。
本赛题要求参赛队基于xLLM,对LLaDA-MoE-7B-A1B-Instruct进行开发优化,实现在昇腾910B单卡上的高效推理。
这有一定的难度,要求参赛队伍不仅要熟悉昇腾NPU的硬件特性,还需深入理解Diffusion LLM的独特架构与运行机制。xLLM推理引擎的分离架构设计,为参赛队伍提供了灵活的优化空间,尤其是在服务层与引擎层的协同优化上,如何平衡资源调度、提升并行计算效率、减少内存占用,将成为关键挑战。
以上,就是关于4道初赛赛题的介绍。
总的来说,这些赛题不仅全面考察了参赛队伍在AI计算领域的综合技术能力,还通过不同难度层次的设置,引导队伍逐步深入探索昇腾NPU的优化潜力。从HPCG优化到Pdist算子实现,再到推理引擎加速与Diffusion LLM单卡推理,四道赛题形成了一个由浅入深、从基础到创新的完整技术链条,为参赛者提供了充分展示技术实力的舞台。
赛题虽然有一定的专业性,但内容也是开放的。在开源社区以及其它互联网平台,都可以找到参考文档、论文和源码。借助AI工具,也可以获得很多的帮助和支持。相对一些传统的超算赛事,这个比赛显然更具开放性,为更多学校参与进来创造了条件。
▉ 结语
华为ICT大赛挑战赛并不仅仅是一场大学生专业技术竞赛。它旨在践行“以赛促训、以赛促学、以赛促用”的理念,通过搭建高水平竞技平台,激发高校学子对国产算力平台及相关技术的兴趣与热情,助力专业人才培养。同时,赛事的举办,也能推动国产算力在高校中的普及应用,进一步促进生态体系的成熟完善。
不久后,晋级决赛的名单即将公布。究竟哪些高校团队能够顺利挺进下一轮,决赛赛题又会有怎样的设计?让我们拭目以待!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.