华为ICT大赛挑战赛，到底考了些啥？|张量|算子|赛题|算法|知名企业|ict大赛

华为ICT大赛挑战赛，到底考了些啥？

2026-01-05 11:38:37　来源: 鲜枣课堂

江苏举报

分享至

新年伊始，备受瞩目的华为ICT大赛挑战赛又有新进展。1月4日，来自全国多所知名高校的参赛队伍正式提交了初赛技术方案。这些方案其实就是参赛答卷。不久后，赛事评委们将根据这些方案进行评分，并选出最终晋级决赛的队伍名单。

小枣君之前曾经给大家介绍过华为ICT大赛挑战赛。这个比赛是华为ICT大赛的五大赛项之一，专门针对“超智融合（超算+智算）”主题，仅面向国内高校开放报名。

比赛以国产算力平台（昇腾和鲲鹏）为核心，重点考察参赛队伍在系统优化、算法调优方面的综合能力，极具创新性和挑战性，吸引了业界的广泛关注。

本次初赛方案提交，不禁让人对初赛的赛题内容产生了兴趣——初赛到底考了些什么呢？难度大不大呢？该如何进行准备？

接下来，我们就对赛题进行一个全方位的解读。

▉ 挑战赛初赛赛题分析

华为ICT大赛挑战赛分为初赛和决赛两个阶段，初赛采用线上的方式进行。比赛主办方会公布4道赛题，参赛队伍需要针对这4道赛题，提出相应的优化方案，并线上提交。

这4道赛题，具体是：

可以看出，第1题是基于鲲鹏CPU进行优化，第2-4题是在昇腾NPU上进行优化。这些赛题既涵盖了超算性能评估、算子优化等基础领域，又涉及大语言模型推理加速、新型大模型架构开发等前沿技术方向，对参赛队伍的知识储备和技术实力提出了全方位的考验。

我们先看第1题——HPCG优化。

HPCG，是指High Performance Conjugate Gradient（高性能共轭梯度基准测试）。

大家都听说过手机的“跑分”测试，超算也有自己的“跑分”测试。HPCG就是属于其中一种。

HPCG用于评估超级计算机在非结构化稀疏线性代数计算中的性能。相比另一种传统的HPL（High Performance Linpack，聚焦稠密矩阵计算）基准测试，HPCG更贴近真实科学计算、工程模拟的负载特征（如流体力学、有限元分析、地球物理模拟等）。

在超算领域，HPCG优化赛题非常经典，几乎每年都被各类竞赛所采用。在鲲鹏HPC平台上的各类性能优化竞赛上，HPCG优化也是“常客”。

挑战赛初赛阶段，要求参赛队在鲲鹏CPU上进行HPCG优化，并且限定了编译器、进程和线程的并行编程模型。我们可以把这道题看成一道“开胃菜”，难度适中。

再来看第2题——Pdist算子优化。

在神经网络的计算图中，每个节点就是一个算子，它是模型中最基本的计算单元。整个深度学习模型，可以看作是一个由数据和算子构成的有向无环图。算子接收一个或多个张量作为输入，执行特定运算后，产生一个或多个张量作为输出。

Pdist是机器学习、计算机视觉、自然语言处理等领域的基础算子，广泛用于聚类（如DBSCAN）、度量学习、目标跟踪、特征匹配等任务。Pdist算子优化，是一个平台性能优化的基础。

昇腾原生支持Pdist算子，并且在芯片硬件架构（如达芬奇架构的 Cube/Vector 计算单元）上进行了充分适配，可以通过算子级优化（如数据分块、并行计算）提升计算效率。

赛题要求参赛队在昇腾处理器上实现并优化Pdist算子，达到赛题任务书所要求的精度，并根据性能进行排名。

整体来说，这道题的难度相对较小。作为昇腾NPU上的第一道赛题，也算是一道“热身题”。完成这道赛题，会有利于拓展思路，更好地完成后面的赛题。

第3题，推理引擎加速。

近两年，大语言模型（LLM）从十亿参数发展到千亿参数级别，已在对话问答、代码生成、搜索增强、Agent编排、垂直领域知识问答等场景广泛落地。

模型规模越大，带来的问题也越多。例如：

计算量巨大：一次完整长上下文生成包含多轮解码；

延迟敏感：在线对话、搜索推荐、交互式编程对响应时间非常敏感；

成本敏感：大规模部署需要在有限GPU/NPU资源下尽可能提升吞吐。

因此，业界一直在不断优化LLM推理系统，包括引入vLLM、SGLang等高性能推理框架，通过KV Cache复用、张量并行、连续批处理等手段，提升生成吞吐。

第3道赛题，是前一道算子优化赛题的进一步扩展和延伸，要求参赛队针对推理采样后处理阶段进行优化，达成端到端推理加速的目的。

赛题任务书推荐了采用Triton融合算子进行加速的方法，同时也欢迎参赛队提出其他有效的优化方法。

基于第2和第3题，参赛队会发现，CANN（Compute Architecture for Neural Networks，华为针对AI场景推出的异构计算架构）的算子优化能力对于在昇腾NPU上进行AI模型性能优化非常关键。

作为昇腾AI全栈解决方案的核心，CANN发挥着承上启下的作用。

它提供了完善的工具链，支持将PyTorch、TensorFlow等框架的模型快速迁移到昇腾平台进行高效训练和推理。它还拥有超过1400个高性能原生算子，以及配套的Ascend C编程语言，可以很方便地进行融合算子的开发。

华为在2025年8月正式宣布CANN全面开源。通过代码开放、技术赋能和社区运营，已经构建了一个能够与主流生态竞争的、充满活力的昇腾AI生态系统。这也是本次挑战赛能够举办的重要前提。

第4题，Diffusion LLM单卡推理优化（基于昇腾NPU进行优化）。

最后一道赛题，由xLLM团队为本次挑战赛精心设计。这不仅体现了xLLM与昇腾团队的深入合作，也体现出xLLM团队对于高校人才生态的重视。

xLLM是一款高效的开源大语言模型推理引擎，基于国产人工智能芯片进行了深度优化，可实现企业级部署，兼具更高效率与更低成本。

xLLM采用服务-引擎分离的推理架构，通过多项技术实现效率突破：服务层包含在离线请求弹性调度、动态PD分离、面向多模态的混合EPD机制及高可用容错能力；引擎层则融合多流并行计算、图融合优化、投机推理、动态负载均衡与全局KV缓存管理等技术。

Diffusion LLM（dLLM）是近年来兴起的新型大模型架构，通过扩散过程生成文本，与传统自回归模型有显著差异。

本赛题要求参赛队基于xLLM，对LLaDA-MoE-7B-A1B-Instruct进行开发优化，实现在昇腾910B单卡上的高效推理。

这有一定的难度，要求参赛队伍不仅要熟悉昇腾NPU的硬件特性，还需深入理解Diffusion LLM的独特架构与运行机制。xLLM推理引擎的分离架构设计，为参赛队伍提供了灵活的优化空间，尤其是在服务层与引擎层的协同优化上，如何平衡资源调度、提升并行计算效率、减少内存占用，将成为关键挑战。

以上，就是关于4道初赛赛题的介绍。

总的来说，这些赛题不仅全面考察了参赛队伍在AI计算领域的综合技术能力，还通过不同难度层次的设置，引导队伍逐步深入探索昇腾NPU的优化潜力。从HPCG优化到Pdist算子实现，再到推理引擎加速与Diffusion LLM单卡推理，四道赛题形成了一个由浅入深、从基础到创新的完整技术链条，为参赛者提供了充分展示技术实力的舞台。

赛题虽然有一定的专业性，但内容也是开放的。在开源社区以及其它互联网平台，都可以找到参考文档、论文和源码。借助AI工具，也可以获得很多的帮助和支持。相对一些传统的超算赛事，这个比赛显然更具开放性，为更多学校参与进来创造了条件。

▉ 结语

华为ICT大赛挑战赛并不仅仅是一场大学生专业技术竞赛。它旨在践行“以赛促训、以赛促学、以赛促用”的理念，通过搭建高水平竞技平台，激发高校学子对国产算力平台及相关技术的兴趣与热情，助力专业人才培养。同时，赛事的举办，也能推动国产算力在高校中的普及应用，进一步促进生态体系的成熟完善。

不久后，晋级决赛的名单即将公布。究竟哪些高校团队能够顺利挺进下一轮，决赛赛题又会有怎样的设计？让我们拭目以待！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.