1 亿大单：150P@FP16/BF16 半精度算力、440 张卡|通用|fp|算法|软硬件|高吞吐量内核

1 亿大单：150P@FP16/BF16 半精度算力、440 张卡

2025-07-23 17:32:16　来源: 云头条

北京举报

分享至

2025 年 7 月 1 日，宣城市城市运营发展集团有限公司发布《通用 AI 算力设备》招标公告，预算 10570.42 万元。

货物需求：

采用国产自主品牌加速卡，可广泛应用于通用计算、新算法研究等场景，具备自研通用 GPGPU 架构和指令集，具有完全自主知识产权，架构提供强大的多精度混合算力提供 150P@FP16/BF16 半精度算力、集群规模不少于 440 张卡的人工智能算力集群，同步建设具有高带宽、低延迟的无损智算网络及具备纳管、调度算力、存储及通用算力的云管平台。

GPU 卡技术性能要求：

加速卡采用通用 GPU 架构，7 纳米制程及 2.5D CoWoS 封装技术，容纳 240 亿晶体管，芯片支持 FP32、FP16、BF16、INT8、INT16、 INT32 等多精度类型，支持高速片间互联，可达到 175 TFLOPS@FP16 的超强算力，集成 32GB HBM2E 内存芯片与主机之间由高速的 PCle Gen4 x16lane 完成，每条 lane 可达到 32Gb/s 的速度，芯片与主机间可提供 64GB/s 的数据吞吐率。

适配主流 CPU 芯片/服务器厂商，能够支持国内外主流软硬件生态和各种深度学习框架、算法模型和加速库，通过标准化的软硬件生态接口为行业解决产品使用难、开发平台迁移成本大等痛点，应用迁移成本低、耗时短、无需重新开发，可大幅缩短适配验证周期，使客户业务系统几乎无感知地使用。

针对通用计算和深度学习应用的开发和部署可提供了一套完善而高效的软件栈工具，支持 x86 和 ARM 等架构。集成多种主流的深度学习编程框架，并且提供基于 C/C++的编程接口拓展和高性能函数库，赋予模型训练及推理更优异的性能表现，提供一系列调试和调优工具，可满足不同层次的应用开发及调试需求，为高性能计算和人工智能应用的开发和部署提供了便利。

开发者可简单高效地实现深度学习以及各类数据科学应用的开发和调试。软件栈支持主流深度学习编程框架及主流算子及网络模型，开发者可基于加速卡开发更加简洁且通用的应用。相应软件栈支持数据并发任务，适用于并行运算场景，提供高性能函数库，带来更高的程序执行效率。

供应商需结合自身对技术参数及要求项目理解，对技术方案配置进行补充和完善，包括但不限于高带宽低时延无损智算网络性能、云计算平台系统等相关软件。方案涵盖了实现 150P 算力服务所需的所有软硬件产品及服务。

中标结果

2025 年 7 月 22 日发布中标结果，北京九洲科瑞科技有限公司 105249250.00 元（中）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.