网易首页 > 网易号 > 正文 申请入驻

异构计算时代需要新的数据处理基准测试

0
分享至


数据基础设施正在经历几十年来最重要的变革。生成式AI和异构加速计算环境的兴起正在重塑现代数据栈的核心需求,这些环境结合了不同类型的硬件。快速且经济高效地处理复杂数据集以支持AI和分析已成为决定运营效率和基础设施投资回报率的关键因素。

历史上,数据处理性能主要由查询规划器的复杂程度和执行引擎的性能决定,并假设底层硬件在各个系统中是相同的。此外,现有的数据处理基准测试(如TPC-DS和TPC-H)旨在在工作负载层面测试系统的性能和效率。

如今的数据中心配备了各种加速计算硬件,包括GPU、TPU和FPGA,数据处理性能和效率越来越受这些硬件组件的影响。曾经标准化的基础设施层已演变为具有不同优势和局限性的异构计算环境。

几乎每个硬件厂商都声称其硬件最适合数据处理,并引用峰值FLOPS、内存带宽和张量吞吐量等规格。但这些规格可能无法直接转化为真实数据处理工作负载的性能。例如,GPU可能标榜28千万亿次浮点运算能力,但其中大部分计算能力位于与ETL任务无关的张量核心中。即使规格相关,实际结果往往依赖于日益复杂的系统级交互,如CPU到GPU的连接、GPU到GPU的数据移动、系统中CPU与GPU的比例、内存容量和内存带宽。

对于负责设计集群和预测吞吐量的运营人员来说,规格表性能与真实工作负载性能之间的差距带来了重大风险:电力使用效率低下、加速器容量闲置以及可能持续数年的次优节点配置。

结果是日益增长的脱节。数据中心运营商被迫基于不完整和误导性的指标做出关键的基础设施决策。正如CoreMark等基准测试帮助标准化CPU在各种任务中的性能一样,显然我们需要一种标准化的方法来测量当今的加速硬件,以确定哪些处理器在核心数据处理任务中表现最佳。

有效现代基准测试的特性

要使这样的基准测试产生影响,它必须准确反映现代基础设施的现实情况,而不是依赖过时的假设。实际上,这意味着要满足几个关键标准:

系统级测量

系统级测量是基础。基准测试必须评估节点内整个系统的性能,而不是评估单个组件。这要求数据集足够大,无法完全放入主机内存,迫使基准测试测量实际的数据移动模式和内存层次结构。这种方法防止具有更大缓存的系统获得不公平的优势,提供更真实的性能评估。

厂商中立

为确保在不同技术和架构之间进行公平比较,基准测试不能绑定到单一厂商。它还必须设计得避免偏向任何特定厂商的技术或方法,允许组织根据其特定需求而不是基准测试优化做出明智决策。

反映现代分布式系统

为准确反映现代分布式计算环境,基准测试应有效评估单节点和横向扩展多节点配置的性能。

覆盖多样化工作负载

ETL、商业智能和生成式AI工作负载各自对数据处理管道的不同方面产生压力。ETL工作负载强调扫描、投影、过滤、聚合和连接等操作,而商业智能工作负载增加了JSON处理、洗牌操作、窗口函数和Top-K查询的复杂性。生成式AI还引入了围绕数据提取、过滤、令牌化和嵌入生成的全新需求。全面的基准测试必须能够考虑所有此类工作负载。甚至可能需要对每个工作负载类别进行单独评估,认识到针对传统商业智能查询优化的系统可能无法在AI数据准备任务中表现良好。

前进之路

基准测试不仅仅是技术练习,它们塑造了企业评估技术和投资解决方案的方式。显然,没有现有的基准测试能够捕捉当今异构计算环境的细节以及各种加速硬件在数据处理方面的优势。

然而,开发这样的基准测试不是任何单一公司能够独自解决的挑战。它需要全行业合作来定义、验证和采用服务于整个生态系统的新标准。硬件厂商、软件开发商、数据中心运营商和最终用户需要协作创建准确反映现代数据处理系统性能特征的基准测试。

对于数据中心运营商来说,风险是显而易见的。数十亿美元正在投资于新的数据中心开发,这些设施的有效规划、设计和运营依赖于准确理解不同加速器在真实数据处理工作负载下的性能表现,而不是合成或面向训练的指标。行业有机会创建一个现代基准测试,提供做出更明智基础设施决策、避免代价高昂的错误步骤以及确保系统针对定义AI和分析未来的工作负载进行优化所需的清晰度。

Q&A

Q1:为什么现有的数据处理基准测试不适用于现代异构计算环境?

A:现有的基准测试如TPC-DS和TPC-H是基于硬件统一的假设设计的,主要测试查询规划器和执行引擎的性能。但现代数据中心包含GPU、TPU、FPGA等多种加速硬件,性能越来越依赖这些异构组件的复杂交互,传统基准测试无法准确反映这种复杂的系统级性能表现。

Q2:硬件厂商宣传的性能规格为什么不能直接反映实际数据处理能力?

A:厂商常引用峰值FLOPS、内存带宽等规格,但这些指标可能与实际工作负载无关。比如GPU的28千万亿次计算能力大部分在张量核心中,对ETL任务没用。实际性能还依赖CPU-GPU连接、数据移动、内存容量等系统级因素,规格表与真实性能存在很大差距。

Q3:新的数据处理基准测试应该具备哪些特性?

A:新基准测试需要满足四个关键标准:系统级测量整个节点性能而非单一组件;厂商中立避免偏向特定技术;反映现代分布式系统的单节点和多节点配置;覆盖ETL、商业智能和生成式AI等多样化工作负载需求,每种工作负载可能需要单独评估标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国AI算力暗战:字节阿里押注英伟达,讯飞全国产,百度走双轨

中国AI算力暗战:字节阿里押注英伟达,讯飞全国产,百度走双轨

刘旷
2026-03-06 08:53:37
豆瓣9.1,它是这个时代最该读的科幻巨著!

豆瓣9.1,它是这个时代最该读的科幻巨著!

卖书狂魔熊猫君
2026-03-06 18:50:58
拒绝花里胡哨!315选车清单:全新RAV4荣放才是“长期主义yyds”

拒绝花里胡哨!315选车清单:全新RAV4荣放才是“长期主义yyds”

汽车预言家
2026-03-06 12:04:47
罗荣桓新婚遇尴尬,新娘“战死”的前夫回来了,毛主席出面解难题

罗荣桓新婚遇尴尬,新娘“战死”的前夫回来了,毛主席出面解难题

微野谈写作
2026-03-07 07:00:03
朱拉尼终于出手了,趁着以色列后方空虚,开始不断蚕食戈兰高地!

朱拉尼终于出手了,趁着以色列后方空虚,开始不断蚕食戈兰高地!

阿校谈史
2026-03-06 20:37:42
时隔298天!凯尔特人官宣塔图姆正式复出 联手布朗再冲总冠军

时隔298天!凯尔特人官宣塔图姆正式复出 联手布朗再冲总冠军

罗说NBA
2026-03-07 05:20:58
NBA选秀最惨的一届,17届状元富尔茨签约加盟猛龙下属G联盟球队!

NBA选秀最惨的一届,17届状元富尔茨签约加盟猛龙下属G联盟球队!

田先生篮球
2026-03-07 10:04:56
2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

2026中国百强城市指数榜单发布!一线城市洗牌,江苏13市全部入选

GYbrand
2026-03-05 22:03:13
女流直播突然孩子哭闹,被迫过去“垫一口”,网友:不行下播吧

女流直播突然孩子哭闹,被迫过去“垫一口”,网友:不行下播吧

相思赋予谁a
2026-03-05 16:09:12
曝曼联为奥纳纳标价4500万!真买不起,特拉布宗体育宣布今夏退货

曝曼联为奥纳纳标价4500万!真买不起,特拉布宗体育宣布今夏退货

罗米的曼联博客
2026-03-07 09:30:35
我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

我国崩塌最彻底的专业,从年薪20万到找不到工作,毕业即失业!

黯泉
2026-02-10 22:00:47
人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

医学原创故事会
2026-02-21 23:54:05
中兴通讯:拟使用不超过 400亿元自有资金进行 委托理财

中兴通讯:拟使用不超过 400亿元自有资金进行 委托理财

每日经济新闻
2026-03-06 23:28:26
足以碾压《斯巴达克斯》的5部黄暴美剧,尺度逆天、全程高能

足以碾压《斯巴达克斯》的5部黄暴美剧,尺度逆天、全程高能

小微看电影
2026-02-27 05:50:03
娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

林轻吟
2026-03-01 19:35:00
今晚首播!央视30集年代女性大剧来袭,主演阵容强,这剧收视要爆

今晚首播!央视30集年代女性大剧来袭,主演阵容强,这剧收视要爆

草莓解说体育
2026-03-07 06:34:20
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
“地表最强小三”!48岁拿下百亿老头却直言:我对钱根本没兴趣

“地表最强小三”!48岁拿下百亿老头却直言:我对钱根本没兴趣

往史过眼云烟
2026-03-05 11:19:39
OpenClaw机器人引爆天网!首次拥有世界记忆,天网在GitHub「开源」了

OpenClaw机器人引爆天网!首次拥有世界记忆,天网在GitHub「开源」了

新智元
2026-03-06 06:58:02
西方战略专家感叹:中国是全世界,唯一强得悄无声息的超级大国!

西方战略专家感叹:中国是全世界,唯一强得悄无声息的超级大国!

勇士军武闲谈
2026-03-05 11:20:31
2026-03-07 10:56:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16583文章数 49694关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

头条要闻

媒体:美国打仗遇到人口3000万以上国家就没法全身而退

体育要闻

中国象棋,正在被一个越南人攻陷?

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

本地
房产
旅游
数码
军事航空

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

旅游要闻

重磅上新!北京再添四座国家级博物馆|北京经济新航标

数码要闻

英特尔酷睿Ultra 5 250K Plus处理器PassMark跑分曝光

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版