网易首页 > 网易号 > 正文 申请入驻

LLM省钱大测评!48块GH200,首个百亿级参数量实证

0
分享至

新智元报道

编辑:LRST 好困

【新智元导读】EfficientLLM项目聚焦LLM效率,提出三轴分类法和六大指标,实验包揽全架构、多模态、微调技术,可为研究人员提供效率与性能平衡的参考。

近年来,大型语言模型(LLM)如GPT系列取得了革命性进展,在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。

然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。

高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。

EfficientLLM项目应「效率测评」需求而生,也是首个针对LLM效率技术进行端到端、百亿级参数规模的系统性实证研究。

项目详情:https://dlyuangod.github.io/EfficientLLM/

模型库:https://huggingface.co/Tyrannosaurus/EfficientLLM

研究人员在配备了48块GH200和8块H200 GPU的生产级集群上执行效率测评,确保了对真实世界中LLM性能与能耗权衡的精确测量。

EfficientLLM的核心目标是为学术界和工业界的研发人员提供一个清晰、数据驱动的导航图,帮助研究人员在下一代基础模型的「效率-性能」复杂地貌中找到最佳路径。

EfficientLLM的三维评测框架与核心指标

研究人员创新性地提出了一个统一的三轴分类法来系统评估LLM效率,覆盖模型生命周期的关键阶段:

架构预训练(Architecture Pretraining)

此部分专注于为模型设计者和研究者在构建新型LLM架构时,提供关于计算资源和能源成本预算的精确分析,并深入评估了多种高效注意力机制变体(如多查询注意力MQA、分组查询注意力GQA、多头潜在注意力MLA、原生稀疏注意力NSA)以及稀疏混合专家模型(MoE)的效率表现。

微调(Fine-tuning)

针对需要将预训练基础模型适配到特定下游任务或专业领域的实践者,研究人员提供了参数高效微调(PEFT)方法的效率基准。评估涵盖了LoRA、RSLORA、DoRA等主流PEFT技术。

位宽量化(Bit-width Quantization)

面向模型部署工程师,研究人员评估了如何通过模型压缩技术(特别是无需重训即可直接部署的训练后量化方法,如int4和float16)有效降低服务成本和推理延迟。

评估指标

为全面刻画效率,EfficientLLM还引入了六个相互正交的细粒度评估指标:

1. 平均内存利用率(Average-Memory-Utilization,AMU)

2. 峰值计算利用率(Peak-Compute-Utilization,PCU)

3. 平均延迟(Average-Latency,AL)

4. 平均吞吐量(Average-Throughput,AT)

5. 平均能耗(Average-Energy-Consumption,AEC)

6. 模型压缩率(Model-Compression-Rate,MCR)这些指标共同捕捉了硬件饱和度、延迟与吞吐量的平衡,以及碳排放成本等关键因素。

基准测试涵盖了超过100个「模型-技术」组合,纳入从0.5B到72B参数规模的多种LLM。

EfficientLLM的三大核心洞见

效率优化是「没有免费午餐」的量化权衡(Efficiency Involves Quantifiable Trade-offs)

百余项实验清晰地表明,不存在一种能在所有维度上都达到最优的通用效率技术。

每一种被评估的方法,在提升至少一个效率指标的同时,几乎总会在其他某个或某些指标上有所妥协。

以稀疏混合专家模型(MoE)为例,能有效降低推理时的FLOPs(浮点运算次数)并提升下游任务的准确率,但其代价是峰值显存需求增加约40%(因为需要存储所有专家网络的参数)。

int4量化技术则展现了另一面:可以将模型的内存占用和能耗降低高达3.9倍,模型压缩率表现优异,但根据实测数据,通常伴随着约3-5%的任务平均得分下降。

最优效率策略高度依赖于具体任务和模型规模(Optima are Task- and Scale-Dependent)

效率的「最优解」并非一成不变,而是高度依赖于应用场景、模型规模和硬件环境。

高效注意力机制:在架构预训练阶段,对于内存资源极度受限的设备(如端侧推理),MQA(多查询注意力)因其共享键值头设计,展现出最佳的内存占用和延迟特性。

而当追求极致的语言生成质量时(以困惑度PPL为衡量标准),MLA(多头潜在注意力)则表现更优。若目标是最低能耗部署,NSA(原生稀疏注意力)则是首选。

PEFT方法的规模效应:在微调阶段,对于1B到3B参数规模的较小模型,LoRA及其变体(如DoRA,统称LoRA-plus)在特定的内存约束下能达到最低的性能损失(即最佳的任务表现)。

然而,当模型规模扩展到14B参数以上时,RSLORA在效率上反超LoRA,展现出更低的延迟和功耗。

对于超大规模模型的微调,参数冻结(仅更新部分层或组件)策略虽然可能牺牲少量任务精度,但能提供最佳的端到端微调延迟。

量化精度选择:在推理阶段,测试(涵盖Llama-3,DeepSeek,Qwen等1.5B至34B模型)表明,int4训练后量化能显著提升资源效率。

内存占用减少接近理论上的4倍,吞吐量(每秒处理词元数)在内存受限条件下可提升三倍,而平均任务性能得分仅有小幅下降(例如DeepSeek-R1-Distill-Qwen-14B的平均分从bf16的0.4719降至int4的0.4361)。

在16位浮点格式中,bfloat16在Hopper架构GPU(GH200/H200)上,相较于float16,始终在平均延迟和能耗方面表现更优,这得益于现代NVIDIA GPU对bfloat16运算的原生硬件加速。

LLM效率技术可广泛迁移至跨模态模型(Broad ApplicabilityAcrossModalities)

研究人员将EfficientLLM的评估框架成功扩展到了大型视觉模型(LVMs)和视觉语言模型(VLMs),如Stable Diffusion3.5、Wan2.1和Qwen2.5-VL等。

实验结果令人鼓舞:在LLM上得到验证的效率技术,如MQA/GQA等高效注意力机制,能够有效地迁移并改进LVM的生成质量(以FID分数为衡量标准);PEFT方法同样在LVM和VLM上取得了良好的性能-效率权衡,表明针对LLM的效率优化研究成果具有更广泛的适用性。

开放共享,赋能未来

研究人员即将开源完整的评估流程代码以及排行榜,在为全球的学术研究者和企业工程师在探索下一代基础模型的效率与性能平衡时,提供一个坚实的、可复现的、值得信赖的「指南针」。

研究成果可以为从业者提供基于严谨实证数据的可操作建议,帮助研究人员在具体的任务需求和资源限制下,做出更明智、更高效的模型和技术选型决策,而不是仅仅依赖理论推演或有限的经验。

LLM的效率优化是一个持续演进的系统工程,EfficientLLM的探索也仅是其中的一部分,诸如训练基础设施优化、基于强化学习的训练后对齐、测试时扩展策略等重要议题,开发团队计划在未来进行深入研究。

参考资料:

https://dlyuangod.github.io/EfficientLLM/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

原来他12年前就已离世!患病3年女儿不愿照看,死后为争遗产现身

白面书誏
2026-03-26 13:38:18
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

伊朗被美以单方面轰炸23天,为何革命卫队依旧不认输?

高博新视野
2026-03-24 08:00:16
斯人已逝,建议收藏:张雪峰最看好的十大黄金专业,高考家庭必存

斯人已逝,建议收藏:张雪峰最看好的十大黄金专业,高考家庭必存

云隐南山
2026-03-25 20:56:01
4月1日起执行!高血压糖尿病患者必看:3件事现在办,省钱又省心

4月1日起执行!高血压糖尿病患者必看:3件事现在办,省钱又省心

牛锅巴小钒
2026-03-26 13:38:17
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
社保基金与外资持仓版图曝光:7只个股获“双重青睐”,最高年内涨超50%

社保基金与外资持仓版图曝光:7只个股获“双重青睐”,最高年内涨超50%

财闻
2026-03-26 16:59:58
加速心梗恶化的原因:饮酒排第5,排第1的,很多朋友天天做

加速心梗恶化的原因:饮酒排第5,排第1的,很多朋友天天做

岐黄传人孙大夫
2026-03-26 18:31:00
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

眼睛是“脑梗”的放大镜?医生说:眼睛若有这6个异常,及时就医

健康之光
2026-03-23 22:15:04
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
50岁保姆自述:月薪6千,包吃包住,却要满足男雇主各种要求

50岁保姆自述:月薪6千,包吃包住,却要满足男雇主各种要求

孢木情感
2026-03-26 14:13:28
黄天鹅晒出的检测报告上显示检测开始日期是2027年

黄天鹅晒出的检测报告上显示检测开始日期是2027年

映射生活的身影
2026-03-26 18:40:07
2026-03-26 21:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
家居
手机
教育
军事航空

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

家居要闻

傍海而居 静观蝴蝶海

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版