网易首页 > 网易号 > 正文 申请入驻

源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

0
分享至

北京2024年8月23日/美通社/ -- 近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其创新性地提出和采用了"基于注意力机制的门控网络"技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

总之,源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。

源2.0-M32量化版已开源,下载链接如下:

Hugging Face平台下载链接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平台下载链接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梅西又创世界杯神纪录!7场连续破门首人,39岁首球,连创10纪录

梅西又创世界杯神纪录!7场连续破门首人,39岁首球,连创10纪录

奥拜尔
2026-06-28 11:46:41
中国若退出本届亚运会

中国若退出本届亚运会

小马姨
2026-06-28 13:43:53
视频丨轰-6K、图-95共同飞越宫古海峡 专家详解中俄巡航编队细节

视频丨轰-6K、图-95共同飞越宫古海峡 专家详解中俄巡航编队细节

环球网资讯
2026-06-28 15:40:18
金价!大家要有心理准备了,下周,金价或将迎来大风暴

金价!大家要有心理准备了,下周,金价或将迎来大风暴

趣味萌宠的日常
2026-06-28 15:17:02
尊界冲刺138.8万元 余承东照着提词器念了20分钟

尊界冲刺138.8万元 余承东照着提词器念了20分钟

经济观察报
2026-06-27 21:03:27
瑞典一女部长带3个月婴儿参加欧盟会议,发言时婴儿突然啼哭,她一句话幽默回应

瑞典一女部长带3个月婴儿参加欧盟会议,发言时婴儿突然啼哭,她一句话幽默回应

大象新闻
2026-06-27 10:54:09
人社部56号令落地!7月起工资、养老金迎来巨变!!

人社部56号令落地!7月起工资、养老金迎来巨变!!

陈博世财经
2026-06-27 10:54:50
老板过年发箱苹果,同事都扔了,我搬回家切开后发现……

老板过年发箱苹果,同事都扔了,我搬回家切开后发现……

麦子情感故事
2026-06-27 16:25:18
电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

电影《抓特务》票房扑街,这个时代的观众不喜欢任何人通过电影“夹带私货”

明叔杂谈
2026-06-27 20:18:56
哥伦比亚葡萄牙刚果(金)三队出线,韩国被淘汰了

哥伦比亚葡萄牙刚果(金)三队出线,韩国被淘汰了

澎湃新闻
2026-06-28 09:34:27
巴媒:佛得角队长瑞安-门德斯涉嫌强奸,新西兰警方正在调查

巴媒:佛得角队长瑞安-门德斯涉嫌强奸,新西兰警方正在调查

懂球帝
2026-06-28 01:36:06
世界杯32强对阵:巴西vs日本、葡萄牙vs克罗地亚、阿根廷vs佛得角

世界杯32强对阵:巴西vs日本、葡萄牙vs克罗地亚、阿根廷vs佛得角

懂球帝
2026-06-28 12:03:42
四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

四川男子被骗园区后续!姐姐赴泰挖出猛料,多方勾结,根本防不住

辉哥说动漫
2026-06-27 15:39:30
彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

彻底凉凉!黄一鸣案判了,结果大快人心,难怪王思聪不认孩子

赵昉是个热血青年
2026-06-27 19:49:44
外国网友热议阿尔及利亚3-3奥地利:斯皮尔伯格,你的剧本不错

外国网友热议阿尔及利亚3-3奥地利:斯皮尔伯格,你的剧本不错

懂球帝
2026-06-28 13:13:04
加息大消息!美联储,重磅来袭

加息大消息!美联储,重磅来袭

证券时报
2026-06-28 16:31:28
网传72人聚众淫乱遭连锅端?律师:最高可判5年有期徒刑

网传72人聚众淫乱遭连锅端?律师:最高可判5年有期徒刑

北京郑律师
2026-06-28 00:07:05
最牛美女处长,1000天和男上司开房410次,临时工晋升财务副处长

最牛美女处长,1000天和男上司开房410次,临时工晋升财务副处长

天气观察站
2026-06-28 15:55:53
阿根廷奥地利阿尔及利亚三队出线,伊朗被淘汰了

阿根廷奥地利阿尔及利亚三队出线,伊朗被淘汰了

澎湃新闻
2026-06-28 12:02:27
随着阿根廷3-1,奥地利3-3,世界杯32强全部诞生:亚洲仅2队

随着阿根廷3-1,奥地利3-3,世界杯32强全部诞生:亚洲仅2队

侧身凌空斩
2026-06-28 12:04:42
2026-06-28 20:07:00
美通社PRNewswire incentive-icons
美通社PRNewswire
全球最大的商业新闻通讯社
64872文章数 12334关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

头条要闻

李在明发文批韩国队:把无能之辈放到指挥位置是失败

体育要闻

韩国可算确定被淘汰了

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

数码
家居
艺术
游戏
公开课

数码要闻

机械师GTR迷你主机新增“R7 255H + 16G + 1T”规格,4699元

家居要闻

绿意盎然 自然之境

艺术要闻

23幅 张文惠风景油画选

《天国:拯救3》明年发售?开发商同时开发两款RPG

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版