网易首页 > 网易号 > 正文 申请入驻

英伟达Mistral炼出新模型:12B小杯、128k上下文,性能超过Llama 3 8B

0
分享至


智东西
编译 陈骏达
编辑 Panken

智东西7月19日消息,昨日晚间,就在OpenAI推出GPT-4o mini模型不久后,英伟达和法国明星AI独角兽Mistral也联合发布了名为Mistral NeMo的小杯模型,旨在提供性能优越、部署便捷、安全性高的企业级AI功能。

Mistral NeMo的参数大小为120亿,具备128k的超大上下文窗口,具备同量级开源模型中最先进的推理、世界知识和代码能力。这一模型对包括中文在内的多种语言进行了优化,为全球企业应用这一模型提供了便利。

英伟达深度参与了这一模型的开发工作。Mistral NeMo的训练算力由英伟达提供,被纳入了英伟达的推理微服务NIM。因此,Mistral NeMo在部署于英伟达设备上时能获得性能优化,只需1块英伟达RTX 4500 GPU就可全本地运行。NIM也让Mistral NeMo模型具有较高的安全性,这对企业应用来说是不可或缺的。

此外,这一模型在发布时遵循了Apache 2.0许可证的要求,这是一种开源许可证,允许用户在保留版权声明的前提下自由使用、修改和分发代码,对商业用途十分友好。

一、同量级开源模型中表现最佳,还擅长11门语言

此先,谷歌和Facebook母公司Meta都曾发布过类似的小杯模型,但这些模型的上下文窗口仅有8k,这意味着它们在进行较复杂任务时有一定难度。而Mistral NeMo的上下文窗口大小达到了128k,这与昨天晚间OpenAI发布的GPT-4o mini是一样的。

根据Mistral提供的测试结果,Mistral NeMo在7个基准测试中都领先于谷歌和Meta的小杯模型。Mistral NeMo在开卷考测试OpenBookQA和常识测试CommonSense这2个基准测试上有较大的优势,这与Mistral NeMo较大的上下文窗口和120亿的参数有直接的关系。

▲Mistral NeMo 12B与Gemma 2 9B和Llama 3 8B在基准测试中的表现(图源:Mistral)

此外,Mistral NeMo从设计之初就瞄准了全球市场。这一模型在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面的表现较为突出,共支持100多门语言。

根据Mistral AI提供的测试结果,Mistral NeMo在多门语言上的表现都比Llama 3 8B高出10%左右。

▲Mistral NeMo与Llama3 8B在多语言基准测试中的表现

在处理非英语文本时,Mistral NeMo的效益有显著提升。这一模型使用了一个新的分词器Tekken,经过训练后能处理超过100种语言,相比之前Mistral模型使用的分词器,Tekken在压缩源代码和中文、法语、德语时的效率提高了约30%。在压缩韩语和阿拉伯语时,效率分别提高了2倍和3倍。与Llama 3的分词器相比,Tekken在大约85%的语言中都表现出更高的文本压缩能力。

Mistral NeMo经历了高级微调和优化,相比Mistral 7B,它在以下4个方面表现更好:指令执行、逻辑推理、连续对话处理及代码生成。

二、与英伟达深度合作开发,专为企业客户优化

英伟达深度参与了Mistral NeMo模型的开发。NeMo这一名字其实就来自于英伟达为企业AI平台NVIDIA NeMo,这一模型也是在英伟达的NeMo平台上云训练的。英伟达称Mistral AI在训练数据方面具有很多专业技能,而英伟达在软硬件优化方面经验丰富,二者的结合让这一模型能在各种丰富的应用场景中提供不错的表现。


▲英伟达面向企业的AI平台NeMo(图源:英伟达)

Mistral NeMo经过量化意识训练,能在处理低精度(如8位浮点数,FP8)表示的数据时仍然能保持高性能。这种方法确保模型在训练过程中就适应了低精度计算,从而在实际使用时可以直接使用低精度进行推理。

FP8是英伟达近期主推的一种新技术,对FP8的支持带来了更大的数据吞吐量和更高的计算性能。虽然数据精度有所降低,但是结合其它技术和工程手段,模型仍然可以提供和更高精度数据类型相媲美的结果,而且在性能和能效上有较大的改善。这对有意部署AI模型的中小型企业来说十分友好。

Mistral NeMo被纳入了英伟达的推理微服务NIM中,能在诸多使用英伟达设备的计算设备上提供性能优化的推理,支持成本极低的本地化部署,只需要1块英伟达Geforce RTX 4090或者英伟达RTX 4500 GPU就可全本地运行。NIM还提供了严格的验证流程与企业级的安全与支持,这也回应了不少企业对安全性的需求。

具备这些特性的Mistral NeMo可以在云端、数据中心或者本地工作站上运行。不过,根据英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗(Bryan Catanzaro)接受美国媒体VentureBeat采访时的表述,这一模型虽然对计算性能的要求有显著降低,但尚未降低到能在智能手机上运行的程度。英伟达对这一模型的预期用例是笔记本电脑或台式电脑。

此外,Mistral NeMo经过了专门的函数调用训练,这一特点与128K大型上下文窗口结合后,提升了模型在代码开发上的实用性。而开源发布则对企业商用这一模型提供了很大的便利。

结语:小杯模型战火愈演愈烈,英伟达联手Mistral开辟更大市场

经历昨晚的两个重大发布后,海外几乎所有AI领域的主要玩家都发布了他们的小杯模型。英伟达和Mistral在训练本次的Mistral NeMo模型时,专门面向企业应用,尤其是中小企业的应用进行了针对性的优化,这也显示出这一市场的巨大潜力。

英伟达作为当今AI浪潮中最大受益者之一,过去的主要收益来源都仰仗云端业务。本次他们通过推出面向企业的高能效低成本AI解决方案,或许能给企业环境中的AI应用带来新的可能性。让AI更接近最终用户的竞赛,正在不断升温。

来源:Mistral AI、英伟达、VentureBeat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列宣布已停止所有对法国防采购

以色列宣布已停止所有对法国防采购

财联社
2026-04-05 22:04:05
突发! 沙特遭袭 年产量约6000万吨 石化基地发生爆炸

突发! 沙特遭袭 年产量约6000万吨 石化基地发生爆炸

每日经济新闻
2026-04-07 10:18:32
燃气公司上门安检,根本不是查漏,真正目的是这3件事

燃气公司上门安检,根本不是查漏,真正目的是这3件事

阿芒娱乐说
2026-04-07 03:37:06
北京侨商会:沉痛悼念深切缅怀陈丽华会长

北京侨商会:沉痛悼念深切缅怀陈丽华会长

极目新闻
2026-04-07 11:23:19
特朗普再次点名北约、澳大利亚、日本、韩国:都不帮忙

特朗普再次点名北约、澳大利亚、日本、韩国:都不帮忙

环球网资讯
2026-04-07 08:32:07
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

共工之锚
2026-04-06 19:29:37
“唐僧”迟重瑞85岁妻子陈丽华去世!曝最后露面照,身家超百亿

“唐僧”迟重瑞85岁妻子陈丽华去世!曝最后露面照,身家超百亿

裕丰娱间说
2026-04-07 11:25:23
美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

美军营救飞行员一定会被拍成电影,加个女主角不就是《黄河绝恋》吗?

蓬辉堂
2026-04-06 20:09:28
安庆6岁失联女童确认遇害,35岁犯罪嫌疑人柳某某归案;女童父亲不愿多言,镇政府工作人员:一直在安抚家属情绪

安庆6岁失联女童确认遇害,35岁犯罪嫌疑人柳某某归案;女童父亲不愿多言,镇政府工作人员:一直在安抚家属情绪

极目新闻
2026-04-07 09:04:35
李亚鹏含沙射影,官媒下场无缝衔接配合,陈光标遮羞布被撕得粉碎

李亚鹏含沙射影,官媒下场无缝衔接配合,陈光标遮羞布被撕得粉碎

潮鹿逐梦
2026-04-05 16:56:45
“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

“北溪”事件重演?“土耳其溪”管道炸药疑云惊扰多方

环球网资讯
2026-04-07 06:56:19
以官员称内塔尼亚胡在与特朗普通话时警告美方勿仓促停火

以官员称内塔尼亚胡在与特朗普通话时警告美方勿仓促停火

国际在线
2026-04-07 07:13:04
世界名画:日本男乒全队冷漠死死盯着王楚钦庆祝 张本智和呆若木鸡

世界名画:日本男乒全队冷漠死死盯着王楚钦庆祝 张本智和呆若木鸡

风过乡
2026-04-07 07:01:02
伊朗玩命了!以色列,更大噩梦来了!

伊朗玩命了!以色列,更大噩梦来了!

大嘴说天下
2026-04-06 21:06:05
安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

南城无双
2026-04-07 02:27:36
标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

标价近20万的红宝石戒指,上海老夫妻花了不到3万买下,却被店主尾随跟踪并告上法庭!法院判了→

纵相新闻
2026-04-07 08:40:07
娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

娃哈哈百亿遗产纠纷迎转折!宗馥莉和弟妹被曝清明握手言和:共同去给宗庆后扫墓

快科技
2026-04-07 10:17:04
特朗普称4月7日即同伊朗达成协议的最终期限 “不可更改”

特朗普称4月7日即同伊朗达成协议的最终期限 “不可更改”

财联社
2026-04-06 23:28:10
56岁毛新宇被搀扶着祭扫!18岁漂亮女儿曝出,儿子一行为信息量大

56岁毛新宇被搀扶着祭扫!18岁漂亮女儿曝出,儿子一行为信息量大

温柔看世界
2026-04-06 13:18:12
醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

醒过来了!伊朗:美国的临时停火,只是为进一步侵略创造喘息之机

清沐执笔
2026-04-06 19:18:29
2026-04-07 12:16:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11517文章数 117024关注度
往期回顾 全部

科技要闻

年化营收300亿美元!Anthropic砸算力大单

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

头条要闻

北京侨商会:沉痛悼念深切缅怀陈丽华会长

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

房产
旅游
亲子
本地
公开课

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

旅游要闻

宿迁海选项羽NPC徐州刘姓男子夺冠,果然是“一生之敌”?项王故里景区:真不是故意的

亲子要闻

为什么说养孩子等于“毁容”?看看前后对比照,宝妈们的辛酸泪

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版