网易首页 > 网易号 > 正文 申请入驻

Mistral AI新旗舰模型挑战Llama 3.1!1230亿参数性能直逼GPT-4o

0
分享至


智东西(公众号:zhidxcom
编译 孟强
编辑 云鹏

智东西7月25日消息,继Meta昨日推出开源Llama3.1模型之后,法国初创AI公司Mistral AI也加入了竞争行列,推出新一代旗舰模型Mistral Large 2。

该模型拥有1230亿参数,128k上下文窗口,可以在单个节点上以高吞吐量运行,支持包括中文在内的数10种语言、80多种编程语言,在多项基准测试中接近GPT-4o和Claude 3.5 Sonnet,预训练版本的多任务语言理解准确率高达84%,击败Llama 3.1 70B。

除了性能上的提升,Mistral AI还投入大量成本增强该模型的推理能力,训练的重点放在减少模型产生“幻觉”的概率,通过微调模型,使其在响应时更加谨慎和敏锐,提升模型输出的精准度和可信度。

一、多任务语言理解超越Llama 3.1 70B

Mistral Large 2拥有128k的上下文窗口,在代码生成、数学和推理方面比Mistral Large功能更强大,并提供更强大的多语言支持和高级函数调用功能,支持包括中文在内的10余种语言及Python、Java在内的80多种编码语言。

该模型拥有1230亿参数,与刚发布的Llama 3.1 405B的4050亿参数相比,参数数量偏少,但性能却在能接近后者,甚至在多项基准测试中表现接近GPT4-o和Claude 3.5 Sonnet。


▲Mistral Large 2与Llama 3.1 70B和Llama 3.1 405B在MMLU测试中的准确率对比

在MMLU(Massive Multi-task Language Understanding)测试中,Mistral Large 2的准确率击败Llama 3.1 70B。MMLU为大规模多任务语言理解测试,是一项综合评估,涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等方面。在此测试中,Mistral Large 2准确率高达84%,意味着该模型在多种任务和语言环境中都有出色的性能和广泛适应性。

二、训练过程中着重减少“幻觉”

Mistral AI表示,团队在训练过程中花费大量成本来增强Mistral Large 2的代码生成和推理能力。

在使用海量代码进行训练后,该模型的代码生成能力远超其前身Mistral Large,并且接近GPT-4o、Claude3 Opus和Llama 3 405B。


▲代码生成基准测试中Mistral Large 2与其他模型的性能和准确率对比


▲Mistral Large 2与其他模型在GSM8K(8-shot)和MATH(0-shot,no CoT)生成基准测试中的性能和准确率对比

在推理能力训练方面,Mistral Large 2的训练重点之一还在于尽量降低模型产生“幻觉”的概率。“幻觉”是AI系统,尤其是生成模型(如大语言模型)在生成内容时出现的虚假、错误或不准确的信息。经过微调后,Mistral Large 2在响应时更加谨慎和敏锐,确保提供的信息是可靠、准确的。

Mistral AI称,经过训练后,该模型能在自己无法找到解决方案,或没有足够自信能提供准确答案时,会承认无法回答该问题,而不是继续编造答案。

此外,Mistral AI还大幅改进了Mistral Large 2的指令遵循和对话能力。该模型在遵循精确指令和处理长时间多轮对话方面表现尤为出色。


▲Mistral Large 2与其他模型在通用对齐基准测试中的性能对比

同时,Mistral Large 2在生成答案时尽量保持简洁明了,以加快交互速度,增加该模型的成本效益。


▲Mistral Large 2与其他模型生成回答的平均长度对比

目前,Mistral Large 2可通过Mistral平台(la Plateforme)访问,在Mistral研究许可下,该模型可供非商业使用。商业应用需要Mistral的商业许可。此外,用户可以在le Chat上测试该模型,亲身体验其功能。

结语:在高性能和成本效益间找到平衡

AI模型研发正以前所未有的速度推进,全球科技巨头以及新兴初创公司之间竞争激烈,模型研发方向已不是一味地追求神经网络的规模,Mistral Large 2的发布预示着一个潜在的趋势,即AI模型要在高性能和成本效益间找到平衡。

Mistral AI表示,Mistral Large 2是其在成本效益、生成速度和性能上的新尝试。在参数量1230亿的情况下,性能能接近4050亿的Llama 3.1 405B,同时能快速提供简洁、准确的回答。几天前,三个小模型(Mistral Nemo、GPT-4omini、SmolLM)的陆续发布也表示,并不是参数量越大就越好。将来,我们期待更多更具成本效益的模型出现,提高AI生成模型生态的多元化。

来源:Mistral AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小姑子开走我60万陪嫁车,老公让我忍,我爸直接远程锁车叫拖车

小姑子开走我60万陪嫁车,老公让我忍,我爸直接远程锁车叫拖车

奶茶麦子
2026-04-14 11:47:20
51岁男子突发心梗却执意登机 血管堵塞程度高达99% 航司狂劝1小时

51岁男子突发心梗却执意登机 血管堵塞程度高达99% 航司狂劝1小时

闪电新闻
2026-04-13 14:36:28
告别“盲等”焦虑,上海公交车将有大变化!市民激动:方便太多!

告别“盲等”焦虑,上海公交车将有大变化!市民激动:方便太多!

纵相新闻
2026-04-14 09:00:03
非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

非国家工作人员受贿行贿入罪门槛降低!5月1日将迎最严反腐新规

新快报新闻
2026-04-13 20:40:09
太离谱!花452元买彩票中百万,老板忘打了 赔3600吧!法院判了!

太离谱!花452元买彩票中百万,老板忘打了 赔3600吧!法院判了!

朗威谈星座
2026-04-14 11:24:01
美伊谈崩了,散场还不到24小时,敌国导弹狂轰滥炸!中方态度坚决

美伊谈崩了,散场还不到24小时,敌国导弹狂轰滥炸!中方态度坚决

浪子阿邴聊体育
2026-04-13 07:06:27
“孩子太小不会看,随便投诉,去卫健委都行!”医生怒怼家属后,儿科只剩2名医生,医院无奈停诊!

“孩子太小不会看,随便投诉,去卫健委都行!”医生怒怼家属后,儿科只剩2名医生,医院无奈停诊!

医客
2026-04-12 12:15:44
吹阿森纳水瓶的球迷:瓶子是以前口渴时找枪手替补席要的

吹阿森纳水瓶的球迷:瓶子是以前口渴时找枪手替补席要的

懂球帝
2026-04-14 00:03:13
性学专家说:女人爱不爱你,根本不用试探,看清这一点就足够

性学专家说:女人爱不爱你,根本不用试探,看清这一点就足够

小影的娱乐
2026-04-09 04:41:35
住院手术娘家一个人没来,我没找,出院后,我妈突然打来电话质问

住院手术娘家一个人没来,我没找,出院后,我妈突然打来电话质问

云端小院
2026-04-14 08:42:31
赌王何鸿燊借运后辈们的瓜!

赌王何鸿燊借运后辈们的瓜!

八卦疯叔
2026-04-14 10:16:00
一周多达9次,46岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听

一周多达9次,46岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听

健身狂人
2026-04-14 13:10:32
陕西一中学生演出服集体退货,家长称活动取消,店家曝活动视频,校方:家长自发行为

陕西一中学生演出服集体退货,家长称活动取消,店家曝活动视频,校方:家长自发行为

大象新闻
2026-04-13 23:45:12
特朗普:伊朗签不签协议无所谓;若中国向伊朗提供武器将面临麻烦

特朗普:伊朗签不签协议无所谓;若中国向伊朗提供武器将面临麻烦

阿七说史
2026-04-13 15:10:46
辽宁一动植物园狮子被饿成“纸片”?园方:其丧偶后食量不断减少,目前进入恢复阶段

辽宁一动植物园狮子被饿成“纸片”?园方:其丧偶后食量不断减少,目前进入恢复阶段

界面新闻
2026-04-14 13:44:06
七中没想到,绵中没想到!四川“黑马”高中,全省瞩目!

七中没想到,绵中没想到!四川“黑马”高中,全省瞩目!

成都好学校
2026-04-14 09:51:24
哪个大聪明想出来的,用瓶盖收纳鸡蛋!

哪个大聪明想出来的,用瓶盖收纳鸡蛋!

新住家居
2026-04-09 07:06:35
彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

彭伟国:33岁退役,坐宝马开酒楼,财富自由,每天在约球和找美食

白面书誏
2026-04-08 13:59:47
女子和男友双失业,每天都在家睡觉,网友:男子已严重肾虚

女子和男友双失业,每天都在家睡觉,网友:男子已严重肾虚

天气观察站
2026-04-13 21:20:52
欧阳妮妮被质疑针对妹妹,曝光欧阳娜娜素颜,自己全妆叫对方保姆

欧阳妮妮被质疑针对妹妹,曝光欧阳娜娜素颜,自己全妆叫对方保姆

萌神木木
2026-04-13 17:57:47
2026-04-14 14:27:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11569文章数 117028关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

头条要闻

恒大集团、恒大地产及许家印案开庭 许家印认罪悔罪

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

家居
时尚
亲子
公开课
军事航空

家居要闻

复古风格 自然简约

今年科切拉的风吹向了谁?

亲子要闻

注意!这5类母婴用品别再乱买了,当心有害(附避坑攻略)

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版