网易首页 > 网易号 > 正文 申请入驻

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

0
分享至

新智元报道

编辑:alan

【新智元导读】以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

作为欧洲的OpenAI,Mistral最近压力不小。

端侧小模型端不出来,对比评测的结果又遭到质疑。

上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。

不过世间纷扰,留待时间之中去见分晓。

毕竟Mistral AI当年也是以开源极客之姿杀入江湖的,以后的以后,圈内人总会想起有个一言不合就甩出磁力链的公司吧。

按照惯例,在9月份甩出多模态Pixtral 12B的开源链接之后,Mistral会在一段时间后放出技术报告。

我们来看一下Mistral家的第一个MMLM有什么新花样。

论文地址:https://arxiv.org/abs/2410.07073

开源代码:https://github.com/mistralai

首先,许多开源模型一般有个问题,就是为了多模态的性能而牺牲了本身的自然语言性能,之前英伟达的NVLM 1.0也谈到了这点。

Pixtral本次也是成功避开了这个缺陷,单单比较文本模型的性能,也在同等尺寸的模型中居于前列。

另一点与大多数模型不同的是,Pixtral选择从头开始训练了一个全新的视觉编码器。

基于此,Pixtral 12B输入图片的分辨率和长宽比不受任何限制,并且在128K的上下文窗口范围内,想放多少张图片都行!

从论文的测试结果来看,Pixtral 12B明显优于其他类似大小的开源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些评测中,表现比Meta家的多模态老大哥Llama-3.2 90B还要好。

最后,与开源模型一起,Mistral还贡献了一个开源基准测试MM-MT-Bench,用于在实际场景中评估视觉语言模型。

技术细节

当前的多模态大模型基本上都是:模态编码器 + 投影模块 + 大语言模型主干。

如果需要多模态输出,后面还会对称地拼接投影层和各种解码器。

所以,在模型结构方面,我们可以分部分来看Pixtral都做了哪些工作。

模型结构

Pixtral 12B整体为Transformer架构,在大规模交错图像和文本文档上进行了预训练,具备多轮、多图像对话的能力。

多模态解码器

Pixtral的大语言模型主干选择了自家的Mistral Nemo 12B,decoder-only架构。

内部维度14336,层数40,32个头分为4组(GQA),词表大小131072。

视觉编码器

视觉编码器部分是随Pixtral 12B一起新鲜出炉的PixtralViT。

顾名思义,采用ViT架构打底,4亿参数量。同时为了能够处理各种分辨率和纵横比的图像,作者对标准架构进行了四项关键更改:

Break tokens:为了帮助模型区分具有相同patch数量(相同区域)但纵横比不同的图像,需要在图像行之间加入[IMAGE BREAK],在图像序列的末尾加上[IMAGE END]。 FFN中的门控:在隐藏层中使用门控,而非注意力块中的标准前馈层。 序列打包:为了在单个批次中有效地处理图像,作者沿序列维度将图像展平并连接起来,并构建了一个块对角掩码,以确保来自不同图像的patch之间没有注意力泄漏。 RoPE-2D:在自注意层中用相对旋转位置编码代替传统的绝对位置嵌入。虽然必须对学习到的位置嵌入进行插值以处理新的图像大小(通常以牺牲性能为代价),但相对位置编码自然而然地适合可变的图像大小。

RoPE-2D的变换可以表示为:

这样的设计可以自然地以原始纵横比适应高分辨率和低分辨率图像,从而显著提高多模态任务的性能。

相比之下,传统的编码器一般就是针对ImageNet训练的,分辨率为224 × 224或336 × 336。

当应用到多模态语言模型(需要灵活执行标准分类任务,或者光学字符识别等任务)时,通常会将图像分解成更小的方块,然后再独立地将图块馈送到视觉编码器。

完整架构

Pixtral的视觉编码器通过两层全连接网络连接到多模态解码器(LLM)。MLP层维度不变,用于将视觉编码器的输出转换为解码器所需的输入嵌入大小,激活函数为GeLU。

多模态解码器对图像token的处理方式与文本token相同,包括所有token的RoPE-1D位置编码。解码器使用了因果自注意力机制,能够平滑地促进多图像对话等能力。

MM-MT-Bench

大多数现有的多模态基准测试,衡量的是模型在给定输入图像的情况下执行某种形式的多项选择问答的能力。

这种能力有用,但还不够。

大模型说到底是给人用的,比如有多模态能力的小助手或者聊天机器人。

在纯文本领域,MT-Bench可以很好衡量这种性能,它采用独立LLM裁判根据参考答案对模型的输出进行评分。

本文中,研究人员构建并发布了一个名为多模态MT-Bench(MM-MT-Bench)的新基准测试,风格与纯文本的MT-Bench类似,以评估指令调整的多模态模型的性能。

MM-MT-Bench总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。

为了评估模型,研究人员在对话的所有轮次中并行查询模型,为过去的轮次提供参考答案作为历史记录。裁判会独立对每个回合进行评分,并提供整个对话历史记录。

评分依据正确性(提取的信息是否正确)和完整性(标准答案是否涵盖了参考文献中提出的所有要点)以1到10的等级为对话进行评分。

MM-MT-Bench旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。

作者手动整理了图像、提示和答案,并验证了标签编写者的答案,确保所有提示都需要参考图像输入才能正确回答。

实验测试结果表明,MM-MT-Bench的性能与LMSys Vision排行榜上的ELO排名高度相关。

实验结果

在评估Pixtral和基线的过程中,作者发现多模态模型的评估协议没有标准化,设置中的微小变化可能会极大地改变某些模型的性能(比如要求模型生成与参考答案完全匹配时,6.0和6就可能是不同的)。

为了缓解这个问题,作者建议使用「Explicit」提示来明确指定参考答案所需的格式。

多模态性能

上表显示,在多模态基准测试中,Pixtral的性能大大优于所有同尺寸的开源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等闭源模型。

值得注意的是,Pixtral在针对实际用例的MM-MT-Bench上的表现优于所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的开源模型,Qwen2-VL 72B和Llama-3.2 90B。

不过,由于「Explicit」提示的原因,一些开源模型的性能远低于其报告的数字,这主要是由于模型没有遵循答案格式说明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

为了与这些模型进行透明的比较,下面使用更宽松的指标进一步评估。

语言性能

上表展示了在常见的纯文本基准测试(使用常见的提示和评估协议)中,Pixtral 12B与同等大小开源模型的比较结果。Pixtral没有为了追求多模态功能而牺牲文本理解,可以作为文本和视觉任务的通用模型。

参考资料:

https://arxiv.org/abs/2410.07073

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王曼昱输了,但有人该羞愧

王曼昱输了,但有人该羞愧

陈锌特色美食
2026-03-10 16:00:59
高岗遗孀李力群活到100岁,晚年说起毛主席那段往事,满怀感念

高岗遗孀李力群活到100岁,晚年说起毛主席那段往事,满怀感念

寄史言志
2026-03-19 20:10:09
王楚钦为啥战胜小勒布伦?赛后王皓毫不避讳说出原因 说的非常实在

王楚钦为啥战胜小勒布伦?赛后王皓毫不避讳说出原因 说的非常实在

生活新鲜市
2026-04-04 00:37:10
张水华官宣4场!全国疯抢,专家曾呼吁重视水华,巨星都被她摩擦

张水华官宣4场!全国疯抢,专家曾呼吁重视水华,巨星都被她摩擦

看尽落尘花q
2026-04-03 15:54:20
中方还是晚了一步,五点倡议刚发,海湾国家将参战,特朗普倒计时

中方还是晚了一步,五点倡议刚发,海湾国家将参战,特朗普倒计时

三石记
2026-04-04 00:48:05
黄金被流动性冲击“错杀”?渣打预言:金价将重现升势并再破纪录

黄金被流动性冲击“错杀”?渣打预言:金价将重现升势并再破纪录

清欢百味
2026-04-04 02:18:01
51岁何润东直播《三角洲》火了!全程手柄操作引热议

51岁何润东直播《三角洲》火了!全程手柄操作引热议

游民星空
2026-04-03 17:18:55
明确站队?马克龙一落地东京,当着高市面:邀请函不会给中国发!

明确站队?马克龙一落地东京,当着高市面:邀请函不会给中国发!

叹知
2026-04-03 18:21:59
抛弃中国,伊朗为何选择日本作为中间调停者

抛弃中国,伊朗为何选择日本作为中间调停者

民间胡扯老哥
2026-04-03 02:20:49
女孩相亲被约挖野菜,挖好的全被男生拿走了;一天后收到对方消息:我妈蒸的菜疙瘩很好吃

女孩相亲被约挖野菜,挖好的全被男生拿走了;一天后收到对方消息:我妈蒸的菜疙瘩很好吃

二胡的岁月如歌
2026-04-03 19:02:43
35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

西楼知趣杂谈
2026-04-02 07:52:04
7名五角大楼官员抱怨赫格塞思“缺乏冷静”:他的言论“鲁莽”“嗜血”且“野蛮”

7名五角大楼官员抱怨赫格塞思“缺乏冷静”:他的言论“鲁莽”“嗜血”且“野蛮”

环球网资讯
2026-04-03 20:00:40
孙颖莎赢球后第一句话是检讨:击败蒯曼后坦言,讲出自己的不足

孙颖莎赢球后第一句话是检讨:击败蒯曼后坦言,讲出自己的不足

乒乓乐园
2026-04-04 00:04:07
美伊还没停火,又一国要迎战美军,中国无视警告,先一步送上援助

美伊还没停火,又一国要迎战美军,中国无视警告,先一步送上援助

兴史兴谈
2026-04-02 23:32:30
特朗普炒掉司法部长邦迪!美陆军参谋长也被要求立即辞职!白宫还被曝考虑解职更多高官,包括美联邦调查局局长、陆军部长、劳工部长

特朗普炒掉司法部长邦迪!美陆军参谋长也被要求立即辞职!白宫还被曝考虑解职更多高官,包括美联邦调查局局长、陆军部长、劳工部长

每日经济新闻
2026-04-03 10:02:08
云南一男子出国担心妻子家里装了6个摄像头,结果却令他感到惊讶

云南一男子出国担心妻子家里装了6个摄像头,结果却令他感到惊讶

牛魔王与芭蕉扇
2025-01-09 15:59:08
别让肌肉悄悄溜走!这几种“救星”食物,助你走路带风不费劲。

别让肌肉悄悄溜走!这几种“救星”食物,助你走路带风不费劲。

普陀动物世界
2026-04-02 05:32:07
郑丽文请益访陆!吴伯雄“两岸绝不能动武”:你非成功不可

郑丽文请益访陆!吴伯雄“两岸绝不能动武”:你非成功不可

新时光点滴
2026-04-04 03:09:06
“芯片战”输得彻底?日媒:芯片崛起,全球芯片商压力山大

“芯片战”输得彻底?日媒:芯片崛起,全球芯片商压力山大

疯狂小菠萝
2026-04-02 17:19:38
《危险关系》演员演技排名,朱颜曼滋第5,孙俪第2,第1毋庸置疑

《危险关系》演员演技排名,朱颜曼滋第5,孙俪第2,第1毋庸置疑

娱乐圈笔娱君
2026-04-03 16:32:55
2026-04-04 06:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14885文章数 66745关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

美国提议停火48小时 伊朗以持续重火力打击回应

头条要闻

美国提议停火48小时 伊朗以持续重火力打击回应

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

家居
旅游
房产
艺术
公开课

家居要闻

温馨多元 爱的具象化

旅游要闻

一秒坠入油画里!小火车、花海、露营……千亩金黄等你来打卡

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

艺术要闻

石涛『山水小景册』

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版