![]()
微软公司今天发布了一款硬件高效的推理模型Phi-4-reasoning-vision-15B,该模型能够处理科学图表等多模态文件。
该模型基于两种现有算法SigLIP-2和Phi-4 Reasoning构建。SigLIP-2将图像压缩为神经网络可以理解的数字形式,而Phi-4 Reasoning则是微软在去年4月开源的推理模型。
公司研究人员使用中间融合方法将这两种算法结合起来。
人工智能模型由称为层的人工神经元集合组成。工程师可以为模型的所有层配备处理多模态数据的能力。在像Phi-4-reasoning-vision-15B这样的中间融合模型中,只有部分层支持多模态处理。这种安排在输出质量方面有所折中,但显著减少了硬件使用。
根据微软的说明,用户可以通过禁用推理功能来进一步降低模型的基础设施占用。该功能可以通过提示词开启或关闭。
微软主要使用开源数据训练Phi-4-reasoning-vision-15B。数据包括图像和描述这些图像中对象的文本说明。在开始训练模型之前,微软通过多步骤过程优化了这些文件。
首先,公司识别出不需要更改的高质量数据集并将其分离出来。然后搜索那些包含高质量图像但标题不准确的文件集合。微软研究人员使用GPT-4o和o4-mini为这些图像生成新的标题。
公司用内部创建的训练数据和"来自针对性收购的高质量数据"丰富了优化后的开源文件。此外,还添加了模型应该避免的行为示例。后者数据集帮助Phi-4-reasoning-vision-15B避免有害输出。
微软使用一套开源基准将该算法与几个类似规模的推理模型进行比较。在包含多模态数学问题的基准MathVista_Mini上,Phi-4-reasoning-vision-15B的得分比谷歌的gemma-3-12b-it高17%。该模型在超过六个其他评估中也获得了更高分数。
微软研究人员在今天的博客文章中写道:"我们的性能可以与那些需要十倍或更多计算时间和Token的慢得多的模型竞争,在准确性方面也比同样快速的模型更好,特别是在数学和科学推理方面。"
开发者可以使用Phi-4-reasoning-vision-15B构建通过用户界面与应用程序交互的智能体。该模型能够基于屏幕截图推断不同界面元素的功能。
研究人员解释说:"凭借强大的高分辨率感知和细粒度定位能力,Phi-4-reasoning-vision-15B是训练智能体模型的有力选择,这些模型可以通过识别和定位按钮、菜单和文本字段等交互元素来导航桌面、网络和移动界面。"
该模型还可以分析更复杂的视觉资产,如科学图表。在微软分享的演示中,用户上传了一张土星照片,并询问Phi-4-reasoning-vision-15B为什么这颗行星看起来是倾斜的。它解释说土星的方向取决于一年中的时间和拍摄照片的望远镜位置。
微软已在Hugging Face、GitHub和Azure上公开了该模型的代码。
Q&A
Q1:Phi-4-reasoning-vision-15B模型有什么特别之处?
A:这是微软发布的一款150亿参数的多模态推理模型,采用中间融合技术,只有部分层支持多模态处理,在保持较好输出质量的同时显著减少硬件使用,并且推理功能可以通过提示词开启或关闭。
Q2:这个模型在性能测试中表现如何?
A:在MathVista_Mini基准测试中,Phi-4-reasoning-vision-15B比谷歌的gemma-3-12b-it模型得分高17%,在超过六个其他评估中也获得更高分数,特别在数学和科学推理方面表现出色。
Q3:Phi-4-reasoning-vision-15B可以用来做什么?
A:该模型可以处理科学图表等多模态文件,构建智能体与应用程序界面交互,分析屏幕截图并推断界面元素功能,还能分析复杂的视觉资产如科学图表,解释图像内容。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.