品玩3月日讯,据 Siliconangle 报道Microsoft正式推出硬件高效型多模态推理模型 Phi-4-reasoning-vision-15B,可处理科学图表等复杂视觉内容。该模型融合SigLIP-2视觉编码器与去年4月开源的Phi-4 Reasoning推理架构,采用“中融合”(mid-fusion)设计——仅部分网络层支持多模态处理,在显著降低算力消耗的同时保持较高输出质量。
训练数据主要来自开源图像及文本对。微软通过多阶段优化流程提升数据质量:保留高质量样本;利用GPT-4o与o4-mini为图像重写不准确描述;并加入内部构建数据、定向收购的高质量语料及有害行为反例,以增强安全性与准确性。
在MathVista_Mini等基准测试中,该模型表现优异,较Google的gemma-3-12b-it高出17%,并在六项以上评估中领先。其支持通过提示动态启停推理功能,进一步优化资源占用。
Phi-4-reasoning-vision-15B适用于构建界面交互型AI系统,能基于截图识别按钮、菜单等UI元素,并解析天文图像等复杂视觉资产。模型代码现已在Hugging Face、GitHub及Azure平台开放。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.