网易首页 > 网易号 > 正文 申请入驻

微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o

0
分享至

机器之心报道

编辑:蛋酱、佳琪

动辄百亿、千亿参数的大模型正在一路狂奔,但「小而美」的模型也在闪闪发光。

2024 年底,微软正式发布了 Phi-4—— 在同类产品中表现卓越的小型语言模型(SLM)。仅用了 40% 合成数据,140 亿参数的 Phi-4 就在数学性能上击败了 GPT-4o。

刚刚,微软又隆重介绍了 Phi-4 模型家族的两位新成员:Phi-4-multimodal (多模态模型)和 Phi-4-mini(语言模型)。Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析,而 Phi-4-mini 专为速度和效率而设计,两者都可供智能手机、PC 和汽车上的开发人员使用。

项目地址:https://huggingface.co/microsoft/phi-4

在技术报告中,微软对这两个模型进行了更加详细的介绍。

  • Phi-4-Multimodal 是一个多模态模型,它将文本、视觉和语音 / 音频输入模态整合到一个模型中。它采用新颖的模态扩展方法,利用 LoRA 适配器和特定模态路由器,实现了多种推理模式的无干扰结合。例如,尽管语音 / 音频模态的 LoRA 组件只有 46 亿参数,但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支持涉及(视觉 + 语言)、(视觉 + 语音)和(语音 / 音频)输入的场景,在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。
  • Phi-4-Mini 是一个拥有 38 亿参数的语言模型,在高质量的网络和合成数据上进行了训练,其性能明显优于近期类似规模的开源模型,并在需要复杂推理的数学和编码任务上与两倍于其规模的模型不相上下。这一成就得益于精心设计的合成数据配方,该配方强调高质量的数学和编码数据集。与上一代产品 Phi-3.5-Mini 相比,Phi-4-Mini 的词汇量扩大到了 20 万个,从而能更好地支持多语言应用,同时还采用了分组查询功能,从而能更高效地生成长序列。

Phi-4-Multimodal 是这家公司的首个多模态语言模型,微软表示:「Phi-4-multimodal 标志着我们人工智能发展的一个新里程碑。

此外,微软还进一步训练了 Phi-4-Mini 以增强其推理能力。结果显示,它与 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等规模更大的先进推理系统相媲美。

接下来,让我们看看技术细节。

模型架构

两个模型都使用 tokenizer o200k base tiktoken ,词汇量为 200,064 个,旨在更高效地支持多语言和多模态输入和输出。所有模型都基于仅解码器的 Transformer,并支持基于 LongRoPE 的 128K 上下文长度。

语言模型架构

Phi-4-mini 由 32 层 Transformer 组成,专为速度和效率而设计,Phi-4-Mini 还有一些特殊的「省内存」技巧:

首先是分组查询注意力机制(GQA),模型在处理长序列时能够快速地聚焦于关键信息片段。这优化了长上下文生成时的 KV 缓存。具体来说,模型使用 24 个查询头和 8 个 K/V 头,将 KV 缓存消耗减少到标准大小的三分之一。

其次是输入 / 输出嵌入绑定技术,实现了资源的优化利用,同时与 Phi-3.5 相比提供了更广泛的 20 万词汇覆盖。

此外,在 RoPE 配置中,使用了分数 RoPE 维度,确保 25% 的注意力头维度与位置无关。这种设计能让模型更平滑地处理较长的上下文。

Phi-4-Mini 峰值学习率的计算公式为:

LR*(D) = BD^(-0.32),

其中 B 是超参数,D 是训练 token 的总数,通过调整 D = 12.5B、25B、37.5B 和 50B 来拟合 B 值。

多模态模型架构

Phi-4-Multimodal 采用了「Mixture of LoRA」技术,通过整合特定模态的 LoRAs 来实现多模态功能,同时完全冻结基础语言模型。该技术优于现有方法,并在多模态基准上实现了与完全微调模型相当的性能。此外,Phi-4-Multimodal 的设计具有高度可扩展性,允许无缝集成新的 LoRA,以支持更多模态,而不会影响现有模态。

该模型的训练过程由多个阶段组成,包括语言训练(包括预训练和后训练),然后将语言骨干扩展到视觉和语音 / 音频模态。

对于语言模型,研究者使用高质量、推理丰富的文本数据来训练 Phi-4-Mini。值得注意的是,他们加入了精心策划的高质量代码数据集,以提高编码任务的性能。

语言模型训练完成后,研究者冻结了语言模型,并实施「Mixture of LoRA」技术,继续多模态训练阶段。

具体来说,在训练特定模态编码器和投影器的同时,还训练了两个额外的 LoRA 模块,以实现与视觉相关的任务(如视觉 - 语言和视觉 - 语音)和与语音 / 音频相关的任务(如语音 - 语言)。它们都包含预训练和后训练阶段,分别用于模态对齐和指令微调。

Phi-4-Multimodal 模型架构。

性能评估

Phi-4-multimodal

虽然 Phi-4-multimodal 只有 5.6B 参数,但它将语音、视觉和文本处理无缝集成到一个统一的架构中,所有这些模态都在同一个表征空间内同时处理。

Phi-4 多模态能够同时处理视觉和音频。下表显示了在图表 / 表格理解和文档推理任务中,当视觉内容的输入查询为合成语音时的模型质量。与其他可以将音频和视觉信号作为输入的现有最先进的全方位模型相比,Phi-4 多模态模型在多个基准测试中取得了更强的性能。

图 1:所列基准包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。进行对比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。

Phi-4-multimodal 在语音相关任务中表现出了卓越的能力。它在自动语音识别 (ASR) 和语音翻译 (ST) 方面都优于 WhisperV3 和 SeamlessM4T-v2-Large 等专业模型。该模型以令人印象深刻的 6.14% 的单词错误率在 Huggingface OpenASR 排行榜上名列前茅,超过了 2025 年 2 月之前的最佳表现 6.5%。此外,它是少数几个成功实现语音摘要并达到与 GPT-4o 模型相当的性能水平的开放模型之一。该模型在语音问答 (QA) 任务上与 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因为模型尺寸较小导致保留事实 QA 知识的能力较弱。

图 2:Phi-4 多模态语音基准。

在下方视频中,Phi-4-multimodal 分析了语音输入并帮助规划西雅图之旅:

视频链接:https://mp.weixin.qq.com/s/WNw1nfeQsggqwv4Hogm_kA

Phi-4-multimodal 同样在各种基准测试中都表现出了卓越的视觉能力,最显著的是在数学和科学推理方面取得了优异的表现。尽管规模较小,但该模型在通用多模态能力(如文档和图表理解、光学字符识别 (OCR) 和视觉科学推理)方面仍保持着极具竞争性的表现,与 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相当或超过它们。

Phi-4-multimodal 展示了强大的推理和逻辑能力,适合分析任务。参数量更小也使得微调或定制更容易且更实惠。下表中展示了 Phi-4-multimodal 的微调场景示例。

下方视频展示了 Phi-4-multimodal 的推理能力:

视频链接:https://mp.weixin.qq.com/s/WNw1nfeQsggqwv4Hogm_kA

Phi-4-mini:3.8B,小身材大能量

Phi-4-Mini 和 Phi-4-Multimodal 共享同一个语言模型骨干网络。Phi-4-mini 虽然体积小巧,但它承袭了 Phi 系列前作的传统,在推理、数学、编程、指令遵循和函数调用等任务上超越了更大的模型。

Phi-4-mini 在各种测试集中和较小模型的成绩对比

更重要的是,开发者们可以基于 Phi-4-mini 构建出一个可扩展的智能体系统,它可以借函数调用、指令跟随、长上下文处理以及推理能力来访问外部知识,从而弥补自身参数量有限的不足。

通过标准化协议,Phi-4-mini 的函数调用可以与结构化的编程接口无缝集成。当用户提出请求时,Phi-4-mini 能够对查询进行分析,识别并调用相关的函数以及合适的参数,接收函数输出的结果,并将这些结果整合到最终的回应之中。

在设置合适的数据源、API 和流程之后,Phi-4-mini 可以部署在你家,当你的智能家居助手,帮你查看监控有没有异常。

基于 Phi-4-mini 的家居智能体

通过标准化协议,函数调用使得模型可以与结构化的编程接口无缝集成。当用户提出请求时,Phi-4-mini 可以对查询进行分析,识别并调用相关的函数以及合适的参数,接收函数输出的结果,并将这些结果整合到最终的回应之中。这样一来,就构建了一个可扩展的基于智能体的系统,借助定义良好的函数接口,模型能够连接到外部工具、应用程序接口(API)以及数据源,进而增强自身的能力。下面的例子就模拟了 Phi-4-mini 控制智能家居的场景。

因为体积较小,Phi-4-mini 和 Phi-4-multimodal 模型可以在计算资源有限的环境中使用,尤其是在用 ONNX Runtime 优化后。

训练数据

Phi-4-mini 性能明显优于近期类似规模的开源模型,有一个重要原因就是高质量的训练数据。

相比上一代 Phi-3.5-Mini,研究人员选择了更严格的数据过滤策略,加入了针对性的数学和编程训练数据、特殊清洗过的 Phi-4 合成数据,还通过消融实验重新调整了数据混合比例,增加推理数据的比例为模型带来了显著提升。

具体来说,研究人员从推理模型生成了大量合成的思维链(CoT)数据,同时采用基于规则和基于模型的两种筛选方法来剔除错误的生成结果,将正确的采样答案标记为首选生成,将错误的标记为非首选,并创建 DPO 数据。

不过,这些数据仅用于实验性推理模型,所以正式发布的 Phi-4-Mini 版本检查点中没有这些 CoT 数据。

在后训练阶段,与 Phi-3.5-Mini 相比,Phi-4-Mini 使用了更大规模和更多样化的函数调用和摘要数据。研究人员合成了大量的指令跟随数据来增强模型的指令跟随能力。

在编程方面,研究人员加入了大量的代码补全数据,比如要求模型在现有代码片段中间生成缺失代码的任务。这挑战了模型对需求和现有上下文的理解能力,带来了显著的性能提升。

Phi-4-Multimodal 模型的预训练阶段涉及丰富多样的数据集,视觉 - 语言训练数据包含 0.5T 图像 - 文本文档、OCR 数据、图表理解等;语音相关的训练数据涵盖真实和合成数据,使用内部 ASR 模型转录音频并计算原始文本与转录之间的词错率(WER)来衡量合成语音的质量。

更多详情,请访问原项目地址。

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/

https://huggingface.co/microsoft/Phi-4-multimodal-instruct

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

百科密码
2026-03-26 14:50:58
国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

思如哲思
2026-03-26 06:36:02
王洪文的狂草背后隐藏的秘密,赵孟頫书法的真实价值揭秘!

王洪文的狂草背后隐藏的秘密,赵孟頫书法的真实价值揭秘!

书画相约
2026-03-26 07:50:37
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
就不能一次晴个够!盯紧下一场雨

就不能一次晴个够!盯紧下一场雨

上海预警发布
2026-03-26 17:31:59
年入850万儿子生病转账15万,梁靖崑复婚协议揭开国乒真相

年入850万儿子生病转账15万,梁靖崑复婚协议揭开国乒真相

科学发掘
2026-03-26 16:14:56
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
张雪峰父亲因肺癌去世,母亲得知儿子去世昏倒,家人还在瞒着奶奶

张雪峰父亲因肺癌去世,母亲得知儿子去世昏倒,家人还在瞒着奶奶

博士观察
2026-03-26 18:44:27
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
2026-03-26 20:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12607文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
手机
艺术
家居
房产

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版