网易首页 > 网易号 > 正文 申请入驻

蚂蚁全模态模型开源!首创人声配乐音效一次生成,图像编辑指哪改哪

0
分享至


智东西
作者 李水青
编辑 心缘

智东西2月11日报道,今日,蚂蚁集团开源全模态大模型Ming-flash-omni 2.0。在多项公开基准测试中,该模型的视觉语言理解、语音可控生成、图像生成与编辑等能力表现突出,赶超Qwen3-Omini-30B-A3B-Instruct等同类模型。

Ming-flash-omni 2.0是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了3.1Hz的极低推理帧率,实现了分钟级长音频的实时高保真生成。

与蚂蚁2025年5月推出的Ming-flash-omni Preview相比,Ming-flash-omni 2.0实现了跨代升级,侧重于优化以下关键领域的功能:

1、专家级多模态认知:它能精准识别动植物以及文化典故,并对文物进行专家级分析。通过将高分辨率视觉捕捉与庞大的知识图谱相结合,该模型实现了“视觉到知识”的合成,知识理解能力更强。

2、沉浸式可控统一声学合成:它引入统一的端到端声学生成流程,将语音、音频和音乐集成于单一通道中。该模型利用连续自回归算法结合扩散变换器 (DiT) 头部,实现了零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围,大幅提高听觉体验。

3、高动态可控图像生成与处理:它采用原生多任务架构,整合了分割、生成和编辑功能,实现了精细的时空语义解耦。它在高动态内容创作方面表现卓越,包括大气重建、无缝场景合成和上下文感知物体移除,且能在复杂的图像处理任务中达到顶尖精度。

目前,Ming-flash-omni 2.0的模型权重、推理代码已在Hugging Face等开源社区发布,用户也将可通过蚂蚁百灵官方平台Ling Studio在线体验与调用。

Hugging Face地址:
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub地址:
https://github.com/inclusionAI/Ming
魔搭社区地址:
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
体验入口:
https://ling.tbox.cn/chat

一、动植物与知识识别变强,音频三合一生成是特色

首先来看看Ming-flash-omni 2.0的实际应用效果。智东西在Ling Studio还未收到更新,我们可以先从几组官方公布的案例中来看看Ming-flash-omni 2.0能做什么。

在多模态认知方面,Ming-flash-omni 2.0能较精准识别动植物,如下图所示,当用户上传几张马的图片和植物的图片,Ming-flash-omni 2.0能够比较准确分辨出马和植物的品种。


再看看Ming-flash-omni 2.0侧重提升的文化典故识别能力。当用户让该模型分别介绍一张关于马的文物照片和绘画照片,其能够比较准确的识别出这是“马踏飞燕”和徐悲鸿的《奔马图》,并且进行了较专业的解读,可以看到内置知识变强及知识理解能力的提升。


Ming-flash-omni 2.0支持自由多模态切换,用户可以用语音对话,让Ming-flash-omni 2.0识别和生成多种模态的内容,这些动作都是交替进行的。

在流媒体对话方面,蚂蚁上传了一个用Ming-flash-omni 2.0识别舞龙狮表演的视频,其不仅能够准确识别事物,还能够讲解背后文化知识,延迟较低。不过,其语音听起来仍然没有达到完全的真人感,能听出来是AI声音。

在可控统一声学合成方面,两个人声在讲解Ming-flash-omni 2.0可以为音频添加背景音乐、音效,而这个音频本身正是Ming-flash-omni 2.0生成的。人声之下垫有节奏明快的背景音乐。据悉,其还支持零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围。

在图像生成与处理方面,如下所示,当用户输入一张照片,并输入一段提示词,比如“背景换成澳大利亚蓝天,姿势自然一点”、“背景换成西湖并改成拍手”等,就可以得到所需的照片,能达到较高的修改精度。这一高精度能力在谷歌Nano Banana等专用模型那里也仍有难度,Ming-flash-omni 2.0实际表现如何,能否达到官方案例效果,还有待用户亲自实操后来评判。


二、全模态能力匹敌专业模型,多项能力超Gemini 2.5 Pro

看完实际应用,再来看看模型测评成绩。

在通用图像理解方面,Ming-flash-omni 2.0在HallusionBench、MMvet测评上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型,具有较强的内容理解和知识能力,较少的幻觉情况。

在文档理解方面,Ming-flash-omni 2.0在ChartQA、OCRBench测评上超越了Gemini 2.5 Pro,在AI2D上得分略低于Gemini 2.5 Pro,但整体得分都在87分以上,在处理文档、图表识别等方面表现较好。

在STEM(科学、技术、工程、数学)方面,Ming-flash-omni 2.0的测评表现全面超越Qwen3-Omini-30B-A3B-Instruct,得分接近Gemini 2.5 Pro。


▲Ming-flash-omni 2.0的实测表现

在定位与内部知识方面,其在图像中定位和指定特定对象的能力较强,接近90分,内置知识库的准确性和丰富度得分也远高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

在多图像理解方面,该模型在MVbench、CharadesSTA上的得分超过了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct,在MLVU上也表现较好,但略低于Gemini 2.5 Pro。

在语音方面,作为业界首个全场景音频统一生成模型,其在语音识别(WER越低越好)和语音生成准确率的表现都非常优异,在多个基准上领先。

在图像生成、编辑和分割方面,其在DPGBench、Geneval、RefCOCO-val等测评中都取得了匹敌专用模型的成绩。

三、统一架构,降低多模型串联成本和复杂度

业内普遍认为,多模态大模型最终会走向更统一的架构。但现实是“全模态”模型往往很难同时做到通用与专精,在特定单项能力上往往不及专用模型。

Ming-omni系列正是在这一背景下持续演进,早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

2025年5月,蚂蚁开源了MoE架构的统一多模态大模型Ming-lite-omni,实现了以单一模型处理包括图像、文本、音频和视频在内的广泛输入类型;2025年7月,蚂蚁集团推出升级的Ming-lite-omni v1.5,在可控图像生成、生成式图像分割、深度及边缘检测三大维度能力上得到提升。

2025年10月,蚂蚁集团进一步开源了Ming-flash-omni-Preview,成为当时首个参数规模达到千亿的开源全模态大模型。当时,Ming-flash-omni-Preview仍有不完善的地方,包括视觉文本理解能力与顶尖专用VL大模型仍存在一定差距语音多轮对话效果以及高质量的音色克隆仍需优化,在复杂布局文字渲染与编辑、特定IP角色的生成方面还有待提升。

此次蚂蚁集团将Ming-flash-omni 2.0在这些方面实现提升,达到了整体跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架构(MoE,100B-A6B)训练,主要围绕“看得更准、听得更细、生成更稳”三大进行了优化。


视觉方面,该模型融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力。

音频方面,其实现了语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力。

图像方面,其增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊谈道,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。

Ming-flash-omni 2.0模型的开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

结语:统一架构全模态模型加速发展

随着自回归路线统一了语言模型领域,多模态领域能否出现一个统一的架构路线?国内外多家企业或机构展开了统一多模态学习的训练,打造性能出色的原生多模态大模型,蚂蚁集团在这一领域有颇多尝试。

尽管相比最顶尖的专业模型仍有差距,但以Ming-flash-omni 2.0为代表的全模态模型已经逼近专业模型性能。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈芋汐没想到,离过年不到7天,全红婵官宣喜讯,杂志首秀太惊艳

陈芋汐没想到,离过年不到7天,全红婵官宣喜讯,杂志首秀太惊艳

TVB的四小花
2026-02-12 07:12:34
砍51分11板15助!肉眼可见的强悍,快船在犯罪啊!

砍51分11板15助!肉眼可见的强悍,快船在犯罪啊!

云隐南山
2026-02-12 07:32:04
Leader 禁止实习生碰代码,我不听,用 Agent Skills 修了个线上 Bug。他找我谈话:今天转正!

Leader 禁止实习生碰代码,我不听,用 Agent Skills 修了个线上 Bug。他找我谈话:今天转正!

程序员鱼皮
2026-02-11 19:21:34
汉密尔顿与金·卡戴珊忘情热吻 看来这段姐弟恋是实锤了

汉密尔顿与金·卡戴珊忘情热吻 看来这段姐弟恋是实锤了

极酷体育
2026-02-09 22:11:37
罗翔因为沉默上了热搜,道理和常识某些人已不追求了

罗翔因为沉默上了热搜,道理和常识某些人已不追求了

禹人集法
2026-02-09 23:39:41
0212早评:算力和电力两大利好!今日或迎布局良机

0212早评:算力和电力两大利好!今日或迎布局良机

孤烟财经
2026-02-12 07:14:10
身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

身家过亿的财经女侠叶檀,抗癌3年悔悟:丁克是这辈子最错的决定

青眼财经
2026-02-11 19:36:31
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
香港金像奖含金量归零,古天乐两部入围,香港电影离死不远了

香港金像奖含金量归零,古天乐两部入围,香港电影离死不远了

光影新天地
2026-02-10 18:05:52
雷军称新一代小米SU7门把手符合新国标 新增机械冗余

雷军称新一代小米SU7门把手符合新国标 新增机械冗余

CNMO科技
2026-02-10 21:26:12
河北彩花:被业界与观众共同加冕的“神颜”唯一解

河北彩花:被业界与观众共同加冕的“神颜”唯一解

碧波万览
2026-02-12 00:31:36
拓媒:杨瀚森在场上太笨拙,这样很难在NBA生存

拓媒:杨瀚森在场上太笨拙,这样很难在NBA生存

懂球帝
2026-02-11 17:37:02
加密货币大溃败,币圈老人易理华一周亏光7亿美金

加密货币大溃败,币圈老人易理华一周亏光7亿美金

新浪财经
2026-02-10 14:16:08
岩山科技,业绩猛增2000%!

岩山科技,业绩猛增2000%!

牛锅巴小钒
2026-02-11 08:23:24
南海意外巨大爆炸,菲军拦截中方战机,B-52投掷实弹

南海意外巨大爆炸,菲军拦截中方战机,B-52投掷实弹

岁暮的归南山
2026-02-11 01:03:19
热点追踪丨新春补贴已备好!春节这么买,更优惠!

热点追踪丨新春补贴已备好!春节这么买,更优惠!

新华社
2026-02-11 18:08:22
男人的逻辑是:如果你爱我, 你就不会走。女人的逻辑是:如果你爱我,你会来找我。

男人的逻辑是:如果你爱我, 你就不会走。女人的逻辑是:如果你爱我,你会来找我。

青苹果sht
2026-01-23 05:51:00
AI视频大量传播!周星驰经纪人质疑:平台不管吗?

AI视频大量传播!周星驰经纪人质疑:平台不管吗?

上观新闻
2026-02-10 19:25:19
从“和平委员会”暴毙到G5胎死腹中:华盛顿指挥棒彻底失灵

从“和平委员会”暴毙到G5胎死腹中:华盛顿指挥棒彻底失灵

清欢百味
2026-02-11 13:23:34
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
2026-02-12 08:11:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11219文章数 116968关注度
往期回顾 全部

科技要闻

Meta将斥资超100亿美元建设数据中心

头条要闻

环球:高市"豪赌"大胜 军工业恐成日本经济"摇钱树"

头条要闻

环球:高市"豪赌"大胜 军工业恐成日本经济"摇钱树"

体育要闻

搞垮一个冬奥选手,只需要一首歌?

娱乐要闻

大孤山风波愈演愈烈 超50位明星扎堆

财经要闻

广州前首富被判无期 200亿集资窟窿何偿

汽车要闻

比亚迪最美B级SUV? 宋Ultra这腰线美翻了

态度原创

本地
游戏
亲子
旅游
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

《英雄无敌5:重生》开发者将推出新地图生成器

亲子要闻

寒假在家卷运动,手眼协调练一练

旅游要闻

8万余株花卉等您来赏 石家庄市植物园新春花展启幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版