网易首页 > 网易号 > 正文 申请入驻

蚂蚁全模态模型开源!首创人声配乐音效一次生成,图像编辑指哪改哪

0
分享至


智东西
作者 李水青
编辑 心缘

智东西2月11日报道,今日,蚂蚁集团开源全模态大模型Ming-flash-omni 2.0。在多项公开基准测试中,该模型的视觉语言理解、语音可控生成、图像生成与编辑等能力表现突出,赶超Qwen3-Omini-30B-A3B-Instruct等同类模型。

Ming-flash-omni 2.0是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了3.1Hz的极低推理帧率,实现了分钟级长音频的实时高保真生成。

与蚂蚁2025年5月推出的Ming-flash-omni Preview相比,Ming-flash-omni 2.0实现了跨代升级,侧重于优化以下关键领域的功能:

1、专家级多模态认知:它能精准识别动植物以及文化典故,并对文物进行专家级分析。通过将高分辨率视觉捕捉与庞大的知识图谱相结合,该模型实现了“视觉到知识”的合成,知识理解能力更强。

2、沉浸式可控统一声学合成:它引入统一的端到端声学生成流程,将语音、音频和音乐集成于单一通道中。该模型利用连续自回归算法结合扩散变换器 (DiT) 头部,实现了零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围,大幅提高听觉体验。

3、高动态可控图像生成与处理:它采用原生多任务架构,整合了分割、生成和编辑功能,实现了精细的时空语义解耦。它在高动态内容创作方面表现卓越,包括大气重建、无缝场景合成和上下文感知物体移除,且能在复杂的图像处理任务中达到顶尖精度。

目前,Ming-flash-omni 2.0的模型权重、推理代码已在Hugging Face等开源社区发布,用户也将可通过蚂蚁百灵官方平台Ling Studio在线体验与调用。

Hugging Face地址:
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub地址:
https://github.com/inclusionAI/Ming
魔搭社区地址:
https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-2.0
体验入口:
https://ling.tbox.cn/chat

一、动植物与知识识别变强,音频三合一生成是特色

首先来看看Ming-flash-omni 2.0的实际应用效果。智东西在Ling Studio还未收到更新,我们可以先从几组官方公布的案例中来看看Ming-flash-omni 2.0能做什么。

在多模态认知方面,Ming-flash-omni 2.0能较精准识别动植物,如下图所示,当用户上传几张马的图片和植物的图片,Ming-flash-omni 2.0能够比较准确分辨出马和植物的品种。


再看看Ming-flash-omni 2.0侧重提升的文化典故识别能力。当用户让该模型分别介绍一张关于马的文物照片和绘画照片,其能够比较准确的识别出这是“马踏飞燕”和徐悲鸿的《奔马图》,并且进行了较专业的解读,可以看到内置知识变强及知识理解能力的提升。


Ming-flash-omni 2.0支持自由多模态切换,用户可以用语音对话,让Ming-flash-omni 2.0识别和生成多种模态的内容,这些动作都是交替进行的。

在流媒体对话方面,蚂蚁上传了一个用Ming-flash-omni 2.0识别舞龙狮表演的视频,其不仅能够准确识别事物,还能够讲解背后文化知识,延迟较低。不过,其语音听起来仍然没有达到完全的真人感,能听出来是AI声音。

在可控统一声学合成方面,两个人声在讲解Ming-flash-omni 2.0可以为音频添加背景音乐、音效,而这个音频本身正是Ming-flash-omni 2.0生成的。人声之下垫有节奏明快的背景音乐。据悉,其还支持零样本语音克隆和精细的属性控制,例如情感、音色和环境氛围。

在图像生成与处理方面,如下所示,当用户输入一张照片,并输入一段提示词,比如“背景换成澳大利亚蓝天,姿势自然一点”、“背景换成西湖并改成拍手”等,就可以得到所需的照片,能达到较高的修改精度。这一高精度能力在谷歌Nano Banana等专用模型那里也仍有难度,Ming-flash-omni 2.0实际表现如何,能否达到官方案例效果,还有待用户亲自实操后来评判。


二、全模态能力匹敌专业模型,多项能力超Gemini 2.5 Pro

看完实际应用,再来看看模型测评成绩。

在通用图像理解方面,Ming-flash-omni 2.0在HallusionBench、MMvet测评上超越了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct等模型,具有较强的内容理解和知识能力,较少的幻觉情况。

在文档理解方面,Ming-flash-omni 2.0在ChartQA、OCRBench测评上超越了Gemini 2.5 Pro,在AI2D上得分略低于Gemini 2.5 Pro,但整体得分都在87分以上,在处理文档、图表识别等方面表现较好。

在STEM(科学、技术、工程、数学)方面,Ming-flash-omni 2.0的测评表现全面超越Qwen3-Omini-30B-A3B-Instruct,得分接近Gemini 2.5 Pro。


▲Ming-flash-omni 2.0的实测表现

在定位与内部知识方面,其在图像中定位和指定特定对象的能力较强,接近90分,内置知识库的准确性和丰富度得分也远高于Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct。

在多图像理解方面,该模型在MVbench、CharadesSTA上的得分超过了Gemini 2.5 Pro、Qwen3-Omini-30B-A3B-Instruct,在MLVU上也表现较好,但略低于Gemini 2.5 Pro。

在语音方面,作为业界首个全场景音频统一生成模型,其在语音识别(WER越低越好)和语音生成准确率的表现都非常优异,在多个基准上领先。

在图像生成、编辑和分割方面,其在DPGBench、Geneval、RefCOCO-val等测评中都取得了匹敌专用模型的成绩。

三、统一架构,降低多模型串联成本和复杂度

业内普遍认为,多模态大模型最终会走向更统一的架构。但现实是“全模态”模型往往很难同时做到通用与专精,在特定单项能力上往往不及专用模型。

Ming-omni系列正是在这一背景下持续演进,早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

2025年5月,蚂蚁开源了MoE架构的统一多模态大模型Ming-lite-omni,实现了以单一模型处理包括图像、文本、音频和视频在内的广泛输入类型;2025年7月,蚂蚁集团推出升级的Ming-lite-omni v1.5,在可控图像生成、生成式图像分割、深度及边缘检测三大维度能力上得到提升。

2025年10月,蚂蚁集团进一步开源了Ming-flash-omni-Preview,成为当时首个参数规模达到千亿的开源全模态大模型。当时,Ming-flash-omni-Preview仍有不完善的地方,包括视觉文本理解能力与顶尖专用VL大模型仍存在一定差距语音多轮对话效果以及高质量的音色克隆仍需优化,在复杂布局文字渲染与编辑、特定IP角色的生成方面还有待提升。

此次蚂蚁集团将Ming-flash-omni 2.0在这些方面实现提升,达到了整体跨代的效果。Ming-flash-omni 2.0基于Ling-2.0架构(MoE,100B-A6B)训练,主要围绕“看得更准、听得更细、生成更稳”三大进行了优化。


视觉方面,该模型融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力。

音频方面,其实现了语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力。

图像方面,其增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊谈道,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。

Ming-flash-omni 2.0模型的开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

结语:统一架构全模态模型加速发展

随着自回归路线统一了语言模型领域,多模态领域能否出现一个统一的架构路线?国内外多家企业或机构展开了统一多模态学习的训练,打造性能出色的原生多模态大模型,蚂蚁集团在这一领域有颇多尝试。

尽管相比最顶尖的专业模型仍有差距,但以Ming-flash-omni 2.0为代表的全模态模型已经逼近专业模型性能。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你以为麻豆传媒是卖片的,其实它是卖人的

你以为麻豆传媒是卖片的,其实它是卖人的

创始人笔记
2026-04-23 21:44:50
花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

海佑讲史
2026-04-30 17:15:12
穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

曹老师评球
2026-04-30 15:09:42
花了42亿美元,却是NBA最抠老板

花了42亿美元,却是NBA最抠老板

刺猬篮球
2026-04-30 22:35:35
张雪峰的团队快散了

张雪峰的团队快散了

犀利强哥
2026-04-29 21:07:20
彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

深析古今
2026-04-29 20:58:17
姜伟泽和女友近照,小角色逆袭,年薪275万,女友是性感美女

姜伟泽和女友近照,小角色逆袭,年薪275万,女友是性感美女

大西体育
2026-04-30 19:21:09
东莞口腔医院拒绝改名!

东莞口腔医院拒绝改名!

听心堂
2026-04-29 10:35:17
为什么明明失业的人越来越多,整体社会依旧平稳安定?

为什么明明失业的人越来越多,整体社会依旧平稳安定?

玉辞心
2026-04-23 13:25:37
去世老师女儿跟后妈争遗产

去世老师女儿跟后妈争遗产

毒舌扒姨太
2026-04-30 22:43:18
iPad今年就这两台,苹果在挤什么牙膏

iPad今年就这两台,苹果在挤什么牙膏

摸鱼算法
2026-04-30 22:26:26
中国将迎来首艘核动力航母?国防部回应

中国将迎来首艘核动力航母?国防部回应

澎湃新闻
2026-04-30 15:40:26
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
重磅突发!美伊战局再次失控,特朗普彻底慌了!

重磅突发!美伊战局再次失控,特朗普彻底慌了!

大嘴说天下
2026-04-30 22:45:03
王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

快科技
2026-04-30 14:56:24
华晨宇抚仙湖演唱会被取消的真实原因!

华晨宇抚仙湖演唱会被取消的真实原因!

谣谈乡村振兴
2026-04-30 13:42:50
53岁罗永浩罕见聊老婆:自曝生理性喜欢,丁克无娃,给她存钱养老

53岁罗永浩罕见聊老婆:自曝生理性喜欢,丁克无娃,给她存钱养老

橙星文娱
2026-04-30 09:36:30
从奥斯卡提名演员到终身监禁:一个"精神领袖"的26年骗局

从奥斯卡提名演员到终身监禁:一个"精神领袖"的26年骗局

追星雷达站
2026-04-29 02:09:13
各科医生最想跟你说的大实话,很有用!收藏好常看看

各科医生最想跟你说的大实话,很有用!收藏好常看看

华人星光
2026-04-23 12:00:20
密谋取代普京?克宫内部“秘密反水”,莫斯科或迎来史上最强政变

密谋取代普京?克宫内部“秘密反水”,莫斯科或迎来史上最强政变

凉了时光人
2026-04-30 13:41:08
2026-04-30 23:19:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11741文章数 117058关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

搞权色、钱色交易 被"双开"的易会满通过上市审批谋利

头条要闻

搞权色、钱色交易 被"双开"的易会满通过上市审批谋利

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

本地
时尚
游戏
公开课
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

衣服不一定要买贵的,看看下面这些春季穿搭,轻盈舒适又不单调

这款40多年没有对手的神作系列,如今变成什么样了?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版