网易首页 > 网易号 > 正文 申请入驻

阿里通义千问再放大招 多模态大模型迭代 加速改写AGI时间表

0
分享至

阿里通义千问更新,再为多模态大模型赛道添了一把火。

8月19日,通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持双语文本修改、风格迁移及物体旋转,进一步拓展了生成式AI在专业内容创作中的应用。

短短半年内,阿里连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,而阿里之外,智谱、阶跃星辰等大模型厂商也在密集布局,从视觉理解到全模态交互,多模态大模型在2025年明显迭代加速。

业内普遍认为,当前大模型的发展已经从单一的语言模型迈向了多模态融合的新阶段,这是通向AGI的必经之路。

谷歌研究报告显示,预计至2025年,全球多模态AI市场规模将飙升至24亿美元,而到2037年底,这一数字更是预计将达到惊人的989亿美元。

商汤科技联合创始人、执行董事、首席科学家林达华在此前接受21世纪经济报道记者采访时表示,未来的多模态模型甚至能在纯语言任务上超越单一语言模型,而国内厂商也在加速布局,2025年下半年或将迎来多模态模型的全面普及。


国内厂商密集布局

2023年12月,谷歌原生多模态Gemini 1.0模型正式上线,一举将AI竞赛由ChatGPT主导的文本领域带入多模态领域。

人类的日常任务活动,天然涉及对文本、图像、视频、网页等多模态信息的处理。从生产力工具到生产力,关键就在于多模态信息的输入、处理与输出能力。在大模型越来越强调落地应用的当下,多模态能力和低成本、强智能等特征一样,成为了大模型的核心竞争点。

而大厂也早已开始了相关布局,阿里推出的Qwen2.5系列就在逐步强化多模态能力。

2025年,阿里开源升级版视觉理解模型Qwen2.5-VL,72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5;同期还发布了首个端到端全模态大模型Qwen2.5-Omni,支持文本、图像、音频、视频的实时交互,可部署于手机等终端智能硬件。

8月,阿里又开源全新的文生图模型Qwen-Image,当天即登上AI开源社区Hugging Face的模型榜单首位,成为全球热度最高的开源模型。

此次发布的Qwen-Image-Edit是基于20B的Qwen-Image模型进一步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。

此外,Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能力。

业内评价称,Qwen-Image-Edit在中文图像编辑领域树立了新标杆,尤其适合需要高精度文本修改和创意设计的场景,可以进一步降低专业图像创作门槛。

积极布局多模态能力的厂商不只一家,近期模型迭代的速度也越来越快。

世界人工智能大会前夕,阶跃星辰发布了新一代基础大模型Step 3,原生支持多模态推理,具备视觉感知和复杂推理能力。阶跃星辰Step系列基座模型矩阵中,多模态模型的占比达7成。此外,阶跃星辰还连续开源语音、视频生成、图像编辑等多个多模态大模型。

同样是在人工智能大会上,商汤发布了日日新V6.5大模型,进行了模型架构改进和成本优化,多模态推理与交互性能大幅提升。商汤从日日新6.0开始,就没有语言模型单独的存在,全部都是多模态模型。

8月,智谱也宣布推出开源视觉推理模型GLM-4.5V,并同步在魔搭社区与Hugging Face开源,涵盖图像、视频、文档理解以及GUIAgent等常见任务。

8月11日至15日,昆仑万维则在一周内连续发布了六款多模态模型,覆盖了数字人生成、世界模拟、统一多模态理解等核心场景。

这些全方位的开源攻势明显旨在快速占领开发者心智,建立各自产品在多模态领域的全面影响力。在当下这个节点,多模态的竞争还不算太晚。


仍处于发展初期

如果想要构建通用人工智能(AGI)和强大的AI系统,多模态的能力必不可少。

“从智能的本质来说,需要对各种模态的信息进行跨模态的关联。”林达华向21世纪经济报道记者表示。

在这方面,中国科技公司速度很快。一个显著的变化是,中国企业在多模态领域的集体崛起已经改变了长期以来由OpenAI、Google等西方巨头主导的AI创新叙事,在视觉推理、视频生成等多个细分领域排在权威榜单的前列。

技术推进加速落地应用。2025年被业内人士普遍视为“AI应用商业化元年”,而多模态技术正是这一趋势的核心驱动力,数字人直播、医疗诊断、金融分析等等场景已经有多模态大模型应用其中。

但从技术的角度来看,多模态领域还有很大的发展空间,尤其是对比文本领域。

“当前文本领域已从GPT范式的1.0走到了强化学习范式下的2.0,部分研究者已开始探索下一代范式如自主学习。相比之下,多模态领域仍处于发展初期,诸多基础性问题尚未解决。”阶跃星辰创始人、CEO姜大昕向21世纪经济报道记者表示,“这些挑战不仅存在于国内研究,国际领先模型同样未能攻克。”

多模态技术面临的瓶颈,其复杂性远超自然语言处理。首先,在表征复杂度方面,文本作为离散符号系统,其表征空间通常仅为数万维度,这对计算机处理而言属于低维问题。而视觉数据以1024×1024分辨率的图像为例,其表征空间即达到百万维度的连续空间,两者在表征难度上存在本质差异。

其次,在语义闭环性方面,文本系统具有天然的语义自闭环特性,其语义表达与表征空间完全统一。相比之下,视觉数据作为自然存在的物理空间表征,其本身并不包含语义信息。要实现视觉与文本语义空间的对齐,必须建立跨模态的映射关系,而这一映射缺乏天然的标注数据支持。

“这些导致了多模态领域的发展还是面临非常大的挑战,还是需要几次像ChatGPT、强化学习范式这样的大技术变迁才能解决。”姜大昕向记者表示。

此外,虽然很多模型已经在具体场景中实现落地应用,但距离真正实现AGI还有较为漫长的路要走。

主流的多模态模型通过视觉编码器与语言模型的前后结合,但是后续的思考推理过程还是主要依赖纯语言的推理,因此,当前多模态模型对于图形和空间结构的推理能力还很薄弱。林达华向记者举例称,国际顶尖多模态模型,在面对诸如积木拼接等简单空间问题时,也无法准确判断积木的组成数量以及各部分之间的连接关系,而这些问题对于几岁的儿童来说却是轻而易举的。

“这表明当前多模态模型的思维方式主要依赖于逻辑推理,缺乏较强的空间感知能力。若这一问题得不到突破,未来将成为具身智能落地的重要障碍。”林达华向记者表示。

随着技术不断成熟和生态持续完善,多模态能力将成为AI系统的标配,而如何将这种能力转化为实际生产力和社会价值,将是产业界下一步需要重点探索的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许家印案“掀翻天”,涉案人员可能远超当年赖昌星的特大走私案

许家印案“掀翻天”,涉案人员可能远超当年赖昌星的特大走私案

小莜读史
2026-01-15 20:44:16
哈登帮手来了!希尔德换祖巴茨!快船有意中锋换三分射手补强

哈登帮手来了!希尔德换祖巴茨!快船有意中锋换三分射手补强

湖人侃球师
2026-01-15 18:32:56
养老金大调整!退休5年、10年、15年、20年的差别如何体现?

养老金大调整!退休5年、10年、15年、20年的差别如何体现?

猫叔东山再起
2025-12-19 10:35:14
雷军宣布小米SU7击败Model 3,小米汽车能否完胜特斯拉?

雷军宣布小米SU7击败Model 3,小米汽车能否完胜特斯拉?

华夏时报
2026-01-14 17:12:04
告别校外供餐 2027年底所有北京中小学将实现校内食堂供餐

告别校外供餐 2027年底所有北京中小学将实现校内食堂供餐

新京报
2026-01-14 20:24:05
亚足联官方复盘U23小组赛:李昊闪耀扑救榜,中日后防固若金汤

亚足联官方复盘U23小组赛:李昊闪耀扑救榜,中日后防固若金汤

懂球帝
2026-01-15 20:04:41
炸了!2026 网约车行业第一雷引爆,广州租赁巨头破产,行业拐点已到

炸了!2026 网约车行业第一雷引爆,广州租赁巨头破产,行业拐点已到

网约车观察室
2026-01-15 09:53:33
国足晋级仅12小时,连获3个利好!1/4赛程出炉,有希望闯入4强

国足晋级仅12小时,连获3个利好!1/4赛程出炉,有希望闯入4强

刘哥谈体育
2026-01-15 12:07:21
潜伏境外十载,行走于刀尖之上,他便是国安首次公开披露的英雄烈士吴建国

潜伏境外十载,行走于刀尖之上,他便是国安首次公开披露的英雄烈士吴建国

桃烟读史
2026-01-13 23:59:18
著名电影表演艺术家陶玉玲去世,冯远征、曹可凡发文悼念;曾饰演《柳堡的故事》里的“二妹子”,《霓虹灯下的哨兵》里的“春妮”

著名电影表演艺术家陶玉玲去世,冯远征、曹可凡发文悼念;曾饰演《柳堡的故事》里的“二妹子”,《霓虹灯下的哨兵》里的“春妮”

扬子晚报
2026-01-15 21:13:26
1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

寄史言志
2026-01-07 21:08:15
聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

聂卫平全家福曝光太催泪,3个子女近况各不同,最后露面暴瘦!

古希腊掌管松饼的神
2026-01-15 13:55:45
台北市长蒋万安:“我是台湾人,我就是中华民国的国民。”

台北市长蒋万安:“我是台湾人,我就是中华民国的国民。”

百态人间
2026-01-14 16:37:11
换帅如换刀!从6战5负到9战8胜,只因换了一个教练 球迷:CBA奇迹

换帅如换刀!从6战5负到9战8胜,只因换了一个教练 球迷:CBA奇迹

体育哲人
2026-01-15 09:03:54
李亚鹏嫣然医院已获四百多万捐款,可帮患者完成509次救助手术

李亚鹏嫣然医院已获四百多万捐款,可帮患者完成509次救助手术

映射生活的身影
2026-01-15 16:05:21
孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

孙千这组照片太敢!黑裤包裹蜜桃臀,蝴蝶钉在胸前,这身材绝了?

娱乐领航家
2026-01-09 22:00:03
张镇麟22分上海40分大胜广东,上海目标冠军广东已经含糊

张镇麟22分上海40分大胜广东,上海目标冠军广东已经含糊

李广专业体育评论
2026-01-15 21:29:56
刚下车就开练!战上海3条件对广东不利,粤媒支招杜锋:学深圳

刚下车就开练!战上海3条件对广东不利,粤媒支招杜锋:学深圳

后仰大风车
2026-01-15 07:05:08
数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

数名医生强调:只要做过肠息肉切除手术,术后患者一定关注这4点

华庭讲美食
2025-12-23 14:36:32
特朗普弃台后,美国批准一项交易,要逼华全额付款,中国连夜换将

特朗普弃台后,美国批准一项交易,要逼华全额付款,中国连夜换将

奇奇圈
2026-01-14 15:21:43
2026-01-15 22:12:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
229093文章数 743577关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

公安部A级通缉犯在狱中被揪出:涉嫌贩卖毒品7500余克

头条要闻

公安部A级通缉犯在狱中被揪出:涉嫌贩卖毒品7500余克

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

教育
旅游
时尚
手机
健康

教育要闻

大一上结束才懂,在本省上大学和在外省上大学的差距,还好没选错

旅游要闻

吉林珲春:跨境“换城度假”受外国游客青睐

羽绒服+阔腿裤:今年冬天最火搭配,松弛又时髦!

手机要闻

传闻称iPhone 17e改用灵动岛设计 但屏幕仍停留在60Hz刷新率

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版