网易首页 > 网易号 > 正文 申请入驻

阿里、字节同日上新,图像大模型激战“春节档”

0
分享至

AI应用掀起春节大战的同时,基础大模型也在加速上架“春节档”。

2月10日,阿里云发布新一代图像生成基础模型Qwen-Image-2.0,而千问的新一代基座模型Qwen3.5也已经在路上。同一天,字节跳动旗下剪映宣布上线新一代图像生成模型——Seedream 5.0预览版,距离上一代模型(Seedream 4.5)发布仅两个多月。

临近春节,图像生成大模型发布按下加速键,事实上,伴随着AIGC落地加速,在图像生成领域,谁能从“生成好看的图” 率先转向 “高效解决实际问题”,正在成为模型竞争的关键。

Qwen-Image-2.0对阵Seedream 5.0

尽管同日发布,两款模型在技术路径和生成效果上有着一定的差异。

具体来看,字节跳动文生图模型主要升级点为首次支持检索生图,对提示词的理解准确性增强、支持更细节、精细纹理的图像生成,允许用户精确调整图像。而阿里的Qwen-Image-2.0则是Qwen-Image项目自2025年5月启动后,首次将生图和编辑两条支线迭代的模型能力统一整合到单一模型架构中,提升了中文汉字渲染方面能力,并输入提示词扩展到1K token,优化了对超长文字和复杂指令的渲染。

第一财经记者分别对Qwen-Image-2.0和Seedream 5.0进行了同题测试,以相同的提示词分别请Qwen-Image-2.0和Seedream 5.0生成了《清晨雾中的瑞士阿尔卑斯山》和《无厘头美食番<三国演义>》两张图片,Qwen-Image-2.0和Seedream 5.0分别作答如下:


从生成效果来看,两大模型在生成图片的清晰度和细致度上都有了较大的提升,对于薄雾的层次、水中倒影、兵器造型的餐具等都能够准确理解和生成,总体上,Qwen-Image-2.0的画风更偏写实,而Seedream 5.0则更具美感。但在具体指令的理解准确度上,模型仍存在一定的偏差,例如Seedream 5.0对兵器造型的餐具理解停留在西餐而非火锅餐具,而Qwen-Image-2.0对关羽的“红脸”的体现不足。


公平起见,记者将两道测试分别给了豆包和kimi评判“谁更符合原提示词的需求?”,发现豆包和kimi做出了同样的判断。在《清晨雾中的瑞士阿尔卑斯山》中,它们选择了Qwen-Image-2.0胜出,在《无厘头美食番<三国演义>》中选择Seedream 5.0胜出。


kimi认为,阿尔卑斯山场景(写实风景)中,Qwen-Image-2.0的细节精度拉满、纹理清晰,而Seedream 5.0更重氛围感营造,朦胧诗意,偏印象派,但偏“油画感”,细节被柔化。而三国演义场景(卡通萌系)中,kimi认为,Qwen-Image-2.0漏读关键词“举起”而更像“围坐”,Seedream 5.0更体现出了热血欢乐氛围,无厘头解构感强。最终,kimi给出的判词是:“Qwen-Image-2.0像严谨的工程师,Seedream 5.0像懂流量的设计师——没有绝对优劣,只有场景适配。”

图像编辑方面,记者实测过程中发现,在剪映平台通过Seedream 5.0 Preview生图后,图片可调整范围包括裁剪、画质、像素等,但无法在生成过程中或完成进行局部调整。Qwen-Image-2.0则可在对话中直接根据指令调整图片,不过,图像编辑的准确度仍有待提升。记者尝试让Qwen-Image-2.0在《无厘头美食番<三国演义>》图中加入一个碗,Qwen-Image-2.0选择直接将火锅的外壳换成了碗,再次追加指令后,Qwen-Image-2.0成功加上了碗,甚至自主加上了桌子,展现了一定的逻辑推理能力,但碗内的食物又与火锅场景有一定脱离。


总体来看,比起会“画图”,步入2026年,图像生成模型都在往真正解读用户意图、准确理解语义、具备可控编辑能力、根据真实场景及需求智能推理的方向去。换句话说,比起“能不能画”,大模型们转向了“画得是否符合使用场景”。但在复杂且非专业指令的理解以及图像可控编辑的“深水区”,头部厂商的真正较量才刚刚开始。

从“会画”到“能用”

“会办事”,是这一年无论大模型还是AI应用都在强调的方向,图像模型接下来要面临的问题则更具体:“这张图能解决什么问题?”

千问大模型高级解决方案架构师熊撼天在接受包括第一财经在内的媒体采访时提到,从2023年开始,文生图或图生图开始在偏C端或个人使用的场景中落地,但在真正的“企业级”应用层面,离落地始终有距离,实际上是“生成不可控”的问题一直解决得不是很好,而随着模型对语义的理解及模型能力的上限更高后,这些问题正在技术层面被攻克。

围绕着如何让图片更“可用”的竞争,图像模型在技术升级的同时,开始围绕生态、场景分化。

目前,字节已将 Seedream 5.0 深度集成到剪映、CapCut、即梦 AI等字节生态体系平台,方便创作者直接完成生图、分镜、视频创作、分发抖音等操作,支持2K与4K分辨率输出,限时免费使用,未来计划在美国市场逐步开放,以此来巩固字节跳动在内容创作领域的优势地位。CapCut海外官方账号发文称,Seedream 5.0 对标Nano Banana Pro,但价格便宜得多。记者了解到,Qwen-Image-2.0 也将在正式发布时上线阿里千问APP,未来,Qwen-Image-2.0与阿里系电商等业务的打通也成为业内关注的方向,Qwen-Image-2.0或许将更多落向电商、专业PPT、海报设计等场景。

未来一年,图像模型可能围绕怎样的方向发展?对此,千问Qwen视觉生成负责人吴晨飞表示,Qwen-Image-2.0升级的核心之一是“信息图”。信息图可以理解为“爸爸图”,每一张“爸爸图”中都包含很多的子图,每一个子图有各自的细节。在他看来,“信息图”是目前生图领域的一个大趋势,“生成一张图”不再是传统意义上的“一张图”,而是一口气生成了很多张关联图片,这种能力在漫画、复杂海报、PPT制作等领域非常重要。除此之外,当生成非常多文字或复杂结构内容时,Qwen-Image-2.0仍可能出现幻觉和错误,这也是下一步要探索的方向。

AIGC设计师石恕之则提到了行业内对“图层分离”的渴望,他形容这是整个AIGC平面市场的需求。这意味着让大模型生成的图片可解耦,像PS一样实现图层分离与编辑,对工业流程来说有着巨大价值,目前图像模型仍未真正触及。吴晨飞提到,分层模型也会是Qwen-Image下一步去探索的另一个重点。

“除了技术层面,视觉模型发展更多的痛点还是与应用场景的结合。”熊撼天表示,如何将现在模型能力的迭代,去结合现有的业务场景快速落地,也是模型发展的一大挑战,这之中也藏着中国厂商“弯道超车”的机会。比如在短剧或漫剧的AIGC生成领域,熊撼天提到,中国漫剧的发展速度已经远超国外了,形成了一个庞大的产业链。漫剧产业链公司会拿着最新一代的模型快速在生产级的场景里落地,“单剧集做一个动漫视频的钱可能马上就会从几百块钱减少到几十块钱。”

强调“办事能力”的同时,行业也在期待应用反哺技术。熊撼天认为,在技术已经追平的情况下,中国企业更擅长做应用,而应用的土壤会催生出一些新的产业链,新的产业链也会反复去迭代模型的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

印媒高调宣称,印度空调制造商将帮欧洲降温,抢夺中国厂商的订单

王新喜
2026-07-02 15:08:27
为了不让中国人用 Claude,A社塞了个“间谍软件”。。。

为了不让中国人用 Claude,A社塞了个“间谍软件”。。。

差评XPIN
2026-07-01 23:54:51
官方:马特乌斯-费尔南德斯加盟热刺,据悉转会费8500万镑

官方:马特乌斯-费尔南德斯加盟热刺,据悉转会费8500万镑

懂球帝
2026-07-02 17:16:24
俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

俄百枚导弹袭乌致100多人伤亡,乌军FP-9弹道导弹雷霆反击

史政先锋
2026-07-02 16:15:30
知名品牌突然被曝!深圳5家门店全部关闭,网友:时代的眼泪

知名品牌突然被曝!深圳5家门店全部关闭,网友:时代的眼泪

深圳晚报
2026-07-02 20:59:25
京东方A大逆袭!493亿天量创历史记录,95万股民迎来股价18年新高,安徽合肥又赢了

京东方A大逆袭!493亿天量创历史记录,95万股民迎来股价18年新高,安徽合肥又赢了

金融界
2026-07-02 16:01:29
性压抑已经恐怖如斯了?

性压抑已经恐怖如斯了?

黯泉
2026-07-01 10:07:17
网曝浙江某工厂聘请很多印度劳工,食堂吃饭照曝光,网友:快举报

网曝浙江某工厂聘请很多印度劳工,食堂吃饭照曝光,网友:快举报

小徐讲八卦
2026-07-02 11:43:38
女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

女子考编第一名岗位却被取消,网友:你不是人家想要的萝卜

网易新闻出品
2026-06-30 21:59:39
局势反转!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

局势反转!中国强硬下达“逐客令”,仅一招就让4000家日企倒闭

胖福的小木屋
2026-07-01 19:03:36
广州大闹车站女子已社死:正脸曝光,撒泼画面流出,拘留只是开始

广州大闹车站女子已社死:正脸曝光,撒泼画面流出,拘留只是开始

苗苗情感说
2026-07-02 11:10:55
保剑锋工作室声明:与黄慧颐女士自愿离婚,何珈好女士与黄慧颐女士素不相识,其言行被误读,此前诉讼已达成和解

保剑锋工作室声明:与黄慧颐女士自愿离婚,何珈好女士与黄慧颐女士素不相识,其言行被误读,此前诉讼已达成和解

洪观新闻
2026-07-02 16:21:31
心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理学有个致命的发现:读书时,拼的是谁更聪明;工作后,拼的是谁更圆滑;而活到最后才看透,比聪明圆滑更致命的,是这两个特质

心理观察局
2026-07-02 06:37:12
7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

7月1日起信访新规:进京上访,须持省级“通行证”,否则不登记

混沌录
2026-07-01 18:10:39
一问到底 | 四问泰山刀片铁丝网围山:会否干扰救援?人畜受伤谁担责?

一问到底 | 四问泰山刀片铁丝网围山:会否干扰救援?人畜受伤谁担责?

上游新闻
2026-07-02 17:26:26
少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

少林寺新任方丈释印乐,就任仅10个月,寺里就被曝出少了800多万

人生录
2026-07-02 16:19:01
仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

大卫的篮球故事
2026-07-02 19:44:05
上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

行者殷涛
2026-07-02 15:49:39
突发!以色列宣布:打死伊斯梅尔·马斯里

突发!以色列宣布:打死伊斯梅尔·马斯里

每日经济新闻
2026-06-30 11:36:05
2026-07-02 21:27:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
257964文章数 622891关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

头条要闻

售价超30万小鹏新车仅200公里爆胎 4S店给的说法反复

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

游戏
数码
艺术
本地
公开课

MMO式微?我看《天下贰·经典版》依旧火热!

数码要闻

联想扬天S660 27英寸配置上新,6999元

艺术要闻

冉茂芹人物写生 17幅

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版