网易首页 > 网易号 > 正文 申请入驻

实测千问 App 生图、生视频功能:国产实用主义的突围

0
分享至



Sora 2 的与奥特曼对话的音画同步视频生成,还有 Nano Banana Pro 的风格化生图狂欢热潮还没过去,多模态 AI 领域又有重磅更新上场:

阿里的千问 APP 在 12 月初悄然完成了一次关键版本更新,接入国内最强 AI 生视频模型 Wan 2.5,以及全球开源领先 AI 生图模型的特供满血版 Qwen-Image 2511,更重要的是,生图功能直接拉满免费不限次,彻底降低用户的使用门槛。

在此之前,我们曾深度测评过 Wan 2.5 的网页版(详见网页链接{从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录}),当时就觉得这模型实用到不像当下 AI 圈的东西:没有追 1 分钟长视频的噱头,也没讲各种用户根本看不懂的参数。就专注一件事:把 10 秒内的音画同步、细节还原做到了极致。

如今它下放到手机端,再配上 Qwen-Image 2511 这张 免王牌」一同下放到千问 APP,可以说,这是阿里将 B 端沉淀的多模态技术向 C 端场景落地的重要尝试。

那么 APP 端视频生成的体验究竟是否能像此前网页端一样惊艳?还有,卷了这么多年的图片生成大模型,这次千问+ Qwen-Image 2511 又能带来什么惊喜?

带着两个核心疑问,我们用一周时间把这两个功能用到了极致,试图为大家解决以下问题:

Qwen-Image 2511 是否能真正解决传统 AI 生图的人物崩脸、中文乱码等行业痛点?Wan 2.5 在音画同步、长视频叙事上与国际主流模型的差距是否缩小?免费模式背后,阿里又在构建怎样的 AI 生态闭环?

01

视频能力实测

Wan 2.5背后国产模型的实用主义路线

Wan 2.5 是谁,相信很多了解过 AI 视频生成的朋友已经对此并不陌生。

作为为数不多能够对标谷歌Veo3 的视频生成大模型,Wan 2.5 核心突破在于音画同步与 10 秒长视频生成以及更精细、好看的画面。

说的更直白一点,Wan2.5 不仅是 2025 年国内最先进的多模态生成模型之一,绝对也是你用过最具性价比的一梯队 AI 视频生成产品。

接下来,我们从音画同步、场景化功能、细节表现三个层面,解析其实际表现。

测试一音画同步时长

音画不同步、短时长限制、细节不突出,是过去国产视频模型与 Sora、Veo3 等国际模型的主要差距。针对以上问题,我们直接让 Wan2.5 生成:在复杂场景中,生成两个不同风格人物对话的剧情。

提示词如下:

暮春午后,石质柱廊蜿蜒延伸,青灰色石板映着斑驳光影,阶前青草点缀,风拂过荀子身着玄色宽袍腰束素带,与身披浅灰亚麻袍、赤足踏石的苏格拉底相对而立。镜头先以全景定格,随即推进至荀子中近景,他广袖一扬,特写中眼神如炬,沉凝有力地掷出:「人性本恶!争则乱,乱则穷!」镜头横切至苏格拉底,中近景里他双手自然摊开,指尖轻叩石面,眉宇从容,温和却带锋芒地反驳:「人性本善,无人有意作恶。」最后镜头从两人面部拉远,回归全景,柱廊光影流转,风拂衣袂,两人对立的身影在古意场景中定格。

看似简单,但这段提示词里,实际埋了三个坑:

第一,风格冲突:需兼顾古风与西方两种人物风格,避免不同穿着人物实际共用一张脸的情况;

第二,音画同步:两个角色的台词「人性本恶!争则乱,乱则穷」「人性本善,无人有意作恶」要对口型,还要匹配动作,并且两人的语气与神情各不相同。

第三,复杂画面,元素不丢:石质柱廊,青灰色石板、斑驳光影、阶前青草点缀,不能随着镜头的切换凭空消失。

最终生成效果如下:

网页链接

可以看到,Wan2.5 的音画同步准确率相当不错,而且我们一开始担心各种问题,Wan2.5 都解决的很好。首先是高度一致的音画同步,细节上,不仅人物挥动衣袖的动作、身体、音画同步自然流畅,就连场景也有很高的一致性,整体画面切换调度也颇有动画电影的水平。

测试二细节控制

如果说卡通测试是基础题,那电影级写实测试就是附加题。

此前在 Wan2.5-Preview 时期,我们就已经见识到了它在细节还原、氛围打造上的厉害之处。不过这次,我们让难度再升级,从黄昏树林中静止的男生,变成真实复杂场景中,两个运动中的主角。

提示词:【风格设定】电影级写实风格,画面干净通透,兼具温柔氛围感与高级电影感;线条细腻,质感真实。【人物 + 动物+动作设定】

人物:20 岁年轻白人女孩,轮廓分明,皮肤白皙,长发微卷,眼神清澈带一丝温柔沉思;穿着米白色棉麻长裙(领口微敞,袖口随意卷起),衣料有自然褶皱,质感轻薄透气。

动物:一只温顺的小鹿(毛色浅棕带白色斑点,鹿角短小圆润),头部轻靠女子左臂,眼神柔和,耳朵偶尔轻微晃动,与女子互动自然不僵硬。

动作:女孩牵着鹿从森林中缓缓走来

【场景设定】黄昏稀疏落叶林,树干笔直修长,树叶泛黄带绿(秋夏交替质感),地面覆盖少量浅棕色落叶;时间为日落前 1 小时,天色呈暖橙与淡紫渐变,空气通透无雾气。

【镜头与光影核心要求】

镜头参数:长镜头(无切换),中景构图(人物 + 小鹿占画面 60%),中心构图(人物与小鹿位于画面正中心),干净单人 + 动物镜头(无多余路人 / 杂物);背景虚化(景深 f/2.8),突出主体,虚化后背景呈斑驳圆形光斑。

光影层次:

逆光:太阳位于人物后方偏左侧,形成金色轮廓光(勾勒发丝、肩膀、衬衫边缘),轮廓光宽度 1-2cm,柔和不刺眼;

侧光:右侧补柔和侧光,照亮人物半张脸,避免面部全黑,形成「半明半暗」的层次感;

柔光:整体光线经过树叶过滤,呈漫射效果,无硬边阴影。

网页链接

先说结论,这是最近各种 AI 视频测试中,最让我感到惊喜的一个。

先看必答题:女孩的棉麻长裙,袖口卷起的地方有自然的褶皱,不是熨烫平整的假质感;小鹿的头靠在女孩手臂上时,耳朵会轻轻晃动,不是 焊死在头上;逆光的金色轮廓光,刚好勾勒在发丝和肩膀边缘,没有糊成一片。女孩转弯前真实的眼神变化,走路时自然飘动的发丝,真实到仿佛电影画面。背景虚化后的光斑是圆形斑驳,不是呆板的圆形光斑,这细节已经能吊打不少 老法师了。

然后是彩蛋:我忘记了在提示词里写任何声音,但视频里居然有 咔嚓咔嚓女孩和小鹿踩过落叶时的脚步声,声音会随着步伐的快慢变化;背景里还有清脆且有空间远近层进的鸟叫声。

据了解,这种画面审美突破的核心在于,Wan 2.5 通过引入人类反馈的强化学习(RLHF),把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型,从而彻底让 AI 视频生成摆脱了过去诡异中带着点赛博丑陋的标签。

测试三场景化功能体验

不同于国际模型侧重各种技术极限,Wan 2.5 更注重实用场景适配,此前通义推出的全民舞王一度让全中国的奶牛猫都突然站立开始跳印度舞,虽然魔性,但直指普通用户的创作痛点。

这里的测试,我们不再采用固定的模版,而是玩了个 脑洞测试:上传一张小猫的照片,让它驮着孙悟空在非洲大草原狂奔。

这个需求的难点在于双重动态:小猫跑步时的肌肉形变、孙悟空的丝带飘动,还要保持小猫的原长相。毕竟,很多 AI 处理图生视频 + 复杂动作时,会把主体搞成橡皮泥,要么肌肉不动,要么脸崩了。

效果如下:

网页链接

可以看到,这里的测试效果依然很稳定,小猫已经驮着孙悟空在非洲大草原奔驰,会有肌肉的运动,孙悟空的丝带飘向风的方向,不是 360 度乱转;最关键的是,小猫的脸和我上传的照片几乎一致——耳朵的弧度、眼睛的颜色,甚至额头的精细花纹全都没丢。

02

生图实测

免费工具的专业度上限有多高

原本测完视频能力之后,我已经觉得不会有更多超出的惊喜出现了,但万万没想到 Qwen-Image 2511 模型的能力,同样打了我个措手不及。

官方资料显示,Qwen-Image 2511 模型在 Huggingface 趋势榜登顶数周,开源生态贡献度全球第一,AI arena 竞技场排名仅次于闭源模型 nano banana 与 seedream 4.0。

不过这些数据对用户而言,其实价值意义不大,还需转化为实际使用体验才能被认可,我们依然通过三组核心测试验证其落地能力。

测试一连续创作过程中的人物一致性

AI 生图的核心痛点之一,是无法在多轮生成中保持人物特征稳定性,经常是更换场景、调整动作后,人物面部特征易出现崩脸、换脸问题。这就导致,AI 出神图容易,但是用在生产环境稳定出图反而是个问题,而 Qwen-Image 2511 很好的解决了这个问题。

我们以同一人物(动物)多场景生成为测试场景,来「嫁祸」一只小猫咪:

输入素材:一张金渐层小猫的照片

生成指令:给小猫穿上粉色裙子、给小猫面前放个花瓶小猫推花瓶、让花瓶碎在小猫面前

可以看到,Qwen-Image 2511 完整保留了测试对象也就是金渐层的面部特征之外,穿上的衣服也与小猫的身形完美符合,一个有些有意思的细节是,每次 Qwen-Image 2511 生图都是四张,而这四组图片中,小猫的裙子颜色、花的颜色与款式,都是完全一一对应的,细节满分。

网页链接

测试二中文文字+商用场景适配

对中小商家而言,AI 生图的核心价值在于降低商用素材制作成本——能否生成符合平台规范的商品图、海报图,直接决定工具的实用价值。

此外,中文场景下,当前市面上的其他 AI 生图常出现文字乱码、字体错位问题,说白了就是像鬼画符。其中,表现差一点的,完全看不出来文字到底是什么;表现稍好一点的,也会出现某个字少个偏旁,缺了一横,或者多了一竖。总之,模型对中文语义与排版逻辑的理解始终弱于英文。

这次,我们测试直接上难度,不只要能写汉字,还要有排版,写的好看,并且还要搭配复杂商用级别画面。

提示词:做一个海报,核心主题「天然无谷狗粮 | 狗狗健康成长的能量源泉」

视觉主体:纯种金毛,6-12 个月幼犬,毛发蓬松有光泽,眼神灵动,正低头大口啃食狗粮(嘴角带少量粮屑,呈现「适口性极佳」的真实感),姿态放松愉悦(如趴在草地 / 地毯上,尾巴轻摇)

产品呈现:打开的狗粮包装袋(透明开窗设计,可见颗粒分明的狗粮,颗粒呈不规则六边形,颜色为浅棕 + 深棕渐变),袋身斜靠在木质托盘上,,标注「无谷配方」「鲜肉含量≥85%」「益生菌添加」核心卖点。辅助元素为:旁边摆放 1 个陶瓷食盆(装满狗粮,少量颗粒散落在食盆边缘),1 片新鲜胡萝卜 / 西兰花(呼应「天然食材」),1 滴透明鱼油(暗示「美毛护肤」功效)

场景氛围:户外场景:青翠草地 + 蓝天白云,狗狗趴在野餐垫上进食,周围点缀几朵小雏菊,远处有模糊的树木轮廓,整体色调清新自然

风格与质感:超写实质感,细节拉满(狗狗毛发根根分明,狗粮颗粒的纹理、油脂光泽,食盆的陶瓷磨砂质感均清晰可见),避免卡通化或模糊处理

色彩搭配:暖橙色(传递「温暖」「食欲」)+ 浅草绿(呼应「天然」)+ 原木色(增强「安全」「质朴」感)



测试结果显示,Qwen-Image 2511 在基础测试中完全规避了文字截断、字体混淆问题,不仅实现了海报标题的精准呈现,画中画的狗粮包装袋上文字依然精准呈现。此外,画面中胡萝卜的大小、狗粮的质感,幼犬的形态、狗毛的真实毛绒质感还原也非常到位,可以直接用于电商平台上架。

此外,更惊喜的是,Qwen-Image 2511 生图时支持一键调整比例(1:1/2:3/3:4/9:16/4:3/16:9/3:2),无需借助第三方工具裁剪。此外在后期,Qwen-Image 2511 还支持局部改字/改色、扩图、修改尺寸等等修改,而这对生产级场景来说,非常重要:毕竟 AI 生图,一次性得到满意结果的概率并不大,往往需要非常精细、复杂的后期修改。而现在这件事情,已经可以彻底交给 AI,精准修改。



对比一些付费生图工具,Qwen-Image 2511 不仅在纹理还原度上表现更优,而且成本直接降为零,这对需批量制作素材的中小商家而言,具备极强的实用价值。

03

国产 AI 的实用主义突围

测完千问 APP 的两个新功能,我突然明白阿里这次升级的 野心:

无论是 Qwen-Image 2511 解决中文生图痛点,还是 Wan 2.5 补齐国产视频音画同步短板,千问的此次升级,其实背后正是国产 AI 模型的差异化突围范本:

Wan 2.5 的环境音自适应、元素 ID 锁定,不仅能用于阿里电商的 短视频带货场景,也能让普通人享受和家里宠物跨物种对话的神奇;

Qwen-Image 2511 的 中文渲染以及精细控制能力,不仅能够造福各种中小商家,也能让没有作图能力的手残党感受创作的快乐。

当这些 B 端技术被改造成 C 端用户能轻松上手甚至免费的功能时,AI 才真正从实验室走进了日常生活。而伴随创作成本大幅降低,国产 AI 工具也才有了成为新时代内容创作的标准的可能,而这才是真正的 AI 普惠。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
勇士真梭哈了?4首轮3互换!为了库里全不要了!

勇士真梭哈了?4首轮3互换!为了库里全不要了!

篮球盛世
2026-01-31 15:01:10
澳媒:中国总被描述为全球第二大经济体,这并非事实

澳媒:中国总被描述为全球第二大经济体,这并非事实

南宗历史
2025-12-13 23:41:38
纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

谈史论天地
2026-01-23 10:04:14
1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

磊子讲史
2026-01-23 15:21:12
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

户外钓鱼哥阿旱
2026-02-01 01:34:55
绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

生活新鲜市
2026-02-01 11:16:03
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
英超:曼联vs富勒姆 赛事前瞻

英超:曼联vs富勒姆 赛事前瞻

白国华
2026-02-01 12:18:47
突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

爱吃醋的猫咪
2026-01-27 20:31:00
军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

霁寒飘雪
2026-02-01 11:33:02
大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

AutoBusiness
2026-01-30 16:06:31
导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

南权先生
2026-01-28 15:54:10
联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

移动挡拆
2026-02-01 02:01:54
CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

体育大学僧
2026-01-31 11:19:10
牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

静若梨花
2026-01-27 15:33:14
加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

何嗀爱捕渔
2026-01-31 07:30:19
145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

牛锅巴小钒
2026-02-01 10:41:04
陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

明星私服穿搭daily
2026-01-19 07:30:49
Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

环球网资讯
2026-01-31 15:03:09
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
2026-02-01 12:39:00
极客公园
极客公园
让最棒的创新成为头条
11756文章数 78751关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

亲子
手机
艺术
家居
军事航空

亲子要闻

过年发压岁钱,别卡年龄卡成长,发错真影响孩子

手机要闻

OPPO A6v搭载6500mAh电池、天玑6300处理器,2月2日预售

艺术要闻

草书中的“秋风萧瑟”:书法该走专精还是博取之路?

家居要闻

蓝调空舍 自由与个性

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版