鸡你太美,很丝滑⬆️
上线不到两周半,千问APP又进化了:多模态创作能力全面升级。
视频方面,基于Wan 2.5的音视频同出能力,一张图+一段提示词就能输出各种唱跳、表演视频。
生图方面,全新升级了图片生成与编辑模型Qwen-Image-Edit,有着超强的一致性,擅长生图、修图、多视角转换、多图融合和多模态推理。
省流:最新、最强的多模态模型,已上线千问APP。
Ps,千问APP需要升级至5.1.0版本以上,才能体验。
![]()
实测体验
我们,这就来实测体验。
首先出场的,是我们四川文旅的当红炸子鸡:三星堆。
这是一张商青铜立人像,看起来就像在练着某种武功秘籍,有没有?
![]()
我拍的时候,游客太多了,用千问把他们通通消掉。
把图片背景里的人都去掉。
![]()
注意看,左下角那两张挂在墙上的展图和右后方的玻璃展柜,全部是由模型自己推理出来的,与原画很贴合,非常牛逼。
把背景改为纯黑色背景,用于藏品展示。
![]()
生成左视角图片。
![]()
生成右视角图片。
![]()
生成手办。
![]()
Prompt:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.
我把完整的对话截图,放在这里了,大家可以看下整个生成过程。
(可上下滑动,查看全图)
图片有了,我们也可以让它生成视频,用这句提示词:
帮我生成视频,图中的主体一边练着武功,一边说:松而不懈,紧而不僵,气沉丹田,意守其中。
画面、台词、字幕,全由千问直接生成。
哈哈,我就说他是在练武功吧,这回可算找着证据了(众所周知视频是不能P的)。
而且,千问还能存实况图片,发朋友圈装x的本事又学到了,hhh~
![]()
千问之所以能整活,主要是背后有两个顶尖的模型。
一是全新升级的Qwen-Image-Edit,相较上一代版本,新Qwen-Image-Edit模型在多项性能上都有所增强:
图片编辑,大幅减轻了主体偏移问题,生图不模糊、更稳定;
提升主体一致性,多图融合更稳定;
语义理解增强,既能看懂图片,也能改好图片。
尤其擅长改图(颜色、场景、材质和局部修改)、多视角转换、多图融合和多模态推理(比如做几何题)。
比如,可以让图1变换为图2的姿势。
或者,给图1的角色穿上图2的衣服。
二是最新的Wan2.5视频模型。这是业界少有的具备音画同出能力的视频模型,可以生成和画面匹配的人声、音效和音乐BGM。
无论是真人照片、萌宠、二次元角色,还是文物、卡通形象,千问APP都支持“一张照片就能跳舞”的创意玩法,可以生成口型精准、动作丝滑的“边唱边跳”视频。
最长,支持10S、1080P。
比如,可以跳孤身摇。
提示词:帮我生成跳舞视频,让图片中的人物跳孤身摇。
以及,橘猫和小狗主持的播客节目。
提示词:一档猫咩和小狗主持的播客节目,橘猫开心的说:“今天心情不错,因为我刚成功偷袭了一只激光笔。”接着,小狗补充:“我也心情不错,因为我帮你报了仇,把那支激光笔咬断了,哈哈哈。”说完它们两对视一眼,开心大笑。
也可以清唱:明月几时有。
提示词:图中的人物一边跳舞,一边唱:明月几时有,把酒问青天。
![]()
更多玩法
基于这些模型,千问APP其实有很多玩法。
1)生图-生视频
先让千问帮我画图,然后再用画的图生成视频,全在一个Chat框里搞定。
![]()
这是用第一张图生成的视频,很有宫崎骏的味道。
2)改图-生视频
也可以让千问先改图再生成视频,比如我仿制的玛丽莲·梦露风格广告大片。
![]()
这是用第二张图生成的视频。
以及,老黄和奥特曼合唱《中国话》。
![]()
3)连续性改图
同时,千问也是支持连续性改图的,这一致性保持得非常不错。
![]()
如果你不会写提示词,还可以直接让千问生成绘图提示词,然后让千问用绘图提示词生成图片,再基于生成的图片生成视频。
这链路,齐活了。
![]()
上线两周半,千问的动作还是挺快的。
基本上,最新、最强的模型都会第一时间上千问。而且它是彻底的All in One——一个Chat窗口解决所有input问题,没有单独的入口,也无需点胶囊按钮,直接一句指令,全都搞定。
比如,帮我生成视频、帮我创建图片、帮我改图、帮我翻译、帮我写HTML、帮我写PPT……
这次的千问,它真的把“复杂留给模型,简单留给用户”做到了极致。
上周四,我到阿里巴巴北京总部参加夸克AI眼镜发布会,千问负责人吴嘉现场透露:千问公测仅一周,下载量已突破1000万。
![]()
这速度,就很阿里,也很中国。
而这,或许只是这场智能革命的开始。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.