网易首页 > 网易号 > 正文 申请入驻

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不需要GPT了

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

“史上最强视觉生成模型”,现在属于快手。

一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。

  • 可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;
  • 可灵2.0,文生视频对比Sora胜负比超360%,图生视频对比谷歌Veo2胜负比超180%。

新版本当中,两款模型的语义遵循能力和美学能力均大幅提升,还新增了图像编辑、风格转绘等一系列新功能。

并且一如既往坚持不搞期货,发布会一结束,两款模型及新功能就立即上线可用。

模型发布后,也引发国内外广泛讨论,就连马斯克也在X上连夜关注了可灵AI官方账号。

实测可图全新升级

在过去,MidJourney生图+可灵图生视频是一种常用的创作工作流。

但随着可图的全新升级,创作者们可以告别MidJourney,在可灵AI的平台内完成这一系列操作了。

相比前一代模型,可图2.0基础模型的第一个亮点,就是语义遵循能力大幅提升,具体又可以分为三个方面——

复杂元素响应更精准、镜头语言设计更合理、画面细节表现更丰富。

话不多说,直接看案例:

  • 黑白照片,少女照镜子,镜子里映出她老年的样子,写实摄影,左右对比,侧面构图,电影光照,一位白裙少女正在一个复古圆镜前照镜子,伦勃朗光照,景深摄影。

这组提示词设置了“现实”中的少女样貌和镜子中老年形象的反差,这样的场景是一种艺术设计,在真实世界中并不存在。

即便如此,可图2.0还是按照提示词中的要求完成了创作,构图、颜色等设置也都满足提示词要求。

相比之下,前一代生成的图片,除了确实有一位少女和一个镜子之外,和提示词几乎没有什么关联。

再看第二组。

  • 春节,爷爷奶奶,爸爸妈妈,1个男孩,5个人其乐融融的互相聊天,桌上的菜肴丰富。

这个设定看似简单,但实际上想要让准确呈现人或物体的数量,一直以来都不是一件容易的事。

但可图2.0的作品当中,人物的数量,以及人和人之间的关系,都完美契合了提示词的要求。

而前一代产品,四张图无一例外地出现了6个甚至更多的人物,性别和年龄设定就更随意了。

内容和细节之外,可图2.0对提示词中的构图、光线和景别设定的响应,也变得更加精准

  • 一位盘着浅色毛衣发髻的绝美的东方女性背对镜头,倚坐在木质窗边的扶手椅上,手中的书本在自然光下泛着柔和的纸页光泽。她的姿态松弛而专注,浅色长裙垂落椅边,与窗外险峻的雪山形成奇妙呼应——远处峰峦正被夕阳染成熔金般的色彩,雪线与蓝天交界处泛起淡紫的暮霭,粗犷的自然景观透过玻璃窗框,化作室内暖色空间里一幅流动的油画。窗台上冒着水珠的玻璃瓶和摇曳的烛火,在木纹窗台投下细长的光影,昏暗的室内环境,极简,大面积留白,影视化构图,光影美学,梦核,迷惑,丰富的细节,逼真,忧郁,悲伤,朦胧,模糊,虚焦,逆光,摄影,宝丽来风格。

在翻译行业里,能否做到“信、达、雅”是衡量结果质量的常用标准,放到AI绘图当中,这套标准也同样适用。

因为AI绘图,也可以看作是从文本到视觉信息的一种“翻译”。

如果说对指令的遵循体现了“信”和“达”,那么可图2.0的“电影美学表现”,就是在向着“雅”的层次迈进。

来看实测效果。

  • 电影质感,下午一位穿浅色衣服的亚洲男人站在路边打电话,前景有绿色汽车飞速驶过。光影柔和。参考《重庆森林》电影质感。

  • 电影感,参考《赎罪》风格,树林里光线明暗交替,一个女生拿着花束,穿着法式绿色纱裙在树林中奔跑,她飘逸的卷发随风飞舞,中景,动态模糊。

可以看出,可图2.0在勾勒电影质感时,运用了更高级的色彩及光影,使得情绪表达更具感染力。

另外可图2.0也进行了多风格化响应,支持近百种风格,无论是古典还是现代、写实还是夸张、实拍还是动漫都能搞定,包括GPT-4o带火的吉卜力风也能生成。

  • 白衣剑客动态姿势,丝质长袍飘动,剑锋直指前方。背景悬浮万剑阵列呈几何矩阵排列,冷钢质感伴随青蓝刃光。金色光粒子在气流中旋绕,柔和的体积光照。强烈明暗对比搭配轮廓光强化肌肉线条。纯黑虚空背景增强景深对比。超精细8K渲染,ZBrush级布料雕刻纹理,Octane金属反射材质。剑身雾气效果含次表面散射。构图融合天野喜孝幻想美学、Greg Rutkowski电影级打光与《剑灵》概念设计元素。

  • 新海城风格,穿着运动装的少女在霓虹闪烁的都市街道上疾速奔跑,飘动的长发掠过街边玻璃橱窗倒影,交通信号灯在暮色中切换成流动的光带,背包上的挂饰随着步伐晃动,柏油路面蒸腾着雨后水汽,广告牌与电子屏的光斑交织成迷离的背景光晕。

不仅模型,可图这次更新也增加了两大全新功能——风格转绘和图片编辑

下面的这12张图,就是由同一张图片,搭配不同风格提示词,使用可图转绘而成的。

而图片编辑具体包括了局部重绘和扩图两个方面。

有了局部重绘,不仅可以对现实中的图像进行修改,当得到一张风格特别好但细节有瑕疵的图片时,也不用再从头开始“抽卡”了。

比如想要把前面展示的年夜饭照片中小男孩手里的魔方换成螃蟹,就可以框选或涂抹目标区域,然后提出修改要求,就可以等待成果了。

生成的结果是这样,完成了选中部分的重绘要求,同时未选择的部分没有任何变动。

在扩图功能中,既可以把自己的想法交给可图实现,也可以什么也不说,给定一个比例,让可图自行发挥想象。

扩图结果,无提示词

当然,可图2.0的局部重绘和扩图并不局限于上面的传统用法,创作者可以充分发挥想象力,创造出别具一格的作品。

这里就用一个例子抛砖引玉,更多的玩法就交给创作者们自行探索了~

在可图模型和功能全面上新的背后,是可灵大模型团队做出的一系列技术创新。

首先是利用全新升级的文本表征处理链路,精准建模预训练文本到视觉表征的映射,这正是可图2.0语义遵循能力提升的关键。

可图2.0还采用了自适配图像Caption构建策略,显著提升了各阶段的学习效率。

此外,可灵大模型团队还在探索后训练阶段的Scaling Law,对数据体系和多样性进行了全面升级,并应用全新提示词工程和去噪策略,从而提升模型的表现力。

超越文本,AI创作的新方式

可图的升级,既是为了更好满足图像创作者的需求,也是为了给视频创作者提供更好的素材获取途径。

发布会上,快手副总裁、可灵AI负责人张迪介绍,在使用可灵生成视频的用户当中,有85%使用的是图生视频。

但其中涉及到的图片素材,不一定是拍摄或手绘而成,也可能包括生成结果。

相比于完全由文字生成视频,图片能够体现出文本无法精准描述的细节,从而让视频生成模型对目标的把控更加清晰。

因此,这种“曲线救国”的方式,可以降低视频生成结果的不确定性,减少试错成本,因此受到了用户的青睐。

这样看来,可灵AI团队不断打磨图像生成模型的目的,就显而易见了。

当然除了可图,视频生成模型可灵也进行了升级,针对之前指令遵循不好、动态效果不佳、美感缺乏的问题做出了全面升级。

可灵2.0对比谷歌Veo2的胜负比为205%,对比Sora的胜负比达367%,在文字相关性、画面质量、动态质量等维度上显著超越对手。

模型与产品升级之外,快手也在探索一种人与AI之间的新型交互方式。

快手高级副总裁盖坤表示,文字在表达影像信息时是不完备的,我们需要探索新的方式,才能让人真正精准地表达出心中所想。

所以在本次发布会上,可灵AI正式发布AI视频生成的全新交互理念——多模态视觉语言(Multi-modal Visual Language,MVL)。

MVL让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给AI。

基于MVL这一全新交互方式,可灵2.0大师版全面升级了视频及图像创作可控生成与编辑能力,上线了全新的多模态视频编辑功能。

加上之前已有的提示词优化、音效生成、对口型等一系列功能,快手已经初步构建出了从创意到视觉呈现的完整创作链路

这不仅让专业创作者能够精准还原脑海中的艺术构思,更让普通用户通过“所见即所得”的交互逻辑释放创作潜能。

让每个人都能用AI讲出好故事

发布会上,盖坤再一次讲到了可灵的愿景——让每个人都能用AI讲出好故事。

自去年6月发布以来,可灵AI已累计完成超20次迭代,累计生成1.68亿段视频和3.44亿张图片素材。

在这一过程当中,可灵AI一直坚守初心,不断提升模型基础质量和模型效果,并引入更多创新功能,以满足用户的多样化需求。

包括可图和可灵2.0版本升级,以及MVL的提出,同样是在扫清“用AI讲好故事”的道路上的障碍。

可灵越来越完备的产品体系和工作链路,正在让AI创作变得愈加触手可得。

甚至为了帮助不懂提示词的纯小白用户完成创作,可灵还在Web和APP当中接入了经过专门为设计提示词而调整的DeepSeek模型,进一步降低了AI视频创作的门槛。

可灵的表现也获得了大佬的认可,比如马斯克早在去年八月就曾评论一则由可灵AI制作的内容,称“AI娱乐产业正飞速发展”。

到现在马斯克连夜关注官方账号,进一步说明可灵已经彻底打造出了国际口碑。

总之,快手正在用技术让影像创作回归本真——专业者能精准雕琢每个光影细节,普通人也可凭直觉编织动人故事。

当技术逐渐溶解专业壁垒,那些曾遥不可及的艺术表达,终将成为每个人记录世界的本能,让每个平凡瞬间都自带美学重量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
热搜爆了!李川跨年舞台求婚锤娜丽莎,三年长跑成正果引全网祝福

热搜爆了!李川跨年舞台求婚锤娜丽莎,三年长跑成正果引全网祝福

代军哥哥谈娱乐
2026-01-01 14:45:41
中国人均一个的“作弊神器”!老外崩溃了...

中国人均一个的“作弊神器”!老外崩溃了...

毛豆论道
2025-12-31 19:03:49
总统官邸“遭袭”近三天后,俄罗斯展示“证据”,却遭特朗普指责

总统官邸“遭袭”近三天后,俄罗斯展示“证据”,却遭特朗普指责

鹰眼Defence
2026-01-01 17:58:31
单价1800元的机器,男子下单买3台却遭拒发?商家:价标错了,少了个零;法院:买家败诉

单价1800元的机器,男子下单买3台却遭拒发?商家:价标错了,少了个零;法院:买家败诉

大风新闻
2026-01-01 17:13:04
瑞士火灾幸存者讲述恐怖经历:被压在3、4人身下

瑞士火灾幸存者讲述恐怖经历:被压在3、4人身下

看看新闻Knews
2026-01-02 16:25:21
欧美憋不住了,要对中国先下手为强,高市早苗很得意,抛出4个字

欧美憋不住了,要对中国先下手为强,高市早苗很得意,抛出4个字

时时有聊
2026-01-02 11:33:02
卢卡申科:“不友好国家”曾策划袭击普京,我提醒他别去南非,很明显西方明白,如果除掉普京一切都会不同

卢卡申科:“不友好国家”曾策划袭击普京,我提醒他别去南非,很明显西方明白,如果除掉普京一切都会不同

鲁中晨报
2026-01-01 22:13:03
29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

观威海
2026-01-02 10:14:04
下月起,看病开药新规!6类药超7天全自费,慢病一次开3个月

下月起,看病开药新规!6类药超7天全自费,慢病一次开3个月

蜉蝣说
2025-12-30 11:59:54
峨眉山全山寺院永久免费开放

峨眉山全山寺院永久免费开放

界面新闻
2026-01-02 10:57:39
东北雨姐小号全被封杀,跑到海外平台更新,没想到比在国内还火

东北雨姐小号全被封杀,跑到海外平台更新,没想到比在国内还火

新游戏大妹子
2026-01-01 13:35:56
“美女副区长”于媛媛,整容脸,皮肤白皙,严重违反生活纪律

“美女副区长”于媛媛,整容脸,皮肤白皙,严重违反生活纪律

李昕言温度空间
2026-01-01 22:38:33
视频丨瞬间弹射“零帧”急停 福建舰还有哪些惊喜?

视频丨瞬间弹射“零帧”急停 福建舰还有哪些惊喜?

环球网资讯
2026-01-02 07:26:47
网友称洛阳博物馆一唐代陶马倒下断裂,有导游称已更换展品,馆方工作人员:正调查,等官方回复

网友称洛阳博物馆一唐代陶马倒下断裂,有导游称已更换展品,馆方工作人员:正调查,等官方回复

极目新闻
2026-01-02 11:51:19
2025年有一种痛苦叫搬进了“大平层”,不好住不好卖,已沦不动产

2025年有一种痛苦叫搬进了“大平层”,不好住不好卖,已沦不动产

巢客HOME
2025-12-25 07:25:03
瑞士酒吧起火瞬间画面曝光:女服务员举烟花被男酒保扛肩上,不慎引燃天花板

瑞士酒吧起火瞬间画面曝光:女服务员举烟花被男酒保扛肩上,不慎引燃天花板

环球时报国际
2026-01-02 12:20:21
广州打响第一枪!2月1日起违规最高罚50万,400万车主彻底沸腾

广州打响第一枪!2月1日起违规最高罚50万,400万车主彻底沸腾

文雅笔墨
2026-01-02 00:02:16
比尔·盖茨小女儿官宣恋情:与高中恋人破镜重圆,赞其不用社交媒体

比尔·盖茨小女儿官宣恋情:与高中恋人破镜重圆,赞其不用社交媒体

红星新闻
2026-01-02 12:05:07
亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

亏损超2亿?《用武之地》票房崩塌,我感慨:这块金字招牌算砸了

靠谱电影君
2025-12-31 21:42:18
全网都在问,这个是崔凤祥大爷捐赠的那尊佛像吗?曾被拍出1265万

全网都在问,这个是崔凤祥大爷捐赠的那尊佛像吗?曾被拍出1265万

火山詩话
2026-01-02 07:55:31
2026-01-02 17:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11960文章数 176354关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

比尔·盖茨小女儿官宣与高中恋人复合 赞其不用社媒

头条要闻

比尔·盖茨小女儿官宣与高中恋人复合 赞其不用社媒

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

武林外传开播20年,郭芙蓉打工期结束

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

艺术
数码
亲子
健康
军事航空

艺术要闻

雷蒙多·德·马德拉索:定义“美丽时代”的肖像大师

数码要闻

宜家推出SJÖSS赫约斯20W充电器,售价3.99美元

亲子要闻

妈妈:这孩子真调皮,网友:还不是跟他爸学的

元旦举家出行,注意防流感

军事要闻

泽连斯基:乌全力推动恢复战俘交换工作

无障碍浏览 进入关怀版