网易首页 > 网易号 > 正文 申请入驻

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不需要GPT了

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

“史上最强视觉生成模型”,现在属于快手。

一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。

  • 可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;
  • 可灵2.0,文生视频对比Sora胜负比超360%,图生视频对比谷歌Veo2胜负比超180%。

新版本当中,两款模型的语义遵循能力和美学能力均大幅提升,还新增了图像编辑、风格转绘等一系列新功能。

并且一如既往坚持不搞期货,发布会一结束,两款模型及新功能就立即上线可用。

模型发布后,也引发国内外广泛讨论,就连马斯克也在X上连夜关注了可灵AI官方账号。

实测可图全新升级

在过去,MidJourney生图+可灵图生视频是一种常用的创作工作流。

但随着可图的全新升级,创作者们可以告别MidJourney,在可灵AI的平台内完成这一系列操作了。

相比前一代模型,可图2.0基础模型的第一个亮点,就是语义遵循能力大幅提升,具体又可以分为三个方面——

复杂元素响应更精准、镜头语言设计更合理、画面细节表现更丰富。

话不多说,直接看案例:

  • 黑白照片,少女照镜子,镜子里映出她老年的样子,写实摄影,左右对比,侧面构图,电影光照,一位白裙少女正在一个复古圆镜前照镜子,伦勃朗光照,景深摄影。

这组提示词设置了“现实”中的少女样貌和镜子中老年形象的反差,这样的场景是一种艺术设计,在真实世界中并不存在。

即便如此,可图2.0还是按照提示词中的要求完成了创作,构图、颜色等设置也都满足提示词要求。

相比之下,前一代生成的图片,除了确实有一位少女和一个镜子之外,和提示词几乎没有什么关联。

再看第二组。

  • 春节,爷爷奶奶,爸爸妈妈,1个男孩,5个人其乐融融的互相聊天,桌上的菜肴丰富。

这个设定看似简单,但实际上想要让准确呈现人或物体的数量,一直以来都不是一件容易的事。

但可图2.0的作品当中,人物的数量,以及人和人之间的关系,都完美契合了提示词的要求。

而前一代产品,四张图无一例外地出现了6个甚至更多的人物,性别和年龄设定就更随意了。

内容和细节之外,可图2.0对提示词中的构图、光线和景别设定的响应,也变得更加精准

  • 一位盘着浅色毛衣发髻的绝美的东方女性背对镜头,倚坐在木质窗边的扶手椅上,手中的书本在自然光下泛着柔和的纸页光泽。她的姿态松弛而专注,浅色长裙垂落椅边,与窗外险峻的雪山形成奇妙呼应——远处峰峦正被夕阳染成熔金般的色彩,雪线与蓝天交界处泛起淡紫的暮霭,粗犷的自然景观透过玻璃窗框,化作室内暖色空间里一幅流动的油画。窗台上冒着水珠的玻璃瓶和摇曳的烛火,在木纹窗台投下细长的光影,昏暗的室内环境,极简,大面积留白,影视化构图,光影美学,梦核,迷惑,丰富的细节,逼真,忧郁,悲伤,朦胧,模糊,虚焦,逆光,摄影,宝丽来风格。

在翻译行业里,能否做到“信、达、雅”是衡量结果质量的常用标准,放到AI绘图当中,这套标准也同样适用。

因为AI绘图,也可以看作是从文本到视觉信息的一种“翻译”。

如果说对指令的遵循体现了“信”和“达”,那么可图2.0的“电影美学表现”,就是在向着“雅”的层次迈进。

来看实测效果。

  • 电影质感,下午一位穿浅色衣服的亚洲男人站在路边打电话,前景有绿色汽车飞速驶过。光影柔和。参考《重庆森林》电影质感。

  • 电影感,参考《赎罪》风格,树林里光线明暗交替,一个女生拿着花束,穿着法式绿色纱裙在树林中奔跑,她飘逸的卷发随风飞舞,中景,动态模糊。

可以看出,可图2.0在勾勒电影质感时,运用了更高级的色彩及光影,使得情绪表达更具感染力。

另外可图2.0也进行了多风格化响应,支持近百种风格,无论是古典还是现代、写实还是夸张、实拍还是动漫都能搞定,包括GPT-4o带火的吉卜力风也能生成。

  • 白衣剑客动态姿势,丝质长袍飘动,剑锋直指前方。背景悬浮万剑阵列呈几何矩阵排列,冷钢质感伴随青蓝刃光。金色光粒子在气流中旋绕,柔和的体积光照。强烈明暗对比搭配轮廓光强化肌肉线条。纯黑虚空背景增强景深对比。超精细8K渲染,ZBrush级布料雕刻纹理,Octane金属反射材质。剑身雾气效果含次表面散射。构图融合天野喜孝幻想美学、Greg Rutkowski电影级打光与《剑灵》概念设计元素。

  • 新海城风格,穿着运动装的少女在霓虹闪烁的都市街道上疾速奔跑,飘动的长发掠过街边玻璃橱窗倒影,交通信号灯在暮色中切换成流动的光带,背包上的挂饰随着步伐晃动,柏油路面蒸腾着雨后水汽,广告牌与电子屏的光斑交织成迷离的背景光晕。

不仅模型,可图这次更新也增加了两大全新功能——风格转绘和图片编辑

下面的这12张图,就是由同一张图片,搭配不同风格提示词,使用可图转绘而成的。

而图片编辑具体包括了局部重绘和扩图两个方面。

有了局部重绘,不仅可以对现实中的图像进行修改,当得到一张风格特别好但细节有瑕疵的图片时,也不用再从头开始“抽卡”了。

比如想要把前面展示的年夜饭照片中小男孩手里的魔方换成螃蟹,就可以框选或涂抹目标区域,然后提出修改要求,就可以等待成果了。

生成的结果是这样,完成了选中部分的重绘要求,同时未选择的部分没有任何变动。

在扩图功能中,既可以把自己的想法交给可图实现,也可以什么也不说,给定一个比例,让可图自行发挥想象。

扩图结果,无提示词

当然,可图2.0的局部重绘和扩图并不局限于上面的传统用法,创作者可以充分发挥想象力,创造出别具一格的作品。

这里就用一个例子抛砖引玉,更多的玩法就交给创作者们自行探索了~

在可图模型和功能全面上新的背后,是可灵大模型团队做出的一系列技术创新。

首先是利用全新升级的文本表征处理链路,精准建模预训练文本到视觉表征的映射,这正是可图2.0语义遵循能力提升的关键。

可图2.0还采用了自适配图像Caption构建策略,显著提升了各阶段的学习效率。

此外,可灵大模型团队还在探索后训练阶段的Scaling Law,对数据体系和多样性进行了全面升级,并应用全新提示词工程和去噪策略,从而提升模型的表现力。

超越文本,AI创作的新方式

可图的升级,既是为了更好满足图像创作者的需求,也是为了给视频创作者提供更好的素材获取途径。

发布会上,快手副总裁、可灵AI负责人张迪介绍,在使用可灵生成视频的用户当中,有85%使用的是图生视频。

但其中涉及到的图片素材,不一定是拍摄或手绘而成,也可能包括生成结果。

相比于完全由文字生成视频,图片能够体现出文本无法精准描述的细节,从而让视频生成模型对目标的把控更加清晰。

因此,这种“曲线救国”的方式,可以降低视频生成结果的不确定性,减少试错成本,因此受到了用户的青睐。

这样看来,可灵AI团队不断打磨图像生成模型的目的,就显而易见了。

当然除了可图,视频生成模型可灵也进行了升级,针对之前指令遵循不好、动态效果不佳、美感缺乏的问题做出了全面升级。

可灵2.0对比谷歌Veo2的胜负比为205%,对比Sora的胜负比达367%,在文字相关性、画面质量、动态质量等维度上显著超越对手。

模型与产品升级之外,快手也在探索一种人与AI之间的新型交互方式。

快手高级副总裁盖坤表示,文字在表达影像信息时是不完备的,我们需要探索新的方式,才能让人真正精准地表达出心中所想。

所以在本次发布会上,可灵AI正式发布AI视频生成的全新交互理念——多模态视觉语言(Multi-modal Visual Language,MVL)。

MVL让用户能够结合图像参考、视频片段等多模态信息,将脑海中包含身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,直接高效地传达给AI。

基于MVL这一全新交互方式,可灵2.0大师版全面升级了视频及图像创作可控生成与编辑能力,上线了全新的多模态视频编辑功能。

加上之前已有的提示词优化、音效生成、对口型等一系列功能,快手已经初步构建出了从创意到视觉呈现的完整创作链路

这不仅让专业创作者能够精准还原脑海中的艺术构思,更让普通用户通过“所见即所得”的交互逻辑释放创作潜能。

让每个人都能用AI讲出好故事

发布会上,盖坤再一次讲到了可灵的愿景——让每个人都能用AI讲出好故事。

自去年6月发布以来,可灵AI已累计完成超20次迭代,累计生成1.68亿段视频和3.44亿张图片素材。

在这一过程当中,可灵AI一直坚守初心,不断提升模型基础质量和模型效果,并引入更多创新功能,以满足用户的多样化需求。

包括可图和可灵2.0版本升级,以及MVL的提出,同样是在扫清“用AI讲好故事”的道路上的障碍。

可灵越来越完备的产品体系和工作链路,正在让AI创作变得愈加触手可得。

甚至为了帮助不懂提示词的纯小白用户完成创作,可灵还在Web和APP当中接入了经过专门为设计提示词而调整的DeepSeek模型,进一步降低了AI视频创作的门槛。

可灵的表现也获得了大佬的认可,比如马斯克早在去年八月就曾评论一则由可灵AI制作的内容,称“AI娱乐产业正飞速发展”。

到现在马斯克连夜关注官方账号,进一步说明可灵已经彻底打造出了国际口碑。

总之,快手正在用技术让影像创作回归本真——专业者能精准雕琢每个光影细节,普通人也可凭直觉编织动人故事。

当技术逐渐溶解专业壁垒,那些曾遥不可及的艺术表达,终将成为每个人记录世界的本能,让每个平凡瞬间都自带美学重量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是时候重新认识——西门子!

是时候重新认识——西门子!

科学火箭叔
2025-12-09 20:38:29
网传新X3大崩盘 不到25万是真是假?实探4S店揭开真相

网传新X3大崩盘 不到25万是真是假?实探4S店揭开真相

沙雕小琳琳
2026-03-10 19:23:50
广西局长一家被灭门,竟是小姨子作案,行刑前:这辈子值了

广西局长一家被灭门,竟是小姨子作案,行刑前:这辈子值了

悬案解密档案
2025-03-28 10:58:32
王思聪送珠宝高调表白懒懒:老婆我爱你,两人同框照曝光很恩爱

王思聪送珠宝高调表白懒懒:老婆我爱你,两人同框照曝光很恩爱

银河史记
2026-03-09 19:12:35
俄罗斯向联合国控诉乌克兰用导弹袭击俄军工厂是“恐怖袭击”

俄罗斯向联合国控诉乌克兰用导弹袭击俄军工厂是“恐怖袭击”

山河路口
2026-03-11 21:16:21
欧尔班断崖式落后,匈牙利将迎巨变,泽连斯基欣喜

欧尔班断崖式落后,匈牙利将迎巨变,泽连斯基欣喜

风雨与阳光
2026-03-11 20:55:02
市委书记吴新明、市长张彤,有了新头衔

市委书记吴新明、市长张彤,有了新头衔

南通产经观察者
2026-03-10 17:06:46
黄仁勋罕见发长文:未来传统软件和APP或将消失,智能体极有可能成主流

黄仁勋罕见发长文:未来传统软件和APP或将消失,智能体极有可能成主流

界面新闻
2026-03-11 10:40:18
网传山东炼油厂的供应链:伊朗原油洗白后运来炼制,再卖到非洲挣大钱

网传山东炼油厂的供应链:伊朗原油洗白后运来炼制,再卖到非洲挣大钱

三言四拍
2026-03-09 08:13:42
美国、德国、英国、法国、意大利、加拿大、日本,发表联合声明

美国、德国、英国、法国、意大利、加拿大、日本,发表联合声明

台州交通广播
2026-03-11 22:07:56
“人体艺术”,绝非色情!

“人体艺术”,绝非色情!

文刀万
2026-03-06 06:05:03
伊朗第34波反击重创以色列,首都全境停电,特朗普欲收手

伊朗第34波反击重创以色列,首都全境停电,特朗普欲收手

刘浶开挖机
2026-03-11 04:48:36
欧冠1/8决赛前瞻:皇马曼城观赛疲劳,大黑马决战大黑店谁更黑?

欧冠1/8决赛前瞻:皇马曼城观赛疲劳,大黑马决战大黑店谁更黑?

宝哥爱足球
2026-03-10 13:18:30
出大事了,以军调转枪口空袭俄设施,普京立即表态,中东要变天了

出大事了,以军调转枪口空袭俄设施,普京立即表态,中东要变天了

林子说事
2026-03-11 14:46:46
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
WTT重庆冠军赛:林昀儒逆转!连扳3局胜世界冠军,约战国乒名将

WTT重庆冠军赛:林昀儒逆转!连扳3局胜世界冠军,约战国乒名将

全言作品
2026-03-11 15:34:40
巴拿马估计做梦都没想到,中国的反击会以这种方式打响

巴拿马估计做梦都没想到,中国的反击会以这种方式打响

苗苗情感说
2026-03-11 09:00:11
“火药味”渐浓!广东21城要开“打”了

“火药味”渐浓!广东21城要开“打”了

广东发布
2026-03-11 13:27:56
罕见公开批评!德国总理警告以色列:吞并约旦河西岸将是“一个巨大的错误”

罕见公开批评!德国总理警告以色列:吞并约旦河西岸将是“一个巨大的错误”

环球网资讯
2026-03-11 10:26:44
袁咏仪张智霖看画展,张智霖胡子全白像老头,袁咏仪成干瘪老太太

袁咏仪张智霖看画展,张智霖胡子全白像老头,袁咏仪成干瘪老太太

小娱乐悠悠
2026-03-11 10:07:12
2026-03-11 23:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12267文章数 176413关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

联合国16位专家呼吁日本道歉 外交部回应

头条要闻

联合国16位专家呼吁日本道歉 外交部回应

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

艺术
本地
旅游
时尚
军事航空

艺术要闻

这组剪纸太美了!

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

旅游要闻

桃花笑,菜花艳!沪郊金山开启“春的盛宴”

衣服不用买太多!初春多穿短大衣和针织衫,简单舒适又显高

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版