网易首页 > 网易号 > 正文 申请入驻

文生影像年末「大考」,字节跳动携即梦AI「交卷」

0
分享至

让想象力成为现实。

2024年尾声,文生影像领域硝烟四起。

12月初,OpenAI终于端上了Sora这盘硬菜,最高1080P的分辨率、20秒的时长以及故事板、Remix等功能,无疑再次搅动已经进入白热化竞争的文生影像江湖。但很快,竞争格局再次被刷新——谷歌发布了文生视频模型Veo 2,它在指令遵循、镜头控制以及画面质量上都表现惊艳。国内玩家也不遑多让。背靠字节跳动强大短视频基因的即梦AI,在上线后的四个月里经历了数次迭代,终于解决了AI生成影像的中文嵌入痛点。

在影像叙事大行其道的当下,文生图/视频无疑成为了AI应用的必争之地,而这场竞逐还远未及终局。不符合物理原则的AI生成视频,在让人发笑之余,折射的是目前文生图像领域,生成质量不高、反应速度慢、操作复杂以及伪影频现等诸多痛点。

对比国内外其他文生影像主要玩家,即梦AI入局相对较晚,但已足够让行业不容轻视,也让用户对其抱持着很高的期待。事实上,即梦AI自己也野心不小,喊出了“想象力相机”的口号。

那么,自2024年5月上线以来的即梦AI,到底有哪些看家本领,与包括Sora等在内的海内外同类应用相比,功力几何?通过即梦AI,或者可以一览字节跳动在AI应用元年于文生影像领域的成绩单。

一句话改图:简单、精准

即梦AI在11月上线了“智能参考”功能,号称用户可以通过一句话实现零门槛改图,并精准收获预期效果。

比如用时下流行的文物动作改造进行尝试。选取一张兵马俑的照片,点击使用“智能参考”功能,输入简单的promt:兵马俑喝奶茶,仅几秒钟,原图就生成为一张左手握奶茶的兵马俑图片,且可以看到,图片的其余部位都基本保持了原图状态,没有变形,全程也不需要额外再做涂抹描边等步骤。

prompt:兵马俑喝奶茶

再尝试一下更复杂的改图效果。去掉原图中女孩面前的玻璃,从效果图中可以看到,即梦AI对prompt的理解还是很精准到位的,玻璃被完整消除了,而原图其他细节基本上都实现了保留。

prompt:去除图片的碎玻璃

在多次测试中,可以看到,即梦AI的图像生成模型,能够辨别表情、情绪、风格以及成语等词汇,并且可以实现指哪打哪的精准任务执行。

从效果来看,目前即梦AI的改图功能可实现改风格、改动作、改表情、2D变3D、换装/换人、增减主体以及改场景等多种效果。对比同类模型而言,覆盖相对全面。

简单、精准且效果多元,这对C端大众用户来说,可以满足社交媒体使用过程中大部分的制图需要,比如最近很火的经典卡通头像拟人化制作,还有朋友圈爆火的AI雪景。对创作者而言,这种简单、精准的图像生成实现,无疑可以大幅度降低使用成本,提高创作的效率。

这个月初,即梦AI上线了“文字海报”功能,输入一句话即可生成中/英文海报,后续还增加了涂抹修改错字的功能。

在实测中,即梦AI除了实现简单快速和排版设计这些比较基础的要求,更亮眼的表现,无疑是AI图像生成中中文难以生成的问题,同平台迅速涂抹修改错别字也是当前国内外文生图模型还难以实现的。另外,即梦的模型还可以根据提示词,自动完善文案并补充画面细节。在控制图片中的文字生成这方面,即梦是行业首创。

有了这个功能,B端在电商大促、新品宣传、年末活动以及视频封面等场景的需求基本上都可以满足。尤其是不会做海报但是有需求的小商家或者营销个体、半专业设计师、文字媒体工作者,即梦都会是不错的辅助工具。

视频生成:复杂,多元

视频生成是目前是AI应用领域当之无愧的竞争热土,也是各应用能力的重要试金石。即梦AI在11月中旬上线了S&P双模型。根据介绍,采用DiT架构,S2.0 pro 模型在首帧一致性和画质上有不俗表现,而P2.0 pro模型则有较高的“提示词遵循能力”,即输入复杂提示词,如镜头切换、人物连续动作、情绪演绎、运镜控制等,模型也能理解并精准生成视频。

对指令理解、镜头切换以及相机控制的最大程度实现,在目前视频生成领域的几个主要模型已经“卷”出新高度。姗姗来迟的OpenAI Sora,就有可以让用户自由添加分镜的故事板功能;而被公认已经全面超越Sora的谷歌Veo 2,在复杂指令理解以及相机控制方面更是做到了极致,景深等摄影专业术语都可以直接输入,并且被精准理解实现理想的效果输出。

而即梦的P2.0pro模型,也在这些领域进行了发力。在镜头切换方面,输入一张图和prompt,就可以生成多镜头视频,实现全景、中景、特写等镜头切换,并保持了视频与原图总体风格、场景以及人物的高度一致。在下面的实测中,可以看到视频与原图画面基本保持了一致,生成的面部表情以及肢体细节等也都较为精准、生动。

prompt:视频呈现转化为动画风格,突出女孩脸部表情,表现出购物后的喜悦心情

从人物动作来看,目前P2.0pro模型生成可以实现单主体、多主体,连续、复杂的一整套动作。比如,在实测中,输入下面这张单人静态图,以及prompt:一个男人走进画面,女人转头看着他,他们互相拥抱,背景周围的人在走动。生成效果中,除了大多数模型目前都存在的人物眼神无法聚焦的问题外,人物动作还是相当连贯的,并且互动效果也符合现实物理原则,四肢等也没有出现错位和变形等问题。

在运镜控制方面,除了简单的“推、拉、摇、移”外,即梦P2.0 pro模型还能实现变焦、主体环绕、升降、旋转、晃动、鱼眼镜头等多种运镜,其中“变焦”表现尤其突出。在以下这张原图+prompt(镜头环绕着戴墨镜的女人拍摄,从她侧面移动到正面,最后聚焦于女人的墨镜特写)的实测中,除了镜头还有点晃之外,prompt的描述都得到了较大程度的实现。

另外,除了对镜头语言以及动作语言的精准理解,即梦的P2.0pro模型,对情绪的演绎也堪称精准。它不仅可以演绎哭、笑、悲伤、生气等单一的简单情绪,还可以理解并生成“哭中带笑”等这类复杂情绪。

视频生成的场景就很多,比如最近很火的让文物动起来,用即梦的S/P2.0Pro模型,只要输入prompt词就可以简单快速完成,不仅是雕塑文物,古画里面的人物、动物都可以。

即梦AI在B端场景也有很大的想象空间,商品展示类的广告短片、红人口播短视频等,目前的模型能力都可以基本实现。目前即梦还上线了“对口型”功能,一张图片、一段文字或者一段音频,就能生成对口型视频,不需要额外再写prompt。在实测中,除了口型对上之外,生成的视频中,人物的表情、神态也都基本可以还原音频的情绪表现;另外服饰、配饰乃至头发的细节都能达到动态逼真。

打造想象力相机,字节的AI野心

总体而言,上线相对较晚的即梦AI,还是跟上了同类文生影像产品的节奏,在清晰度、准确度以及细节质量等基本的评价维度上,都给出了较为惊艳的表现;同时在视频生成方面的情绪理解以及运镜控制等更复杂任务的完成上,也在不断迭代,超海内外强势产品追赶。尤其是在生图方面,即梦也解决了插入中文这一痛点。

另外,相比Sora等海外产品,即梦AI目前的订阅门槛还是相对亲民的,高频使用的用户还可以通过每天登陆领取积分兑换使用次数。这对于大众用户来说,是另一种维度的低使用门槛。

目前,文生影像领域的产品形态和功能都还在比较早期的阶段,竞争格局远未定型。表现在用户侧,不少用户都是同时使用多个AI应用工具以完成一个任务,一方面是,目前单个工具还无法给出最优的成果;另一方面是,各个工具目前都有各自的长板,用户将不同工具的生成效果综合,可以逼近最理想的效果。因此,随着字节跳动在生成式AI领域投入的进一步加大,即梦AI未来必然还会有更大的想象空间。

相比于一部分同类产品,背靠字节跳动,即梦AI显然有着更加优越的资源禀赋。字节跳动在基础模型方面的投入,可以为即梦AI提供底层架构,另外背靠大厂的算力资源,也是当前环境下应用产品的比较优势。

另一方面,抖音也需要源源不断的内容,即梦还可以和剪映结合,引入AI生产力工具后将内容反哺给抖音,可以说,比起其他同类模型,这是即梦之于独特的生态站位优势。

在12月18日的即梦发布会中,今年2月辞去抖音集团CEO、转任剪映负责人的张楠称,视觉模型将极大改变我们观看视频的方式——实际上,用户将不再是被动观看,而是可以在任何时刻介入、参与和影响剧情走向或者观看不同的故事分支。不仅如此,技术还可以使生物脑电波可视化,意味着我们可以探索潜意识的创作之路。

“科学家估算过,人的一生可以容纳 10 亿个想法。”张楠说,如果抖音是记录“真实世界的相机”,即梦就是一款“想象力的相机”。在字节跳动的AI野心之下,这款“想象力的相机”无疑将加速迭代。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西一煤矿瓦斯爆炸已致8人遇难,井下38人正全力搜救,该公司去年因安全问题曾两次被罚,当地应急局:已成立现场指挥部

山西一煤矿瓦斯爆炸已致8人遇难,井下38人正全力搜救,该公司去年因安全问题曾两次被罚,当地应急局:已成立现场指挥部

极目新闻
2026-05-23 10:04:27
面对大批农民饿死,他竟说:他们故意饿死自己,好让我下不了台

面对大批农民饿死,他竟说:他们故意饿死自己,好让我下不了台

山间听雨
2026-05-22 17:46:37
高雄宣布暂停美国对台军售,到底啥情况?

高雄宣布暂停美国对台军售,到底啥情况?

新民晚报
2026-05-23 09:55:00
山西煤矿瓦斯爆炸事故已致90人遇难,搜救有哪些难点?

山西煤矿瓦斯爆炸事故已致90人遇难,搜救有哪些难点?

贵重物品爱美食
2026-05-23 14:24:23
瓜迪奥拉告白:亏欠哈特,感谢弗格森,想多陪家人

瓜迪奥拉告白:亏欠哈特,感谢弗格森,想多陪家人

体坛周报
2026-05-23 12:23:52
一男子借宿同学家行凶致1死1重伤,行凶者两次精神鉴定结论反转,被害人家属回应

一男子借宿同学家行凶致1死1重伤,行凶者两次精神鉴定结论反转,被害人家属回应

蓬勃新闻
2026-05-23 09:00:30
形势有多严峻?网传2026年520舔狗经济崩溃了,评论区炸锅…

形势有多严峻?网传2026年520舔狗经济崩溃了,评论区炸锅…

慧翔百科
2026-05-22 17:32:34
奔驰碾猫男已社死!账号被扒官方出手,“铁饭碗”也要保不住了

奔驰碾猫男已社死!账号被扒官方出手,“铁饭碗”也要保不住了

青梅侃史啊
2026-05-22 19:22:59
23日夜间至27日四川盆地至黄淮江淮等地将有强降雨

23日夜间至27日四川盆地至黄淮江淮等地将有强降雨

中国气象局
2026-05-22 17:16:26
重磅!62岁院士周成虎落马,跨省带走,背后的信号不简单了

重磅!62岁院士周成虎落马,跨省带走,背后的信号不简单了

李昕言温度空间
2026-05-23 07:11:44
比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

比院士、杰青造假更恐怖的真相:团队里没有任何一个实干的人

天天热点见闻
2026-05-23 08:26:34
外媒预判中国2030年装备六代机,美国要等2040年!军事评论员:应该不止一个型号

外媒预判中国2030年装备六代机,美国要等2040年!军事评论员:应该不止一个型号

每日经济新闻
2026-05-23 11:09:07
越扒瓜越大!交大女学生吞奖金再添猛料,不止想进体制内这么简单

越扒瓜越大!交大女学生吞奖金再添猛料,不止想进体制内这么简单

观史搜寻着
2026-05-21 05:41:15
网红车商卷走千万购车款,携女助手潜逃塞尔维亚

网红车商卷走千万购车款,携女助手潜逃塞尔维亚

新浪财经
2026-05-23 05:54:27
许家印的靠山,被起诉了

许家印的靠山,被起诉了

哲空空
2026-05-22 13:40:53
60岁阿姨在苹果手机下载“指南针”后马上卸载,半年被扣1608元!儿子申诉后平台只退9.57元,App评论区全是一星差评“乱扣费”“抢钱”

60岁阿姨在苹果手机下载“指南针”后马上卸载,半年被扣1608元!儿子申诉后平台只退9.57元,App评论区全是一星差评“乱扣费”“抢钱”

都市快报橙柿互动
2026-05-23 00:35:05
25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

25岁姑娘私处肿痛,红着脸去找医生看,结果医生一开口就把姑娘吓哭了

张晓磊
2026-05-23 11:50:34
山西今年前4个月煤层气产量超50亿立方米

山西今年前4个月煤层气产量超50亿立方米

界面新闻
2026-05-22 20:46:39
刚刚,马斯克SpaceX发射人类史上最大最强火箭!NASA局长点赞星舰V3

刚刚,马斯克SpaceX发射人类史上最大最强火箭!NASA局长点赞星舰V3

智东西
2026-05-23 09:51:05
山西沁源一煤矿瓦斯爆炸已致8死,涉事公司:救援被接管,不清楚具体进展

山西沁源一煤矿瓦斯爆炸已致8死,涉事公司:救援被接管,不清楚具体进展

上游新闻
2026-05-23 09:30:04
2026-05-23 15:07:00
36氪 incentive-icons
36氪
让一部分人先看到未来
151457文章数 2848772关注度
往期回顾 全部

科技要闻

爆炸声中又迈一步!拆解马斯克“十二飞”

头条要闻

皮卡坠桥致10人遇难 幸存者:当时已做好死亡的准备

头条要闻

皮卡坠桥致10人遇难 幸存者:当时已做好死亡的准备

体育要闻

少年意气,正在改变中国足球

娱乐要闻

歌手2026首播:胡彦斌破音 张碧晨跑调

财经要闻

股价暴跌!富途老虎是什么来头?

汽车要闻

11万级直接上四驱 银河星耀7限时权益价9.88万起

态度原创

房产
艺术
旅游
公开课
军事航空

房产要闻

疯抢511轮!今年海南最魔幻的地块,被福建能源企业抢了!

艺术要闻

15幅 2026年国家艺术基金优秀油画作品选

旅游要闻

花海簇拥百年书院,连云港海州古地解锁初夏惬意时光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普再酝酿对伊打击 美伊谈判连放信号

无障碍浏览 进入关怀版