网易首页 > 网易号 > 正文 申请入驻

MiniMax,也许做出了最接近 Sora 的文生视频产品

0
分享至

虽然晚到,但效果惊艳。


作者 | 幸芙
编辑| 郑玄

又一个国内的重要玩家,杀入「文生视频」这个今年最火的大模型风口。

几天前,MiniMax 发布了全新的视频模型 abab-video-1。用户可登录其产品「海螺 AI」的网页版,体验文生视频的功能。

尽管是一个晚入局者——继年初 OpenAI 发布 Sora 后,国内的科技公司纷纷跟进。包括大厂,比如快手的「可灵」、字节的「即梦」等;包括垂直的创业公司,比如生数科技、爱诗科技、智象未来等;也包括模型公司,比如智谱几个月前就嵌入了文生视频功能。但 MiniMax 很有信心,「这可能是目前国内最好的视频大模型。」创始人闫俊杰说。

极客公园一手体验了 MiniMax 的文生视频功能,在给定的一系列随机提示词下,MiniMax 的生成效果令人眼前一亮。而在海外社交平台 X 上,也有越来越多用户用其生成出惊艳的视频、并进行了分享。而在 MiniMax 自己释放出的样片里,可以看到这些视频已经逼近真实的商拍、乃至电影质感。

这正是 MiniMax 更晚推出该功能的原因,为了在技术上形成数倍、而不只是百分点的提升。作为一家技术导向型的公司,MiniMax 相信技术决定产品体验,这也是它们不着急的原因。

如果说 Sora 到目前还没有开放使用的机会,那目前 MiniMax 该功能已经完全对用户开放。当很多国内已经公司针对这项功能收费,MiniMax 仍在免费阶段。也就是说,用户可以免费、且一手体验这款最接近 Sora 的产品。

在年初与极客公园的一次交流中,MiniMax 创始人闫俊杰表示,Sora 对大模型公司来说是一道「选答题」。因其存在着 PGC、UGC 等不同用法,AI 公司不一定要跟上。不过似乎现在他认为,这是一道「必答题」——还是出于提高用户渗透率的考虑。

在年初的访问中,他提到随着大模型每次拓展模态,用户渗透率就会提升,因为文字只是人类信息交互中的极小一部分,声音、图片、视频等模态也同等重要。MiniMax 的愿景是让 AI 为普通人所用,提高用户渗透率是他最看重的事情。在这道「必答题」上,MiniMax 看起来交出了一份不错的答卷。

01

在不同的 prompt 评测中,

MiniMax文生视频功能都保持领先

打开 MiniMax 文生视频产品的官网,会发现它出奇的简单。如果说其他产品都给用户提供了许多选项,比如视频时长、视频比例、模式选择、运镜方式、情感氛围等。但 MiniMax 的产品非常简单:输入一段文字(prompt),直接生成视频。

笔者直接尝试了一段 prompt:「两位都市白领手里拿着星巴克咖啡,走在日光沐浴下的街道,她们本来表情平静地聊着天,突然一起笑了起来。」在这段 prompt 里,我既要求了人物的细节动作,比如手拿咖啡;也要求了场景的表现力,比如日光沐浴的街道;还有人物的表情,比如平静和微笑。这都是目前文生视频产品的技术难点。

仅就这段 prompt 的表现来看,MiniMax 的文生视频功能几乎完胜:两位人物无论是微笑的表情、还是拿咖啡的手部动作,都非常自然、没有变形,它还原了日光沐浴的场景,同时也还原了「星巴克」标识。

但再看其他产品:某热门产品生成的咖啡杯是变形的、人物的表情也是变形的;某产品虽生成很自然,但漏掉了「星巴克」标识;另外某产品也是人物完全变形、咖啡杯完全变形;某产品人物稍微变形,漏掉了「星巴克」标识;某产品生成的视频毫无稳定性,也没有清晰度可言。

此外,笔者又尝试了其他不同的 prompt,包括神情愉悦地打字的女孩等,最终 MiniMax 的文生视频功能都表现更为出色。如果说文生视频最重要的是对现实世界的模拟,那么可以看到,它对于真实世界的模拟会更好,同时也能输出更逼近真实的视频效果。

在 X 社交平台上,不少海外用户使用完 MiniMax 的文生视频产品后也评价很高。比如用户 @ryan_morrison 提到,「它的手部动作是我见过的最自然的。」用户 @hortega_andre 提到,「它的手部动作和面部表情是我见过的最自然的。」

专门探索用 AI 制作电影的用户 @Machine Mythos,则用 MiniMax 文生视频制作了一则名为《地狱之地》的微影片。该视频时长 2 分 20 秒,讲述了一个男子开车行驶的过程中,发现曾经人流交织的街道,现在已经被僵尸占据。「我的上一部电影是我迄今为止最现实的电影,我没想到它会这么快就被超越。」Mythos 这么评价道。

笔者注意到,它上一部电影发布于一个月前,是用国外领先的视频模型 Runway 的 Gen3 版本生成。但就影片真实效果而言,MiniMax 更胜一筹。

「我们内部评测,包括跑一些分,应该比国外 Runway 有更好的效果。」闫俊杰说。

02

三大核心技术指标:

文本响应好、压缩率高、风格多样

在表层的用户体验之下,MiniMax 将其文生视频的优势总结为:一、压缩率高;二、文本响应好;三、风格多样;四、可以生成原生高分辨率、高帧率视频,也就是接近电影大片质感。

关于文本响应好,它指的是产品的指令遵循更好。比如笔者在 prompt 中强调了星巴克,几乎只有 MiniMax 的视频模型把这个标识体现出来了。MiniMax 称,这主要得益于其模型在文本上的不断积累。

关于压缩率高,它指的是对高动态、变化多的信息有较好的表现力。比如 @JingXiangZ 给的指示是:「广角镜头中,一个长着猴头的肌肉男,赤裸上身,骑着电动滑板车穿过城市街道,然后飞上天空。」在最终的效果里,猴头、肌肉男、赤裸上身、以及迅速穿梭于城市的街景变化都得到了展现。

MiniMax 文生视频功能对高动态、变化多的信息有高表现力

关于风格多样,指的是无论电影大片场景、动画,无论是中式风格还是科幻、美漫等,它都可以驾驭。比如 AI 艺术家 @vladimircherner 生成的视频里,既有卡通动画、也有真实走秀、还有写实电影、甚至科幻电影等。

最重要的一点是能生成原生高分辨率、高帧率视频,这意味着视频能接近电影大片质感。目前,MiniMax 已经释放出一些通过 prompt 做出来的电影、广告片,效果令人惊艳。

比如有一段是星际大战的预告片、有一段是宣传沙发像云朵一样柔软的广告片、有一段是高速俯拍街道的电影片段、有一段是雪崩救援的记录片、还有一段是名为《魔法硬币》的科幻片——它讲述了一个小男孩通过一枚写着 MiniMax 的硬币,在不同时空进行穿梭的过程。无论是加勒比海盗的船上、还是多元宇宙、还是万里长城、还是北极熊身上、又或者是森林的豹子身上,所有的场景都非常逼真。

看完这些视频,一个很直接的感受是,已经不太能看得出它们是 AI 做出来的。 这意味着在视频生成效果上,MiniMax 取得了关键性的突破。

03

极致的技术,

才有极致的用户交互

闫俊杰介绍,MiniMax 之所以在文生视频赛道更晚入场,原因是公司希望在技术上形成绝对优势。在他看来,不管是视频、文本、声音,核心不是在算法上提升 5%、10%,而是要看能不能提升几倍。「如果能提升几倍就一定要做出来,如果只提升 5% 就不太值得做。这是我们做研发的思路。」他说。

在他看来,在文生视频这件事上,技术能提升几倍的核心关键是,提高压缩率的问题。训练视频生成能力时,模型需要先把视频变成 token,但这个 token 会非常长,导致复杂度很高。因此,MiniMax 团队在算法上主要解决的是,怎么把压缩率变得更高、把 token 的复杂度降低。这花了他们很多的精力,因此比同行晚了近一两个月。

团队发现,当算法变得更强的时候,产品的效果确实好了很多。在文生视频这件事情上,再次印证了闫俊杰所说的,技术决定产品。

对于 MiniMax 而言,对技术重要性的认识是不断提升的。当技术水平提高时,用户的活跃度会增加;当技术出现失误,用户活跃度在降低。「当技术做不好的时候,所有东西都是问题。当技术做好了,所有问题都被掩盖了。」闫俊杰说。这两年时间,他已经意识到技术是科技公司最核心的要素。

他认为,创业公司相较于大厂而言最重要的优势只有两点:一是技术的提升,二是与用户的交互,而这两者互为表里,所谓「产模一体」,技术服务产品,产品也会反哺技术。

MiniMax在全球拥有多元化的用户分布。据MiniMax介绍,其每日与全球用户进行超30亿次交互,处理超3万亿token、生成2000万张图片和7万小时语音,大模型日处理交互量居国内 AI 公司首位。

目前 MiniMax 公布的文生视频功能只是第一版,接下来它在产品功能上还会有更多的更新。比如现在只提供了文生视频功能,接下来还会有图生视频、文+图生成视频、可编辑的可控性等等。而等新的东西出来,以及到达更满意的状态之后,MiniMax 可能会考虑一些商业化动作。

作为国内几乎最早成立的大模型公司之一,MiniMax 从成立起就确定了要将 AI 普及普通人的目标。为此,这家公司沿着文本、音频、音乐、视频等不同模态拓展,用技术突破带来更好的用户体验。而如今,它推出惊艳的文生视频功能,也意味着它在这条路上又踏上了一个新的台阶。

*头图来源:MiniMax

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你用过 MiniMax 的文生视频产品吗

体验如何?

马斯克 2001 年采访:我对互联网已经厌倦了,想做一些不同领域的事。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这才是大杀器!以色列“铁束”激光系统,两美元摧毁百万美元导弹

这才是大杀器!以色列“铁束”激光系统,两美元摧毁百万美元导弹

史政先锋
2025-09-19 21:50:24
社评:相向而行的中美关系是世界之福

社评:相向而行的中美关系是世界之福

环球网资讯
2025-09-20 01:53:43
“东风-5C”烧饼卖疯了!小伙硕士毕业卖烧饼被小学生疯抢:1元一个,有辽宁舰、三星堆面具等多种造型

“东风-5C”烧饼卖疯了!小伙硕士毕业卖烧饼被小学生疯抢:1元一个,有辽宁舰、三星堆面具等多种造型

FM93浙江交通之声
2025-09-19 21:41:37
西贝完了!饭点高峰无人就餐,多年老粉纷纷退卡,贾国龙输得彻底

西贝完了!饭点高峰无人就餐,多年老粉纷纷退卡,贾国龙输得彻底

吃瓜盟主
2025-09-19 15:11:35
格力高管发文回应小米空调“10年免费包修”

格力高管发文回应小米空调“10年免费包修”

中国基金报
2025-09-20 00:12:48
临沂农妇因“辱骂”法官被罚款10万并拘留15日,女法官身份曝光!

临沂农妇因“辱骂”法官被罚款10万并拘留15日,女法官身份曝光!

热风追逐者
2025-09-18 21:36:29
南航最年轻班子成员高飞“空降”东航担任“二把手”

南航最年轻班子成员高飞“空降”东航担任“二把手”

界面新闻
2025-09-19 15:35:58
新月77分钟仍3-0领先,最后13分钟内连丢三球遭遇绝平

新月77分钟仍3-0领先,最后13分钟内连丢三球遭遇绝平

雷速体育
2025-09-20 08:05:15
一部 iPhone 17 Pro 撕开全球贫富遮羞布!卢森堡3天工资 vs 印度160天血汗

一部 iPhone 17 Pro 撕开全球贫富遮羞布!卢森堡3天工资 vs 印度160天血汗

EETOP半导体社区
2025-09-19 09:39:07
台湾省被日本殖民有多深?民进党高官卓荣泰仍佩戴“日据时期”徽章

台湾省被日本殖民有多深?民进党高官卓荣泰仍佩戴“日据时期”徽章

不掉线电波
2025-09-19 19:40:49
王自如:iPhone 17 标准版 80% 左右概率是京东方屏

王自如:iPhone 17 标准版 80% 左右概率是京东方屏

黑猫科技迷
2025-09-19 23:40:58
赏饭大陆沦为笑柄!郭台铭撤走300工程师,国内200亿工厂要黄了?

赏饭大陆沦为笑柄!郭台铭撤走300工程师,国内200亿工厂要黄了?

数字财经智库
2025-09-17 14:31:37
马英九:九三阅兵不是没邀请,而是吓得不敢来

马英九:九三阅兵不是没邀请,而是吓得不敢来

雪中风车
2025-09-19 14:42:53
王晶这次踢到钢板?温兆伦正面硬刚:你算老几?积点口德!两人30年恩怨真相曝光!

王晶这次踢到钢板?温兆伦正面硬刚:你算老几?积点口德!两人30年恩怨真相曝光!

科学发掘
2025-09-20 06:45:20
电影《731》中所有日本角色均由日籍演员饰演,导演:我不愿让中国人扮演日本人

电影《731》中所有日本角色均由日籍演员饰演,导演:我不愿让中国人扮演日本人

观威海
2025-09-19 09:25:05
一夜关门!深圳外贸大厂倒闭,600名员工失业,供应商损失惨重

一夜关门!深圳外贸大厂倒闭,600名员工失业,供应商损失惨重

白浅娱乐聊
2025-09-19 16:52:33
以色列打遍中东后,内塔尼亚胡点名警告中国,把中国当成卡塔尔?

以色列打遍中东后,内塔尼亚胡点名警告中国,把中国当成卡塔尔?

南权先生
2025-09-19 17:30:08
中国八月经济数据全面下滑,结构转型迫在眉睫

中国八月经济数据全面下滑,结构转型迫在眉睫

黑噪音
2025-09-19 11:29:00
韩国前第一夫人金建希穿拘留所病号服坐轮椅就医,戴着电子脚镣,疑戴手铐;韩媒发布尹锡悦视频对比

韩国前第一夫人金建希穿拘留所病号服坐轮椅就医,戴着电子脚镣,疑戴手铐;韩媒发布尹锡悦视频对比

鲁中晨报
2025-09-19 22:37:07
iPhone17ProMax刚到手就翻车,这品控把我看傻了!

iPhone17ProMax刚到手就翻车,这品控把我看傻了!

搞机小帝
2025-09-20 00:08:23
2025-09-20 10:03:00
极客公园
极客公园
让最棒的创新成为头条
11483文章数 78679关注度
往期回顾 全部

数码要闻

能当PC用的平板电脑!小米平板8 Pro测评:骁龙8至尊打造的安卓平板生产力天花板

头条要闻

日本开始一项"史无前例"行动:派多架战斗机前往欧洲

头条要闻

日本开始一项"史无前例"行动:派多架战斗机前往欧洲

体育要闻

亚洲天王效应 孙兴慜球衣售150万件破梅西纪录

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

最重要的一个电话,信息量果然很大

科技要闻

字节跳动凌晨发布公告

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

家居
健康
游戏
旅游
军事航空

家居要闻

公共艺术 限时体验打造

内分泌科专家破解身高八大谣言

《消光:困兽》在线峰值近10万!Steam特别好评

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

军事要闻

以军两个方向朝加沙城市中心推进

无障碍浏览 进入关怀版