网易首页 > 网易号 > 正文 申请入驻

最强开源文生图模型一夜易主!SD原班人马打造,要发SOTA视频生成模型

0
分享至


智东西(公众号:zhidxcom
作者香草
编辑李水青

最强开源文生图模型一夜易主!

智东西8月2日报道,昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1

FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。


▲FLUX.1 ELO分数与主流模型对比

FLUX.1在文字生成、复杂指令遵循人手生成上具备优势。以下是其最强的专业版模型FLUX.1[pro]生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。

▲FLUX.1[pro]生成图像示例

FLUX.1现已在开源平台Replicate上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s


▲三款模型生成对比

FLUX.1同时开放了API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。

FLUX.1背后的公司名为Black Forest Labs(黑森林实验室),由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人民币2.25亿元)的种子轮融资。

黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的Demo来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平,该公司或许会成为视频生成领域的一匹黑马。

▲视频生成模型预告

三款模型试用地址:

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

一、擅长生成文字、人手,三种模型规模秒级生成

FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘

文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕


▲黑森林Flux Schnell蛋糕

在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

▲复杂构图

人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但实现了很大的进步。


▲人手

FLUX.1共有专业版、开发者版、快速版三种版本。

其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。

▲FLUX.1[pro]生成图像示例

FLUX.1[dev]面向非商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。

▲FLUX.1[dev]生成图像示例

FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据Apache 2.0标准许可公开提供。

▲FLUX.1[schnell]生成图像示例

FLUX.1现已在开源平台Replicate上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。

二、击败MJ V6DALLE 3,技术报告即将发布

性能方面,FLUX.1经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。

其中FLUX.1[pro]和[dev]两款模型,在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。

FLUX.1[schnell]作为轻量级模型,不仅优于同类竞争对手,还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。


▲FLUX.1性能与主流模型对比

此外,所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。


▲宽高比/分辨率变化

如此强大的性能是怎么做到的?

在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。

团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。

三、SD原班人马,2.25亿种子轮,要发SOTA视频模型

黑森林实验室由Stable Diffusion的创始团队成立,该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持续开发SD后续版本的成员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林实验室的创始团队中。


▲Stable Diffusion作者、黑森林实验室创始团队

该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。

黑森林实验室宣布已完成3100万美元(约合人民币2.25亿元)的种子轮融资,由知名风投机构a16z(Andreessen Horowitz)领投,VR制造商Oculus的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴(Garry Tan)、英伟达研究员Timo Aila等专家及AI公司跟投,还收到了来自General Catalyst等一线基金的后续投资。

该团队的顾问委员会,包括在内容创作行业拥有丰富经验的前迪士尼总裁Michael Ovitz,以及神经风格转换的先驱Matthias Bethge教授。

刚刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)为黑森林团队送上祝福,并称“开源的FLUX.1图像生成模型看起来非常强大”。

▲卡帕西评论

创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)也发来贺电,还说“之前能与他们合作是我的荣幸,我相信他们会继续在生成每一个像素的旅程中突破界限”。

▲莫斯塔克评论

在下一步的工作上,黑森林预告将发布一款SOTA文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上,“以高清和前所未有的速度实现精确创作和编辑”。


▲视频生成模型预告

结语:多模态大模型领域黑马涌现

在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。“横空出世”的FLUX.1的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。

黑森林实验室凭借着Stable Diffusion原班人马的强大实力,获得了丰厚的种子轮融资,也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型,又将为文生视频领域注入新的活力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
段永平又加仓茅台了

段永平又加仓茅台了

21世纪经济报道
2026-05-10 13:20:59
“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

“这环境,咋敢生孩子?”女孩因充电器被碰掉绝食,穷人家的公主

妍妍教育日记
2026-05-09 13:31:49
张皓嘉三分绝杀,谁注意赵睿?下意识不防,赛后开心祝贺其绝杀!

张皓嘉三分绝杀,谁注意赵睿?下意识不防,赛后开心祝贺其绝杀!

篮球资讯达人
2026-05-10 00:14:53
7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

7年败光2亿!邹市明冉莹颖共同发文:二人最终还是迈出了这一步!

拳击时空
2026-04-16 06:04:48
26年山东公务员录用5972,发现一个扎心真相:八成来自双非院校,应届生占八成

26年山东公务员录用5972,发现一个扎心真相:八成来自双非院校,应届生占八成

老满说高考
2026-05-08 20:22:45
“我家三个儿子都不见了,小的才9岁”,台州一家长急疯深夜报警!凌晨3点被警察找到后,仨娃撒腿就跑……

“我家三个儿子都不见了,小的才9岁”,台州一家长急疯深夜报警!凌晨3点被警察找到后,仨娃撒腿就跑……

环球网资讯
2026-05-10 15:25:11
就在今天!传来赵睿新消息,输球后竟对着老东家笑开了花?

就在今天!传来赵睿新消息,输球后竟对着老东家笑开了花?

寒律
2026-05-10 16:04:24
英国砸5000万英镑的大工程,为保护野鸡窝的蛋停工三周,结果鸟蛋全被平头哥吃啦?!

英国砸5000万英镑的大工程,为保护野鸡窝的蛋停工三周,结果鸟蛋全被平头哥吃啦?!

英国那些事儿
2026-05-09 23:12:17
英专家建议FIFA快降价:就算央视不播 中国球迷也有办法看世界杯

英专家建议FIFA快降价:就算央视不播 中国球迷也有办法看世界杯

风过乡
2026-05-10 17:05:33
“万人迷”豆包,这回踢到铁板上了

“万人迷”豆包,这回踢到铁板上了

金错刀
2026-05-08 09:40:44
女子自称住院期间遭医生侵犯,“为录音取证,主动问对方是否喜欢自己”;警方调查后未发现犯罪事实不予立案,涉事医生已被停职

女子自称住院期间遭医生侵犯,“为录音取证,主动问对方是否喜欢自己”;警方调查后未发现犯罪事实不予立案,涉事医生已被停职

大风新闻
2026-05-10 12:29:10
西班牙、英国宣布发现汉坦病毒疑似病例,张文宏最新发声

西班牙、英国宣布发现汉坦病毒疑似病例,张文宏最新发声

21世纪经济报道
2026-05-10 09:45:48
湖南卫视停播背后:娱乐至死时代的一剂清醒针

湖南卫视停播背后:娱乐至死时代的一剂清醒针

乡野小珥
2026-05-09 01:27:52
1938年,王耀武发现日军身材矮小,想出一条妙计,一夜全歼日军

1938年,王耀武发现日军身材矮小,想出一条妙计,一夜全歼日军

饭小妹说历史
2026-05-06 09:28:08
清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

清朝“大辫子”到底多脏?满头油光,虱子满头,十步之内不能站人

云霄纪史观
2026-05-07 20:06:19
中超最新积分战报:山东泰山险胜,国安2-2海港,大连英博落败

中超最新积分战报:山东泰山险胜,国安2-2海港,大连英博落败

足球狗说
2026-05-10 22:07:16
航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

航炮点穴瘫痪伊朗油轮!美军这手操作,把暴力与克制玩到了极致

民间胡扯老哥
2026-05-10 07:06:14
被315点名的网红复播,一身教师打扮,公然在黑板和课桌前卖内裤

被315点名的网红复播,一身教师打扮,公然在黑板和课桌前卖内裤

新游戏大妹子
2026-05-10 12:47:12
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
她18岁为人母,25岁四登春晚,跟逃犯睡了6年却不知对方身份?

她18岁为人母,25岁四登春晚,跟逃犯睡了6年却不知对方身份?

白面书誏
2026-05-09 14:59:44
2026-05-10 23:31:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
本地
时尚
公开课
军事航空

艺术要闻

震撼!Rico Reinhold带你领略欧美复古艺术写真!

本地新闻

用苏绣的方式,打开江西婺源

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版