网易首页 > 网易号 > 正文 申请入驻

Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强

0
分享至

新智元报道

编辑:LRST

【新智元导读】澳大利亚国立大学团队提出了ARINAR模型,与何凯明团队此前提出的分形生成模型类似,采用双层自回归结构逐特征生成图像,显著提升了生成质量和速度,性能超越了FractalMAR模型,论文和代码已公开。

前不久,大神何恺明刚刚放出新作「分形生成模型」,递归调用原子生成模块,构建了新型的生成模型,形成了自相似的分形架构,将GenAI模型的模块化层次提升到全新的高度。

论文地址: https://arxiv.org/pdf/2502.17437v1

GitHub 地址:https://github.com/LTH14/fractalgen

最近,澳大利亚国立大学的研究人员提出了一个全新的图像生成模型ARINAR,在思想上与分形生成模型不谋而合,但是在性能和速度上都显著提升,base模型的FID从11.8提升到2.75,生成时间从2分钟降低到12秒!ARINAR不仅超越了之前的扩散模型,与目前表现最好的自回归模型MAR相比,ARINAR生成质量相当,速度是MAR的5倍。

论文链接: https://arxiv.org/abs/2503.02883

GitHub地址:https://github.com/Qinyu-Allen-Zhao/Arinar

ARINAR全称是双层自回归逐特征生成模型(Bi-Level Autoregressive Feature-by-Feature Generative Models),核心思想在于:通过逐特征生成的方式生成tokens,从而提高整体图像生成的质量和速度。

设计动机

现有的自回归(AR)图像生成模型通常采用逐token生成的方式。具体来说,模型会首先预测第一个token的分布,根据这个分布采样出第一个token,然后基于这个token生成下一个token的分布,再采样出第二个token,依此类推,直到生成完整的图像。

这里的token可以理解为图像的某种表示形式,通常是使用自编码器(如VAE)实现图像与一系列tokens之间的转换。每个token可以看作图像的一个局部区域或特征的编码。

研究人员指出,逐token生成的核心挑战在于如何建模高维token的复杂分布。每个token通常是一个高维向量(例如16维)。当模型需要预测下一个token的分布时,如何准确地表达和预测该token的分布一直是一个难题。

现有的方法主要有两种思路:

  1. 离散token生成:一些方法使用特殊的自编码器(如VQVAE)将图像转换为离散的token,然后使用多项式分布来建模token的分布。这种方法的问题在于,离散化会引入量化误差,导致生成图像的质量下降。

  2. 连续token生成:另一些模型尝试直接建模连续token的分布。

例如,GIVT模型使用高斯混合模型(GMM)来预测token的分布,并从GMM中采样生成token。然而,实践中GMM难以准确拟合复杂的高维token分布;

另一种方法是MAR模型,使用轻量级的扩散模型来生成token。虽然扩散模型能够更好地拟合分布,但扩散过程通常需要上百次迭代,导致整个模型生成速度较慢。

这些方法的局限性在于,要么过于简单,无法很好地拟合复杂的token分布,要么生成速度较慢。

因此,研究人员提出了一个新的思路:逐特征生成。

具体来说,模型每次不再一次性生成整个token,而是逐特征生成。每个token由多个特征组成(例如16维),模型会先生成第一个特征的分布并采样出第一个特征,然后基于这个特征生成第二个特征的分布,再采样出第二个特征,依此类推,直到生成整个token。

方法设计

ARINAR模型的设计分为两层自回归结构:

外层自回归层:这一层负责生成token的条件向量。具体来说,它基于已经生成的token,预测下一个token的条件向量。这里外层可以是任意之前的自回归模型,例如使用MAR。

内层自回归层:这一层基于外层生成的条件向量,逐特征生成下一个token。具体来说,内层会先生成第一个特征,然后基于这个特征生成第二个特征,依此类推,直到生成整个token。

假如一个图像被转换成256个16维的tokens,那么外层自回归模型就会运行256次,每次预测下一个token的条件向量。每次外层自回归模型生成条件向量后,内层自回归模型就会运行16次来逐特征生成相应的token。

这种双层结构的好处是,内层自回归只需专注于单个特征的生成,而不需要一次性建模整个token的分布。因此,内层可以使用简单的高斯混合模型(GMM)来建模单个特征的分布,从而大大简化了预测token分布的难度。

与FractalMAR的关系

在论文中,研究人员提到了一个与之类似的工作FractalMAR,也是一个多层自回归模型,但它是在像素空间中逐像素生成图像的。

也就是说,FractalMAR的每一层都负责生成图像的不同部分,从大块区域到单个像素。例如使用一个四层自回归模型:

  • 最外层生成整个图像的大块区域;

  • 第二层生成每个大块区域中的小块区域;

  • 第三层生成每个小块区域中的像素;

  • 最内层生成每个像素的RGB值。

相比之下,ARINAR是在特征空间中逐特征生成图像的。ARINAR使用了自编码器将图像转换为连续的特征表示,然后在这些特征上依赖GMM进行逐特征生成。

研究人员强调,虽然ARINAR和FractalMAR的设计思路相似,但ARINAR在性能和速度上都优于FractalMAR。ARINAR可以看作是FractalMAR在潜在空间中的版本。

实验结果

研究人员在ImageNet 256×256图像生成任务上对ARINAR进行了测试,使用了213M参数的模型(ARINAR-B)。实验结果显示:

生成质量上,ARINAR-B在没有使用CFG(classifier-free guidance)的情况下,FID(Frechet Inception Distance)得分为9.17,使用CFG后,FID得分提升到2.75,这个结果与当前最先进的MAR-B模型(FID=2.31)相当,且显著超过了FractalMAR。

生成速度上,ARINAR-B生成一张图像的平均时间仅需11.57秒,而MAR-B需要65.69秒,FractalMAR-B则需要137.62秒。ARINAR在保持高质量生成的同时,显著提升了生成速度。

总结与不足

ARINAR通过逐特征生成的方式,简化了自回归模型的复杂度,同时提高了生成速度和生成质量。

与FractalMAR相比,ARINAR在潜在空间中生成图像,避免了像素空间的复杂性,从而在性能和速度上都取得了更好的结果。

这篇论文展示了自回归模型在图像生成任务中的巨大潜力,尤其是在生成速度和生成质量之间的平衡上,ARINAR提供了一个非常有前景的解决方案。

然而,由于计算资源的限制(使用4张A100 GPU),研究人员在这篇论文中只训练了一个基础模型(ARINAR-B),并且训练时间长达8天。这确实限制了模型的进一步扩展和更大规模实验的进行。

论文中也提到,研究人员正在寻求更多的计算资源,以便进行更多的实验和训练更大的模型。这意味着未来可能会有更多的研究成果发布,进一步验证ARINAR的潜力和可扩展性。

参考资料:

https://arxiv.org/abs/2503.02883

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

伊朗划定规则:俄罗斯、中国、印度5个朋友船只获准通过霍尔木兹

黄胜友
2026-03-26 17:58:23
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

北京被低估的3所大学,毕业就是“铁饭碗”!完全不用愁就业!

高三倒计时
2026-03-25 18:09:46
沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

沈万三临终告诫:寻财无需高深本领,牢记这三句话,轻松富甲一方

千秋文化
2026-02-10 21:02:09
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
伊朗导弹撑了近一个月,中国能撑多久?俄专家断言:半小时定胜负

伊朗导弹撑了近一个月,中国能撑多久?俄专家断言:半小时定胜负

混沌录
2026-03-26 18:16:05
我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

风起见你
2026-02-23 19:09:41
胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

匀枫财技大兜底
2026-03-25 10:26:15
恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

恩德里克娇妻现场观战凯尔特人击败雷霆!场边大方晒美照气质出众

Emily说个球
2026-03-26 15:11:29
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

抽象派大师
2026-03-14 14:00:04
国产螺丝刀在海外蹿红,在TikTok狂卖2800万

国产螺丝刀在海外蹿红,在TikTok狂卖2800万

跨境派Pro
2026-03-23 14:16:59
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

人不会无缘无故患心源性猝死!研究发现:猝死的人,多半爱干3事

垚垚分享健康
2026-03-25 13:25:46
为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

为什么氰化物入口几秒,还没到胃呢,人立马就会死了?

心中的麦田
2026-03-24 19:53:20
2026-03-26 19:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
房产
家居
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版