智源研究院开源Emu3.5：能够"边看边说"还能"世界建模"|视图|草图|emu|新模型

分享至

2025年11月，北京智源人工智能研究院推出革命性多模态AI模型Emu3.5，能够同时理解和生成图像与文字。它在超过10万亿token的数据上训练，具备长时图文生成、任意到图像转换、复杂文本图像生成等能力，还能进行世界建模和物理推理。通过创新的离散扩散适配技术，推理速度提升20倍。在与Gemini等顶尖模型的对比中表现优异，项目已经开源。

在过去，AI就像是一个只会某种特定技能的工匠。有的AI擅长看图说话，有的擅长生成图片，还有的擅长理解文字。但它们就像各自在自己的小作坊里工作，彼此之间几乎不交流。Emu3.5的革命性突破在于，它打破了这些界限，成为了一个真正的"全能创作者"。它能同时处理图像和文字，不仅能理解你给它看的内容，还能根据你的要求创作出新的内容，而且所有这些能力都来自于同一个"大脑"。

这项研究的核心创新在于它采用了一种全新的训练方式。研究团队没有让AI分别学习看图、说话、画画这些技能，而是让它像一个婴儿学习认识世界那样，在超过10万亿个图像和文字的"经验"中成长。这些训练材料主要来自互联网上的视频及其字幕，就好比让AI看了几百万部电影和纪录片，从中学会了图像和语言之间的自然联系。更令人惊讶的是，Emu3.5还接受了大规模的强化学习训练，这就像是给它配备了一位严格但耐心的老师，不断纠正它的创作，直到它能够生成既符合逻辑又富有创意的内容。

Emu3.5的能力令人印象深刻。它可以理解和生成交错的图文内容，比如你可以给它看几张照片并配上一些文字说明，然后让它继续创作下去，它会自然地生成新的图片和对应的文字描述，整个过程就像讲述一个连贯的故事。它还能把任何东西转换成图片，无论你提供的是一段文字描述、一幅简笔画，还是一张照片，它都能理解你的意图并生成相应的高质量图像。特别值得一提的是，它在生成包含文字的图像方面表现出色，这在以往是AI最头疼的任务之一。

除了这些创作能力，Emu3.5还具备一种被研究团队称为"世界建模"的神奇能力。简单来说，它能够理解和模拟现实世界中物体的运动和变化规律。比如你给它看一张桌上放着书和手机的照片，然后问它"怎么把手机从书里拿出来放到桌上"，它不仅能理解这个任务，还能生成一系列连贯的步骤图片，展示整个动作的过程。这种能力对于机器人学习如何在真实世界中操作物体具有重要意义。

为了让这个强大的AI能够更快地工作，研究团队还发明了一种叫做"离散扩散适配"的技术。原本AI生成一张图片需要一个词一个词地慢慢"写出来"，现在通过这个新技术，它可以同时处理多个部分，就像从"一笔一画写字"变成了"打字机快速敲击"，速度提升了约20倍，而且质量没有任何下降。

研究团队对Emu3.5进行了严格的测试，将它与目前最顶尖的AI模型进行比较，包括谷歌的Gemini 2.5 Flash Image模型。结果显示，Emu3.5在图像生成和编辑任务上的表现可以与这些巨头媲美，在某些交错生成任务上甚至表现更优。

训练一个"全能创作者"的秘诀

想象你在教一个孩子认识世界。最自然的方式不是让他先学会说所有的词汇，再学会看所有的图片，然后才开始理解它们之间的联系。相反，孩子是在同时看到图片和听到词汇的过程中，自然而然地建立起两者之间的关联。Emu3.5的训练方式正是遵循了这个自然的学习规律。

研究团队为Emu3.5准备了一个庞大的"学习材料库"。这个材料库包含了超过10万亿个图像和文字片段，主要来自互联网上的视频及其配套字幕。为什么选择视频而不是单独的图片或文章呢？因为视频天然地包含了图像序列和对应的文字描述，这些内容本身就是紧密交织在一起的。想象一下一部烹饪教学视频，画面中厨师在切菜，同时旁白说"将胡萝卜切成薄片"。这种图文并茂的内容正是AI学习如何将视觉和语言联系起来的最佳素材。

训练的核心思想是让AI学会"预测下一个"。无论输入的是文字还是图像，AI都要猜测接下来应该出现什么。比如给它看一段文字"今天天气很"，它要预测下一个词可能是"好"；给它看一系列图片展示一个人拿起杯子的动作，它要预测下一帧图片中杯子会移到哪里。通过这种方式，AI不仅学会了语言的规律和视觉的规律，更重要的是学会了两者如何自然地结合在一起。

为了让AI真正变得聪明，研究团队还引入了强化学习这个强大的武器。如果说前面的训练让AI学会了基本技能，那么强化学习就像是给它配备了一位严格的导师。这位导师会不断给AI出题，然后对它的回答进行评分。如果AI生成的图片模糊不清或者文字描述不准确，它会得到负面反馈；如果生成的内容既美观又准确，它会得到正面奖励。通过成千上万次这样的练习和反馈，AI逐渐学会了什么样的内容是高质量的，如何更好地满足用户的需求。

整个训练过程就像是在培养一个全能的艺术家。最初，这位艺术家对世界的理解非常粗浅，创作出的内容也很粗糙。但通过观看大量的示例，接受严格的指导，反复练习和改进，最终它掌握了看图说话、文生图、图文交织创作等多项技能，而且所有这些技能都源于同一套"思维方式"，因此能够完美配合，创作出连贯一致的作品。

把"慢工出细活"变成"快速流水线"

Emu3.5虽然能力强大，但有一个实际问题需要解决：速度。想象你用画笔画一幅画，传统的做法是从左到右、从上到下，一笔一笔慢慢画完。这样虽然能确保每一笔都精确，但速度太慢了。如果一张图片需要几分钟才能生成，用户体验会非常糟糕。研究团队需要找到一个既快又好的方法。

这就是"离散扩散适配"技术发挥作用的地方。这个技术的核心思想是改变生成图片的方式。原本AI生成图片是一个词元一个词元顺序生成的，就像打字机一个字母一个字母地打出来。现在通过这个新技术，AI可以同时处理图片的多个部分，就像多个画家同时在画布的不同区域作画，然后将它们协调起来形成一幅完整的作品。

具体来说，这个过程分为几个步骤。首先，AI会快速"草拟"出整幅图片的大致轮廓，这个阶段它不关心细节，只是确定大体的构图和色彩分布。然后，它会反复"修正"这个草图，每一次修正都让图片变得更清晰、更准确。这个过程就像艺术家先用铅笔打草稿，然后用画笔上色，最后添加细节和阴影。不同的是，AI的所有这些步骤都可以并行进行，大大提高了效率。

更巧妙的是，研究团队让AI学会了如何"把控全局"。在传统的顺序生成中，AI生成后面的内容时可以参考前面已经生成的部分，保证整体的连贯性。但如果改成并行生成，不同部分可能会出现不协调的情况。为了解决这个问题，研究团队设计了一种特殊的机制，让AI在生成每个部分时都能"看到"整幅图片的整体规划，确保最终生成的图片各个部分都协调一致。

通过这个技术，Emu3.5生成一张图片的速度提升了约20倍，而且图片质量没有任何下降。这就好比从手工制作变成了工业化生产，但产品的质量依然保持在艺术品的水平。这对于实际应用来说至关重要，因为用户不会愿意等待几分钟来看一张AI生成的图片。

从"看图说话"到"创作世界"的质变

Emu3.5的能力远远超出了简单的图片生成或文字理解。它真正独特的地方在于能够将视觉和语言完美融合。让我们看看它具体能做些什么。

首先是长时交错生成能力。想象你在写一本图文并茂的儿童故事书。你不仅要写出引人入胜的故事情节，还要为每个情节绘制配套的插图，而且这些插图要和文字完美配合，形成一个连贯的故事。Emu3.5正是具备这种能力。你可以给它一个开头，比如"在一个阳光明媚的早晨，小猫咪决定去探险"，配上一张小猫在家门口的图片。然后AI会自动继续这个故事，既生成后续的文字描述，又绘制相应的场景图片，整个过程完全自动化，而且图文高度一致。

更令人惊叹的是它的"任意到图像"生成能力。无论你提供什么形式的输入，只要能传达你的意图，Emu3.5都能将其转换为精美的图片。你可以用文字描述一个场景，它会把文字变成图片。你可以画一个简单的草图，它会把草图变成专业的设计图。你甚至可以给它看一张照片然后提出修改要求，它会生成修改后的新照片。这种灵活性意味着无论你是用语言表达想法还是用图像表达想法，AI都能理解并帮你实现。

在文字图像生成方面，Emu3.5表现得尤其出色。以往的AI在生成包含文字的图片时经常会"写错字"或者让文字看起来模糊不清。但Emu3.5能够生成清晰、准确的文字内容，无论是海报上的标语、书籍封面上的标题，还是广告牌上的广告词，它都能处理得恰到好处。这是因为它真正理解了文字的含义，而不是把文字当作普通的图案来处理。

但Emu3.5最令人兴奋的能力可能是它的"世界建模"本领。这个能力让它能够理解和模拟真实世界中物体的运动和相互作用。比如你给它看一个场景，然后问"如果我把这个杯子推倒会发生什么"，它不仅能预测杯子会倒下，还能生成一系列图片展示杯子倾斜、翻倒、水洒出来的整个过程，而且这些图片在时间和空间上都是连贯一致的。

这种能力对于机器人技术具有重要意义。想象一个家用机器人需要学习如何从桌上拿起一个物品。传统的方法是给机器人编写详细的程序，告诉它每一步该怎么做。但有了Emu3.5，机器人可以先在虚拟世界中"看"AI演示如何完成这个任务，然后模仿这些动作在真实世界中执行。研究团队的测试显示，Emu3.5能够在各种不同的场景中生成合理的操作步骤，从厨房到车间，从简单的抓取动作到复杂的组装任务。

更进一步，Emu3.5还能进行"世界探索"。给它一个场景的起点视图，它可以生成从不同角度、不同距离观察这个场景的图像，就像你真的在这个虚拟世界中四处走动、改变视角。这种能力可以用来创建虚拟导览、游戏场景，或者帮助设计师从多个角度检查他们的设计作品。

与顶尖对手的正面较量

研究一个AI模型的能力有多强，最直接的方法就是让它和其他顶尖模型进行比较。研究团队将Emu3.5与目前市场上最强大的一些AI模型进行了全面的对比测试，这些对手包括谷歌的Gemini 2.5 Flash Image模型、Qwen-Image-Edit模型、FLUX.1 Kontext模型等。

在图像生成的各个基准测试中，Emu3.5展现出了与顶尖商业模型相当的实力。比如在"长文本理解"测试中，要求AI根据一段详细的文字描述生成图片，Emu3.5生成的图片在准确性和美观度上都达到了很高的水准。在"复杂场景生成"测试中，它需要在一张图片中同时表现多个物体和它们之间的关系，Emu3.5同样表现出色。特别是在生成包含文字的图像时，它的表现甚至优于一些商业模型，文字的清晰度和准确度都更高。

在图像编辑任务上，Emu3.5也毫不逊色。研究团队测试了它执行各种编辑指令的能力，比如"把这个苹果变成橙子"、"让背景变成夜晚"、"添加一只鸟到画面中"等等。Emu3.5不仅能准确理解这些指令，还能在保持图片其他部分不变的情况下，精确地完成编辑任务。这就像一个经验丰富的摄影师使用图像处理软件，既能大刀阔斧地改变主题，又能巧妙地保留原有的氛围和风格。

但Emu3.5真正大放异彩的地方是在交错生成任务上。研究团队设计了一系列测试，要求AI同时生成图片和文字，并保证两者的完美配合。在这些测试中，Emu3.5表现出了明显的优势。与Gemini 2.5 Flash Image模型的直接对比显示，在大多数交错生成任务上，评审者更倾向于选择Emu3.5生成的内容。这是因为Emu3.5从设计之初就被训练来处理图文交织的内容，这是它与生俱来的优势。

研究团队还进行了人工评估。他们邀请了大量评审者，让他们在不知道哪个结果来自哪个模型的情况下，对不同模型生成的内容进行打分。结果显示，Emu3.5在整体质量、创意性、准确性等多个维度上都获得了很高的评分。特别值得一提的是，在"是否符合用户意图"这一关键指标上，Emu3.5的得分尤其突出，说明它确实能够准确理解用户的需求并给出令人满意的答案。

更重要的是，Emu3.5是完全开源的。这意味着不仅大公司可以使用它，个人开发者、小型创业公司、研究机构都可以免费获取和使用这项技术。这种开放性对于推动整个AI领域的进步具有重要意义，因为开源可以让全世界的智慧共同改进和完善这项技术。

技术架构的巧妙设计

虽然前面我们用了很多生活化的比喻来解释Emu3.5的能力，但了解一些它背后的技术架构也能帮助我们更深入地理解这个系统的强大之处。

Emu3.5的核心是Transformer架构，这是目前最先进的AI模型都在使用的基础框架。你可以把Transformer想象成一个有着数十亿个神经元的人工大脑。每个神经元都是一个简单的计算单元，但当数十亿个这样的单元连接在一起时，就能产生令人惊叹的智能行为。具体来说，Emu3.5包含约280亿个参数，这些参数就像大脑中神经元之间连接的强度，决定了信息如何在网络中流动和处理。

这个"人工大脑"的工作方式很有意思。当你给它输入一段文字或一张图片时，输入内容首先会被转换成一系列数字，这个过程叫做"词元化"。想象你把一幅画分解成许多小色块，每个色块用一个数字代码来表示。AI处理图像和文字时就是这样，它把所有内容都转换成统一的数字表示，这样就可以用同一套方法来处理了。

在Emu3.5中，图像和文字的词元是平等的，它们在同一个"思考流"中被处理。这就像一个人在阅读图文并茂的杂志时，眼睛可以自然地在文字和图片之间切换，大脑同时理解两种信息。传统的AI模型往往需要分别处理图像和文字，然后再想办法把它们组合起来。但Emu3.5从一开始就把它们当作同一种信息来处理，这使得它能够更自然地理解和生成交错的图文内容。

为了让这个庞大的模型能够高效运行，研究团队使用了许多优化技巧。比如他们使用了一种叫做"RMSNorm"的技术来稳定训练过程，这就像给汽车加装了稳定器，让它在高速行驶时更加平稳。他们还使用了"RoPE"位置编码，这个技术帮助AI理解序列中元素的顺序关系，就像给每个词加上了时间戳，让AI知道哪些内容是先出现的，哪些是后出现的。

在图像生成方面，Emu3.5使用了一种特别的技术来保证生成质量。它不是一次性生成整张图片，而是通过多次迭代逐步完善。每一次迭代都会检查生成的内容是否符合要求，如果发现问题就进行调整。这个过程就像雕刻师在创作雕塑，先刻出大致形状,然后不断打磨细节,直到满意为止。

研究团队还特别注意了模型的泛化能力，也就是它处理从未见过的情况的能力。他们在训练时使用了各种各样的数据，包括不同风格的图片、不同语言的文字、不同类型的任务。这就像训练一个厨师，不能只让他学做一种菜，而要让他接触各种不同的食材和烹饪方法，这样他才能在面对新食材时也能做出美味的菜肴。

实际应用场景的无限可能

了解了Emu3.5的能力之后，你可能会好奇：这个强大的AI在实际生活中能做些什么？答案是，它的应用场景几乎是无限的，而且随着技术的进一步发展，会有越来越多的创新应用出现。

在内容创作领域，Emu3.5可以成为创作者的得力助手。想象一位作家正在撰写一本图文并茂的儿童读物。以往他可能需要先写好全部文字，然后请插画师根据文字绘制插图，整个过程耗时耗力。有了Emu3.5，作家可以一边写作一边生成配套的插图，或者先画出草图让AI生成精美的成品插图，甚至可以让AI帮忙续写故事并配上插图。这大大提高了创作效率，也降低了创作门槛，让更多人能够实现自己的创作梦想。

在教育领域，Emu3.5可以帮助老师创建更生动的教学材料。比如一位历史老师想讲解古代建筑，他可以用文字描述建筑的特点，让AI生成相应的建筑图片，甚至生成不同角度的视图帮助学生理解建筑结构。一位科学老师可以用AI演示物理实验的过程，生成一系列连续的图片展示实验现象。这种图文并茂的教学方式比单纯的文字讲解更容易理解，也更容易激发学生的学习兴趣。

在设计行业，Emu3.5可以加速设计流程。设计师可以快速将创意草图转换为精美的设计稿，可以生成不同风格的方案供客户选择，还可以根据客户的修改意见快速调整设计。更有趣的是，设计师可以通过文字描述来指导AI完成一些重复性的设计工作，把更多精力投入到创意构思上。

在电商领域，Emu3.5可以帮助商家快速生成商品展示图。比如一个服装卖家拍摄了基础的商品照片，可以用AI生成模特穿着效果图、不同场景下的搭配图等。一个家具商家可以让AI将家具放置在各种家居环境中，帮助顾客更好地想象购买后的效果。

在机器人和自动化领域，Emu3.5的世界建模能力有着重要的应用前景。机器人可以通过观察AI生成的操作演示来学习新任务，这比传统的编程方式更加灵活和高效。在工业自动化中，工程师可以用AI模拟生产流程，发现潜在问题并优化操作步骤。

在娱乐和游戏行业，Emu3.5可以帮助创建沉浸式的虚拟体验。游戏开发者可以用AI快速生成游戏场景和角色，可以根据玩家的行为动态生成剧情和画面。电影制作人可以用AI进行前期的场景设计和分镜头规划，大大降低前期制作成本。

在无障碍技术方面，Emu3.5可以帮助视障人士更好地理解图像内容，为图片生成详细的文字描述。也可以帮助听障人士将文字转换为图像，提供更直观的信息表达方式。

当然，这些只是Emu3.5众多潜在应用中的一小部分。随着技术的开源和普及，相信会有越来越多创新的应用场景被开发出来。重要的是，Emu3.5降低了AI技术的使用门槛，让更多普通人能够利用AI的力量来实现自己的想法和梦想。

至顶AI实验室洞见

Emu3.5代表了AI发展的一个重要方向，那就是从单一功能的工具向多功能集成的助手转变。它不再只是一个图像生成器或一个文本理解器，而是一个真正能够理解和创造多模态内容的智能系统。虽然它还不是完美的，在某些任务上仍有提升空间，但它已经展示了AI技术令人兴奋的可能性。

更重要的是，智源研究院选择将Em3.5完全开源，意味着全世界的研究者和开发者都可以在此基础上继续创新，共同推动技术进步。这种开放的态度对于AI技术的健康发展至关重要。我们有理由相信，在不久的将来，这类多模态AI技术会变得更加强大和普及,真正成为人类创造力的延伸和放大器，帮助我们更好地表达想法、解决问题、创造价值。

论文地址：https://arxiv.org/abs/2510.26583v1

项目地址：https://github.com/baaivision/Emu3.5

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：Emu3.5相比其他AI模型最大的优势是什么？

A：Emu3.5最大的优势是它能够原生地处理和生成交错的图文内容，就像人类一样自然地在视觉和语言之间切换。它不是把图像和文字分开处理再组合，而是从一开始就把它们当作统一的信息流，这使得它在需要图文配合的任务上表现尤其出色。

Q2：普通人可以使用Emu3.5吗？

A：可以！Emu3.5已经完全开源，任何人都可以从GitHub上获取代码和模型。虽然直接使用可能需要一定的技术基础，但随着技术的普及，相信会有越来越多基于Emu3.5开发的应用程序出现，让普通用户也能轻松体验这项技术的强大功能。

Q3：Emu3.5会不会取代人类创作者？

A：Emu3.5更应该被看作是创作者的助手而非替代品。它可以帮助处理重复性工作、快速实现创意原型、提供灵感启发，但真正的创意构思、情感表达、文化内涵等仍然需要人类的智慧。就像摄影技术没有让画家失业一样，AI会改变创作方式，但不会取代创作者本身。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.