网易首页 > 网易号 > 正文 申请入驻

Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention

0
分享至

现在最好的图像质量,和几年后图像质量可能相差不大,实际在于模型能力下限的提升。 未来的交互一定是多模态的,识别用户的意图特别关键。

这是一篇 Nano Banana 背后核心团队成员的专访,信息量很大。

在 Nano Banana 正式上线后的近一个月以来,社交平台上充满了各种「邪修」玩法和探索。Nano Banana 的热度甚至一度冲击了图像、修图类产品的股价。

Nano Banana 为什么好用?读懂背后的「how」特别重要。Nano Banana 核心团队是如何思考和做图像模型的?基于图像模型的能力,衍生出来的应用会有哪些特点?

在一期播客节目中,Nano Banana 核心团队研究员 Nicole Brichtova 和 Oliver Wang,围绕基于模型打造产品时遇到的挑战、如何思考解决「空白画布难题」以及如何与其他图像编辑产品进行交互等话题进行了分享。

TLDR:

  • 图像模型未来的趋势可能和 LLM 的发展很像,从单纯的创意工具变为信息查询工具。

  • 未来,模型应该会变得更主动、更智能,能根据用户的问题,灵活运用文本、图像等不同模态进行交互。

  • 如何把 LLM 中的「世界知识」融入到图像模型,让生成的图像能真正帮到用户,是未来图像模型非常重要的一个应用方向。

  • 用户对于模型一步到位生成「成品」的期待是不切实际的。

  • 模型产品的交互界面(UI)设计目前是仍是被低估的。如何把各种模态整合起来,让普通人更容易使用这些模型、了解模型的能力,同时让模型适配具体的工作流。这个方向的价值还没被充分重视。

  • 多模态交互的核心问题在于如何识别用户的意图,以及如何根据用户意图和他们实际想完成的任务,切换到不同的交互模式,因为用户的需求往往不明确。要向用户解释「机器人做不到什么」非常困难,关键在于明确问题边界,在界面设计上让用户清楚「哪些操作可行」。

  • 满足用户美学相关的需求很难,需要深度的个性化才能给用户提供有用的建议。

  • Midjourney 成功的关键在于比其他团队更早搞清楚了如何进行模型的后续训练,尤其是如何通过后续训练生成具有风格化和艺术性的图像。

  • 图像生成模型未来的关键进步会体现在「模型的可表达性」方面。

  • 现在最好的图像质量,和几年后最好的图像质量可能相差不大;但现在最差的图像质量,会比几年后最差的图像质量差很多。

  • 未来所有团队都会朝着「通用模型(Omni Models)」的方向发展,也就是能处理多种任务的模型。图像、视频领域的很多技术是共享的,未来甚至可能融合在一起。

  • 未来有能力训练 LLMs 的团队,或者能让图像模型具备丰富世界知识的团队,可能会在图像领域占据主导地位。

超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群:

进群后,你有机会得到:

  • 最新、最值得关注的 AI 新品资讯;

  • 不定期赠送热门新品的邀请码、会员码;

  • 最精准的AI产品曝光渠道


01更高分辨率,用户提得最多的需求

主持人:在「Nano Banana」正式发布前,你们内部觉得哪些用法会最火、最让你们兴奋?现在推向市场后,实际情况和你们想的一样吗?

Nicole:对我来说,最令人兴奋的其实是「角色一致性」,能看到自己出现在不同场景中。比如,我真的做了一整套幻灯片,里面有我出现在「通缉令」上的样子、扮演考古学家的样子,基本上涵盖了我童年时梦想过的所有职业。我们甚至还制作了一套包含我面部图像的电子邮件模板,团队里其他人的图像也有收录,方便我们开发新模型时随时参考。

主持人:在 AI 领域,这绝对是最高荣誉了。

Nicole:而且这些图像都很有个人特色,我非常兴奋。所以我一开始就对「角色一致性」功能很期待,因为它能让人们以一种全新的方式「想象自己」,这种方式在以前其实很难实现。这也确实成了用户最感兴趣的功能之一。

我们发现,人们会把自己的形象变成「小雕像」,这是一个非常流行的使用场景。不过有一个场景让我很意外:很多人用它来给老照片上色,这对用户来说是很有情感意义。比如「现在我终于能看到自己婴儿时期的真实模样了」,或者「我能从这些黑白照片里看到父母当年的样子了」。这种反馈真的很暖心。

主持人:一款产品火了之后,肯定会收到无数的功能需求。用户最常提的是什么?你们觉得图像模型的下一个里程碑会是什么?

Nicole:我们在推特上收到最多的需求是更高分辨率」,很多专业用户会提这个。目前模型的分辨率是 1K,用户希望能更高。另外,透明背景也是高频需求,因为这对专业场景来说非常实用。这两个应该是我见过最多的需求,除此之外,还有更好的文字渲染效果

主持人:大家都很好奇,是什么让模型的性能提升这么多?

Oliver:我觉得情况其实很「朴实」,没有哪一个单一因素能决定一切,关键在于把所有细节都打磨好,不断优化「技术方案」,而且团队已经在这个问题上钻研了很久。说实话,我们自己也有点意外这个模型能这么成功。我们知道它是个不错的模型,也很期待它的推出,但没想到反响会这么强烈。比如,我们在「竞技场」(Arena)平台发布后,不仅评分很高,更让我在意的是,有太多用户为了使用这个模型而涌入 LM Arena,以至于我们要一次次提高「每秒查询量」(QPS)来支撑负载。这完全超出了我们的预期,也让我们第一次意识到:「哦,这东西真的很特别,有很多人需要它」。

主持人:我觉得这就是整个 AI 生态最有趣的地方之一:你们作为开发者,虽然对自己构建的模型有一定了解,但只有当它推向市场、接受大众检验时,你才能真正明白它的「潜力到底有多大」。

主持人:Nana Banana已经刷屏网络了。除此之外,AI图像领域还有哪些你觉得值得关注,但目前没太多人留意的动态?

Nicole:我觉得是图像的事实性维度。比如人们用「Nano Banana」制作信息图表,或者上传尼亚加拉大瀑布的照片,让模型标注信息。作为演示,效果看起来还不错,但仔细看会发现:文字有乱码、信息不准确,还会重复。这个方向目前关注的人不多,但我相信未来会不断优化。

Oliver:这和 LLM 的发展其实很相似。比如 GPT-1 和 GPT-2 刚出来时,人们觉得「很有趣」,会用它写创意内容,这类任务的「可接受答案范围很广」。但现在,人们很少用 LLM 做创意了,更多是用它「查询信息」「进行对话」,甚至「寻找情感陪伴」。我认为图像模型也可能经历类似的转变:从创意工具变成信息查询工具,未来人们甚至可能在「需要陪伴时」和视频模型对话。这种趋势在未来是有可能出现的。

Nicole:而且模型应该会变得「更主动」。现在,用户必须主动提出「我要生成一张图」的需求,但如果查询本身「需要图像辅助」呢?其实我们在搜索引擎里已经习惯了这种「主动适配」,搜索时,系统会根据需求自动返回「文字+图像」或纯图像结果。我期待未来的模型能更主动、更智能:根据用户的问题,灵活运用不同模态(文本、图像等)进行交互。

主持人:Nano Banana这个名字背后有什么故事吗?

Nicole:我们团队有一个 PM 叫 Nana。当时为了这次发布,她凌晨 2 点半还在加班,就是那时候想出了这个名字。因为听起来很有趣,所以大家就一直用了。现在它甚至成了「半官方名称」毕竟「Gemini 2.5 Flash 图像模型」确实有点拗口。

主持人:是啊,这个名字很成功,连谷歌的高管都在推特上发香蕉表情,可见这个名字已经「深入人心」。

Nicole:如果说品牌推广有什么心得的话,那就是「名字最好能搭配一个合适的表情符号」,这样更容易让人记住。


02从「玩具」到生产力工具,是因为融合了 LLM 的「世界知识」

主持人:你们解决了「角色一致性」这个大难题。在你们看来,图像模型接下来的前沿突破点会是什么?

Oliver:我认为,这款模型最令人兴奋的一点在于,你可以开始向它提出「更复杂的需求」了。以前,你可能需要把想要的图像细节描述清楚,但现在,你可以像跟 LLM 对话一样「寻求帮助」。比如,有人会这样用:「我想重新布置我的房间,但不知道该怎么做,给我一些建议吧」,这时模型就能给出合理的方案,比如「根据你的房间配色,这些家具会很搭」。

对我来说,真正有意思的是,如何把LLM中的世界知识融入图像模型,让生成的图像能真正帮到用户,比如展示用户没想到的方案,或者解答用户的「信息查询类需求」。比如用户问「这个东西是怎么工作的」,模型能直接生成一张示意图,标注出「它的工作原理是这样的」。我认为这会是这类模型未来非常重要的一个应用方向。

主持人:图像模型能从LLM的进步中获益多少?而且随着 LLM 持续发展,这种获益趋势会继续保持吗?

Oliver:当然能获益,而且几乎 100%得益于LLM世界知识。其实,这款模型的正式名称是「Gemini 2.5 Flash 图像模型」,「Nano Banana 」只是个更有趣的昵称。

Oliver:我甚至在想,我们的成功有多少是因为「Nano Banana」这个名字朗朗上口。但它确实是一款 Gemini 系列模型,所以你可以像和 Gemini 对话一样和它交流,它能理解 Gemini 能理解的所有内容。我认为,将图像模型与语言模型整合,对提升模型的实用性和功能性来说,是至关重要的一步。

Nicole:你可能还记得,两三年前,如果你想让模型生成图像,必须描述得非常具体,比如「一只猫坐在桌子上,背景是这个样子,颜色是这些」。但现在不用这么麻烦了,很大程度上就是因为语言模型的性能大幅提升了。

主持人:是的,现在已经不用像以前那样「偷偷进行 Prompt 转换」了。以前的「小技巧」是:你输入一句话,系统会把它转换成一段 10 句话的详细 Prompt ,确保模型能准确生成内容。但现在模型的复杂度已经足够高,能直接理解简单 Prompt 了,这真的很令人兴奋。


03未来的交互一定是多模态的,
识别用户的意图特别关键

主持人:从产品角度来看,「Nano Banana」的用户群体其实非常多样。有知道自己要做什么的专家,也有很多面对「空白画布难题」的普通用户。讲讲你们是如何为这两种完全不同的用户设计产品的?

Nicole:首先,LM Arena 上的用户,甚至包括开发者,他们都非常专业,熟悉这些工具的用法,还能想出我们没预料到的新场景。比如,有人会把照片里的物体变成「全息图」,我们既没针对这个场景做过训练,也没指望模型能擅长这个,但模型做得很好。

对于普通消费者来说,简化操作」很重要。比如现在你打开 Gemini 应用,会看到到处都是「香蕉表情」,我们这么做是因为发现,很多人听到「香蕉」(指模型)后,去应用里却找不到它,因为之前没有明显的入口。我们还和创作者合作,提前展示一些使用场景,给出示例,这些示例能直接链接到 Gemini 应用,点击后 Prompt 会自动填充。我认为,在「初始界面引导」方面,我们还有很多可以做的,比如提供视觉化指导。

另外,在编辑图像时,或许可以加入「手势操作」,不用完全依赖 Prompt 。有时候即使你想要某个特定效果,也需要写一段很长的 Prompt ,但这对大多数消费者来说并不自然。我会用「父母测试」来验证产品,如果我的父母能轻松使用,那它才算合格。但目前我们还没达到这个标准,所以还有很长的路要走。不过核心思路其实是「多展示、少说教」:给用户能轻松复刻的示例,让分享变得简单。就像 Oliver 常说的,这没有什么「神奇的单一解决方案」,需要多方面努力。

Oliver:「社交分享」其实是解决「空白画布难题」的关键。人们看到别人用模型做的内容后,因为模型默认支持「个性化」,所以很容易想到「我也可以把自己、朋友或宠物放进去试试」。这种「模仿式创作」是「Nano Banana」传播的重要方式。

主持人:目前交互主要还是通过文字。从长期来看,还有哪些设计界面能让人们更便捷地与模型交互这方面有什么让你们感到兴奋的想法吗?

Nicole:我觉得我们现在只是刚刚触及「交互可能性」的表层。最终,我希望所有的「模态」(文本、图像、语音等)能融合在一起,形成一种「智能界面」,它能根据你要完成的任务,自动选择最合适的交互方式。

比如现在,我们已经在向「 LLM 不仅输出文本,还能在用户需要时输出图像或可视化解释」的方向发展。语音交互也很有潜力,因为它对人来说是非常自然的方式,但目前还没有人真正解决「如何将语音交互融入用户界面」的问题。我们现在仍主要依赖「输入文字」,或许可以结合「手势」,比如你想从图像中删除某个物体,就像在草稿本上涂掉它一样简单。而如何根据任务需求,无缝切换不同的交互模态,这是我非常感兴趣的方向,在这方面还有很多探索空间。

此外,我觉得「用一个简短 Prompt 就能生成『可直接落地的成品』」这种想法是在炒作。实际上,生成内容后需要大量迭代优化,即使是人们在社交平台上分享的内容,背后也需要投入很多精力才能打磨成最终效果。所以这种「一步到位」的期待有点不切实际,未来的交互界面(UI)目前是被低估的。如何把各种模态(文本、图像、语音等)整合起来,让普通人更容易使用这些模型、了解模型的能力,同时让模型适配具体的工作流。这个方向的价值还没被充分重视。

主持人:现在语音交互界面面临的局限是什么?

Nicole:我觉得部分原因可能是「优先级排序」,我们现在还在全力提升模型的核心能力。不过语音技术在过去几年也确实取得了很大进步,所以我认为很快就会有人着手探索「语音与图像模型的结合」,我们团队可能也会做这方面的工作。

我一直在琢磨这种交互界面可能的样子。我觉得问题的核心在于,如何识别用户的意图,以及如何根据用户意图和他们实际想完成的任务,切换到不同的交互模式,因为用户的需求往往不明确。而且这样一来,界面可能又会回到「空白画布」的状态,那如何向用户展示「哪些操作是可行的」呢?这本身就是个很大的挑战。

我们发现,用户在使用聊天机器人时,总会默认它「什么都能做」,毕竟你可以像跟人对话一样跟它交流。但实际上,要向用户解释机器人做不到什么非常困难;尤其是当工具的功能已经非常强大时,要清晰展示「它能做什么」也并不容易。所以我认为,关键在于明确问题边界,在界面设计上让用户清楚哪些操作可行,最终帮助他们完成几乎所有想做的事。


04来自真实用户的主动测试才是模型评估的最佳方式

主持人:聊聊「模型评估」。除了放到 LM Arena 平台上公开测试,你们常规的评估具体是怎么做的?在「如何判断和衡量模型好坏」这件事上,有什么心得?

Oliver:其实,语言模型和视觉语言模型的进步带来了一个好处:现在已经形成了一种「反馈循环」,我们可以利用语言模型的智能,来评估它自己生成的内容。这就形成了一个良性循环,能同时推动语言模型和图像模型这两个领域的进步,这点非常令人兴奋。说到底,用户自己才是「判断图像是否符合需求」的最终标准。所以像 LM Arena 平台那样,让用户输入自己的 Prompt 来使用模型,其实是评估模型的最佳方式。

Nicole:「审美」也很重要。 Oliver 比较谦虚,其实她是团队里「对图像细节敏感度极高」的人,他能一眼看出图像的效果好不好、有哪些缺陷。我们团队里有几位这样的成员,在模型训练完成后,会先进行大量的「人工初筛」,判断模型输出的结果是否合格。

聊回你问的「评估方法」,我们会从很多渠道(包括 X )收到用户反馈,了解「哪些功能好用、哪些不好用」。之后我们会调整评估标准,一方面确保「好用的功能不会退化」,另一方面针对社区希望改进的「不好用的功能」,集中精力优化。


05「美学」需求很难满足,需要在 Prompt 层实现深度地上下文交互

主持人:你们见过的资深用户中,有没有什么特别让人印象深刻的使用场景?

Oliver:我个人最喜欢的资深用户场景吗?我之前大部分职业生涯都在做视频相关的工作,所以对视频工具和创作工具特别感兴趣。我发现,「Nana Banana」和 Voe3 这类视频模型结合使用时,能成为制作 AI 生成视频的实用工具,它能帮你更快地构思创意、规划镜头。有意思的是,这和电影行业的制作流程很像:先用「分镜脚本」梳理故事和镜头,现在用户也会用这种方式,制作更连贯、更长的视频内容。

Nicole:我很惊讶有人会把它用在「实际的建筑工作流」中。比如从蓝图开始,先生成类似 3D 模型的效果(但不用真的建 3D 模型),再进一步迭代成设计图。这大大缩短了工作流中「繁琐重复的环节」,让人们能把精力放在「有创意、有趣且自己真正喜欢的环节」上。而且我没想到,它在这类场景中「开箱即用」的效果会这么好。

主持人:就像在各个领域中,用图像模型快速搭建「基础框架」一样。

Nicole:还有一个场景是「通过代码生成网站 UI」。以前,从「输入 Prompt 」到「生成网站代码」的过程总让我觉得很突兀,中间少了一个「迭代设计」的环节,没法快速修改设计方案。但现在,我们终于能在「生成代码前」先迭代设计,直到满意后再生成代码。

主持人:这简直就是未来的工作流。毕竟,如果生成的代码不符合你的审美,或者和你的预期完全不符,那之前花在「生成代码」上的算力不就白费了吗?这样做确实合理多了。

Nicole:而且这样也更有趣。就像 Oliver 说的,人们会把新技术融入现有的工作流,这个过程其实很自然。虽然现在 LLM 的进步很快,已经能「从 Prompt 直接生成网站」,这很令人惊叹,但我觉得,设计迭代这个中间环节多花点时间,确保最终效果符合自己的审美,对用户来说会更有乐趣。

主持人:我们在这个方向上进展到哪一步了?

Oliver:美学相关的需求其实挺难满足的,因为它需要深度的个性化才能提供有用的建议。而且我认为,在技术层面,「个性化」本身也还在持续优化中。所以我们现在离「精准理解用户需求」还有一段距离。但我觉得,通过少量澄清与模型对话,这也是我对模型最期待的功能之一,情况会越来越好,你可以像在聊天线程里一样跟模型交流,逐步细化需求,最终得到你想要的图像。

主持人:你觉得个性化会停留在Prompt 层面吗?比如,通过对话和上下文来实现?还是说,未来每个人都会有自己专属的「美学模型」?

Oliver:我觉得更多还是会停留在「 Prompt 层面」。比如,根据用户之前告诉过你的个人偏好,模型就能做出更贴合需求的决策。至少我希望是这样。毕竟,如果每个人都要有自己的模型,还要负责维护,那听起来会很麻烦。所以这可能是未来的发展方向。

Nicole:但我确实认为,不同人会有截然不同的「美学偏好」,而且在这个层面上,一定程度的个性化是必不可少的。比如,你在谷歌的「购物标签页」上搜索毛衣时,会收到很多推荐,但你其实希望能「贴合自己的审美」,甚至能「结合自己衣柜里已有的衣服」,看看哪些新衣服能搭配。我希望这种需求能通过「模型的上下文窗口」来实现,比如把衣柜里衣服的图像喂给模型,让它推荐能搭配的款式。我对这个方向非常期待,也希望能实现。当然,或许在「模型层面」还需要一些额外的「美学控制」,但我猜这可能更多会应用在「专业工作流」中。

主持人:所以,你们觉得未来会是一个通用模型,靠精准的 Prompt 通吃所有场景?还是会出现更多细分模型,比如专门做「未来风」或某种特定风格的模型?

Nicole:我一直很惊讶,「现成模型」(off-the-shelf model)能支持的使用场景范围居然这么广。但就像你说的,在一些「面向消费者的场景」中,比如快速勾勒房间里某个物品的样子,它的表现已经很好了;但一旦进入「更高级的功能需求」,比如为营销或设计工作流制作最终成品,就需要结合其他工具才能让模型真正发挥作用,变得实用。


06未来关键在于提升模型的「可表达性」,补齐能力下限

主持人:咱们把视角拉远一点,聊聊整个图像模型领域。自从Stable DiffusionMidjourney出现后,这个领域的发展速度简直像坐了火箭。你们觉得过去两三年里,图像生成模型的关键里程碑有哪些?

Oliver:确实是「火箭式发展」。最初我在这个领域工作时,生成对抗网络(GAN)还是主流的图像生成方法,当时我们都为 GAN 的效果惊叹,但它只能在非常有限的范围内生成图像。比如能生成看起来还不错的人脸,但也只有「正面人脸」这一种。后来,能「泛化生成」且「完全由文本控制」的模型开始出现,但最初它们的规模很小,生成的图像也很模糊。不过那时候我们就意识到:「哇,这东西会改变一切」,于是大家都开始投入精力研究。但没人能预料到它会以这么快的速度进步。

我觉得这背后有两个原因:一是有很多顶尖团队在攻克这些难题,二是良性竞争的推动看到其他团队发布出色的模型时,大家都会被激励,比如「Midjourney 之前一直遥遥领先,效果好得惊人」,我们就会琢磨「他们是怎么做到的?为什么效果这么好?」. 另外,Stable Diffusion 作为开源模型的出现,也让我们看到了「开发者社区的潜力」,原来有这么多人想基于这些模型开发新东西。这无疑是另一个「爆发点」。不过说实话,在这个领域工作既有趣又有点「令人沮丧」:一方面模型在飞速进步,另一方面用户的期待也在不断提高。现在用户会抱怨一些「小问题」,但你心里会想「天呐,你知道我们为了优化这个模型付出了多少努力吗?一年前生成的图像还完全不真实,当时大家都惊叹不已,」。不得不说,人类对新技术的「审美疲劳」来得真快。

主持人:Midjourney 为什么当初能在这个领域「遥遥领先」这么久?感觉有很长一段时间它都是行业标杆。

Oliver:我觉得Midjourney比其他团队更早搞清楚了如何进行模型的后续训练,尤其是「如何通过后续训练生成具有风格化和艺术性的图像」。这正是他们的核心优势,专注于「让用户能控制图像风格」,并确保「无论生成什么内容,视觉效果都很出色」。在当时,这一点非常关键:因为如果能把生成范围「聚焦在『好看的图像』这个小领域」,就能把这个领域的效果做得更好。从「专注于高质量风格化图像」起步,对他们来说是个非常好的策略。后来,包括 Midjourney 在内的所有模型(比如 Flux、GPT 图像模型等)都开始「拓宽生成范围」,现在已经能生成更多品类的图像,同时还能保持高质量。

主持人:是什么让模型能拓宽生成范围不再只局限于生成那些经过筛选的优质图像了?

Oliver:原因有很多。首先,我们都搞清楚了「训练数据应该是什么样的」;其次,模型规模和算力都在自然增长,以前做不到的事,现在因为「规模变大了」,就能实现了。

主持人:图像模型进步这么大,但我现在不确定,我们是只剩 10%的进步空间,还是三年后回头看,会觉得当时居然觉得那些模型很好用,真是可笑』」。你怎么看这个问题?而且现在生成的图像已经很不错了,我甚至想象不到「下一个 10 倍级的提升会是什么样

Oliver:我认为我们还有很长的路要走。先不说其他应用场景,单是「图像质量」这一项,就有巨大的提升空间。我觉得关键进步会体现在模型的可表达性」方面:现在我们能完美生成某些内容,生成的图像和真实图像几乎无法区分;但一旦超出「用户常生成的常见内容」范围,图像质量就会急剧下降。比如那些需要「更多想象力」或「融合多个概念」的 Prompt ,生成效果往往很差。

所以我觉得,未来的模型可能会呈现这样的趋势:现在最好的图像质量,和几年后最好的图像质量可能相差不大;但现在最差的图像质量,会比几年后最差的图像质量差很多

我们会让模型的实用性更强,适用场景也更广泛。而且我们发现,模型的适用范围越广,用户能发掘的使用场景就越多,模型本身也会变得更有用。


07在未来的工作流中,
传统工具和AI模型会长期共存

主持人:你们既提供模型也提供API,你们怎么判断哪些功能适合放进 Gemini 这样的通用聊天工具,哪些更适合留给其他专业产品去实现?

Nicole:我觉得这两类场景的定位完全不同。我们发现,用户会用 Gemini 进行「快速迭代」,比如我们团队有人想重新设计花园,就会先在 Gemini 里生成效果图,想象可能的样子,然后再找景观设计师合作,把这个想法细化、落地。所以 Gemini 更像是「创意构思的第一步」,很少会成为「最终成品的制作工具」。

但对于资深用户(比如开发者)来说,他们会搭建更复杂的工具,将多个模型串联起来使用,这是一个更精密、更复杂的「多工具协作流程」。聊天机器人的优势在于「帮你启动创意、提供灵感」,还能支持很多「有趣、易分享」的场景,比如和家人朋友分享创作成果。我觉得这种定位会一直保持下去,因为有更高需求的资深用户,总会倾向于使用「更可视化」或「更专业」的工具。

主持人:那编辑工作流该如何融入其中呢?AI生成初始创意很棒,但要把作品从 95%打磨到 100%,你们觉得未来还需要依赖传统的编辑工具吗?还是说整个工作流会发生变化?

Oliver:我觉得这很大程度上取决于用户类型。有些用户对效果有「像素级的精准要求」,对于这类需求,我们必须将模型与现有工具(比如 Adobe 的各类产品)整合;而有些用户更需要「灵感启发」,对效果的要求没那么严格,对他们来说,在聊天机器人里快速生成创意就足够了。所以这两种应用场景都很重要。

Nicole:关于「像素级控制」,我两天前刚了解到一个案例:在制作不同产品或品牌的广告时,模特的「视线方向」会对广告传达的信息产生很大影响,因为观众的注意力会被模特的视线引导。这种精细的控制,用聊天机器人是很难实现的。所以对于这类用户和场景,未来依然需要「专业工具」和「极高精度的控制能力」。

Oliver:说到底,关键在于「哪些需求能用语言描述清楚,哪些不能」。语言很适合传达「宏观想法」,但如果想让某个元素「向左移动 3 个像素」,用语言描述就很别扭了。所以我认为,传统工具AI模型会长期共存。

主持人:是的,如果我们观察专业艺术家或创作者的完整工作流,会发现他们很难用语言精确描述自己的操作,很多时候都是「凭感觉」。在谷歌内部,你们自己最期待看到这个图像模型在哪些产品或业务中落地?

Nicole:我觉得有很多方向。首先是创意领域,比如「照片应用」,在照片库里直接进行编辑就很方便。比如我每年都会有几次需求,把家庭照片做成生日贺卡,如果能在照片应用里直接完成,会非常便捷。

另外,「知识性场景」也很有潜力。在谷歌的各类产品中,如果一个 5 岁的孩子想了解「光合作用」,但网上没有合适的可视化素材,模型能生成专属的示意图,这会给「个性化视觉学习」开辟很多新场景和机会,毕竟很多人都是「视觉型学习者」。

Oliver:我觉得「办公协作(Workspace)」也是个很棒的方向。比如 PowerPoint 和谷歌幻灯片(Google Slides),未来人们或许能制作出「更有吸引力的演示文稿」,而不是千篇一律的「文字列表」。

主持人:我刚开始工作时做过咨询,要是当时有这功能就太好了。我太懂那种「花大量时间调整格式」的痛苦了。

Nicole:以前做幻灯片,都要先在白板上画分镜,确定标题、图表位置(比如「左边放这个数据集的图表」)。如果能把这些需求喂给 LLM ,让它帮忙完成这些繁琐的工作,那就太让人兴奋了。

Oliver:甚至可以直接「拍一张白板上的照片」,让模型来识别内容。


08未来所有团队都会朝着「通用模型」的方向发展

主持人:图像模型和视频模型的关系是什么?它们的研发是独立的,还是会相互借鉴?这两个领域的互动多吗?

Oliver:它们的联系非常紧密。我认为未来所有团队都会朝着通用模型(Omni Models)的方向发展也就是能处理多种任务的模型。这类模型有很多优势,长期来看或许会成为主流,不过我也不确定。但可以肯定的是,我们在图像生成领域学到的很多技术,会被应用到视频生成模型中,反过来也是。这也是视频生成领域能快速发展的原因之一。整个行业已经掌握了这类问题的解决思路。所以我觉得它们就像「亲密的伙伴」,会共享很多技术,未来甚至可能「融合在一起」。

主持人:你说的技术,是指图像和视频模型背后的核心技术框架是相似的?

Nicole:从工作流来看,人们也经常「互补性地使用这两类模型」。比如,如果你是电影制作人,前期的创意迭代往往会先在 LLM 中梳理思路,然后在图像模型中快速生成帧画面,这样更快、成本也更低,最后才会进入视频制作阶段。所以即使从「工作流和易用性」的角度看,这两类模型也存在互补性。另外,它们需要解决的很多问题是相似的,比如「一致性」,无论是图像还是视频,都需要保证角色、物体、场景的一致性。只是视频领域更复杂一些,因为要在多帧画面中维持这种一致性。

主持人:你觉得视频模型领域接下来需要解决的核心问题是什么?

Oliver:我认为,首先是让视频模型具备和最新图像模型同等的可控性,这对视频领域的发展影响很大,也是值得关注的方向。其次,视频团队也在持续优化「分辨率」和「长时一致性」。当然,「让同一个角色出现在多个场景中」也是用户最迫切的需求之一。所以未来的发展方向很明确:朝着「更长、更连贯的视频内容」迈进。

主持人:图像模型领域的市场格局,最终会走向 LLM 领域那样,由少数几家头部玩家主导吗?

Oliver:这是个好问题。到目前为止,我认为图像领域仍有「小团队做出顶尖模型」的可能。我们已经见过不少小实验室开发出非常出色的模型了。我希望这种情况能持续下去,因为小团队的参与会让这个领域更有活力。

但就像我之前说的,图像模型的「世界知识储备」和「实用性提升」,其实非常依赖「规模效应」,尤其是 LLMs 的规模。所以我猜测,未来有能力训练 LLMs的团队,或者能让图像模型具备丰富世界知识的团队,可能会在图像领域占据主导地位。我们看到中国的一些大型实验室也在推出优秀的图像模型,这和 LLM 领域的趋势很像。所以我认为,未来图像领域也会出现这样的头部玩家。

主持人:对图像模型来说,使用最先进的开源模型,和使用前沿的闭源LLM相比,劣势会很大吗?

Oliver:这是个很棒的问题。我觉得答案很大程度上取决于「开源模型的未来发展」,毕竟开源领域的变化非常快。大概一年前,「用开源模型」看起来还是个很稳妥的选择,但现在情况可能没那么明朗了。不过我也不确定开源模型的未来走向,它仍有很大可能性继续发展,支撑更多小实验室训练出优质的图像模型。

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

德比大战热度飙升!米兰名宿称中场是关键,国米9号伤愈积极请战

星Xin辰大海
2025-11-18 12:17:46
看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

看63岁林芳兵和59岁陶慧敏,才知上了年纪,会打扮比好身材更重要

大铁猫娱乐
2025-11-09 16:47:23
事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

事实证明,“消失”7年的周立波,早已经走上了一条“不归路”

优趣纪史记
2025-08-13 18:46:36
耿宝昌先生遗体告别仪式,在京举行

耿宝昌先生遗体告别仪式,在京举行

新京报
2025-11-17 20:34:28
被抵毁的“东南互保”:实质是不抵抗的爱国

被抵毁的“东南互保”:实质是不抵抗的爱国

深度报
2025-11-17 23:00:01
中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

中超第30轮:英博对阵海港,赛前传3喜4忧,海港有望取胜

小七七体育解说
2025-11-18 11:04:46
仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

仅差262分!仅差569分!哈登迎来2项神级里程碑,快船不配拥有你

世界体育圈
2025-11-18 11:47:59
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

阿斚田侃故事
2025-11-03 22:56:11
抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

抢在解放军演习前,自卫队叫嚣击沉福建舰,055抵近日本土亮剑

梁讯
2025-11-18 11:45:34
王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

王楚钦被牵扯!央视揭露令人震惊的“隐私链条”真相!

舞指飞扬
2025-11-18 09:10:27
650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

650万发炮弹打光,朝军血战波兰和美国雇佣兵,朝鲜帮了普京大忙,经过这一战,俄朝关系更紧密,而战后重建,朝鲜也能分一杯羹

军霆说
2025-11-18 11:09:04
多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

多部日本电影撤档!《鬼灭之刃》遭抵制,回本艰难退票人次超百万

娱圈小愚
2025-11-18 09:48:30
太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

太嚣张!山西反杀案当晚申家儿子不在场,郭某夫妇竟对警方撂狠话

爱写的樱桃
2025-11-16 21:36:38
活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

喜欢历史的阿繁
2025-11-14 15:35:44
6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,中方被逼上硬菜

来科点谱
2025-11-17 09:09:40
陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

陈数:14年幸福婚姻,被赵胤胤狠狠撕碎,爱情终究还是败给了现实

乡野小珥
2025-11-16 06:43:55
戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

戏子误国!国家出手后,人民日报点名的这3位明星永无出头之日

不八卦掌门人
2025-07-25 21:56:46
两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

两年新增 20 万女骑手?到底是谁把中国女人,逼成了外卖员?

知鉴明史
2025-11-15 21:31:17
薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

薄一波晚年反省,当年不该支持此人上台,他给国家带来大麻烦

扬平说史
2025-11-06 20:22:42
疯狂的清朝乡试

疯狂的清朝乡试

汉周读书
2025-11-17 13:36:29
2025-11-18 13:03:00
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1047文章数 143关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

头条要闻

超市被员工偷到倒闭 收银员给1700元商品结账仅1元

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

游戏
教育
时尚
亲子
艺术

CDPR为《赛博朋克2077》中的强尼·银手庆祝生日

教育要闻

2026高考缴费今日开启!详细操作步骤来了!(附缴费清单)

听说冷帽是“美女检验神器”?

亲子要闻

带孩子们去游乐场,俩闺女高兴坏了,以后有机会一定多陪陪她们!

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

无障碍浏览 进入关怀版