|未经许可不得转载星标本号获取最新顶级认知|
![]()
整理:Web3天空之城
城主说| 在人工智能生成内容的浪潮中,实现跨图像的“角色一致性”一直是行业的圣杯。而“Nano banana”的图像模型,凭借仅需单张照片就能生成高度一致角色的能力,从一个凌晨两点的玩笑变成了席卷网络的文化现象。这背后究竟是怎样的技术飞跃?它又预示着AI创作工具怎样的未来?
在这次最新深度访谈中,红杉两位合伙人与Nanobanana开发团队的核心成员——产品负责人妮可·布里克托娃(Nicole Brichtova)和工程负责人汉沙·斯里尼瓦桑(Hansa Srinivasan)进行了对话。他们揭示了,Nanobanana的成功并非偶然,而是高质量数据、基于Gemini的长上下文窗口以及严谨的人工评估共同作用的结果。更重要的是,他们提出了一种深刻的产品哲学:“乐趣是通往实用性的门户”。这篇长文将深入解析Nanobanana背后的技术、其出人意料的诞生故事,以及它所代表的,从专业创作到个性化生活,AI工具演变的未来蓝图。
核心观点摘要
• “你现在捕捉的是人们的想象力。就像你在给他们工具,让他们能够以视觉化的方式,将他们脑海中的东西放到纸上。”
• “乐趣是通往实用性的门户……它能吸引人们,让他们兴奋,然后帮助他们发现模型擅长的其他事情。”
• “我认为高质量的数据和选择的细节导向性非常重要。是的,这是工艺的一部分,是人工智能我们谈论不多,但我认为它超级重要的部分。”
• “我认为这是一种范围,从非常放手……一直到你如何真正让一个创意过程更有趣,并消除那些繁琐的部分。”
• “我们的目标始终是构建一个最强大的模型,它可以接收任何模态,并将其转换为任何模态。嗯,这就是我们的北极星。”
• “我预计你看到图像的很多发展,你会在视频中看到,比如6到12个月后。”
长期以来,AI图像生成模型的一个核心痛点在于,即使用户反复使用相同的提示词,也难以生成面部、服装或风格完全一致的角色。Nanobanana的出现,似乎解决了这个难题。这背后并非简单的算力堆砌,而是一系列技术与“工艺”的结合。
团队透露,成功的关键之一在于高质量的数据策略。但这并非全部。正如汉莎·斯里尼瓦桑所解释的,模型的泛化能力至关重要:“我认为关键在于拥有良好的数据,可以教会模型进行泛化,对吧?并且它是基于一个基础模型,Gemini模型。它是一个多模态的基础模型,已经见过大量的数据,并且具有良好的泛化能力。”
另一个技术支柱是Gemini带来的长上下文窗口。这彻底改变了过去需要用数十张照片、花费大量时间进行微调的繁琐流程。“你可以提供一张你自己的照片,但你也可以提供多张,” 妮可·布里克托娃补充道,“然后在输出端,你也可以跨多个回合进行迭代,并且真正与模型进行对话,这在以前是不可能的。”
然而,最令人意外的“秘诀”可能在于严谨的人工评估。尤其是在判断面部一致性这种主观性极强的任务上,机器难以胜任。布里克托娃分享了一个“顿悟时刻”,当她第一次用自己的照片生成了一张几乎完美的“红毯照”时,她立刻意识到模型的巨大潜力。但她也指出:“你真的只能在自己身上做(判断),这就是为什么我们现在在许多团队成员身上都有进化,就像他们自己的脸,并且他们正在看着模型输出的带有他们自己脸部的结果。因为这真的是你判断某人是否长得像你的唯一方法。” 这种对细节和主观感受的重视,正是团队所强调的“工艺”,它与模型规模同等重要。
“乐趣是通往实用性的门户”:Nanobanana的诞生
一个强大的模型,为何会拥有一个看似随意的名字?“Nanobanana”的诞生故事,完美诠释了团队的产品哲学。这个名字源于一位产品经理在凌晨两点疲惫状态下的灵光一闪,最初只是一个内部代号。但它朗朗上口、自带表情符号的特性,使其迅速流行开来。
团队非但没有纠正这个“意外”,反而顺势而为,因为它揭示了一个深刻的道理。正如斯里尼瓦桑所说:“有一个有趣的名字也是一条通往乐趣的很好途径,乐趣是通往实用性的门户。”
这个看似简单的理念,极大地降低了普通用户,尤其是对AI感到恐惧的人群的使用门槛。“我的父母和他们的朋友都在使用它,我认为这是因为它有这样的声誉,它真的很简单,很有趣,尝试起来感觉没有压力,” 斯里尼瓦桑分享道。用户被有趣的体验所吸引,比如将自己P到各种场景中,但在使用的过程中,他们会自然地发现模型更强大的实用功能,比如修复老照片、移除背景人物,甚至是将复杂的技术讲座转化为易于理解的草图笔记。这种从娱乐到实用的无缝过渡,正是Nanobanana迅速普及的关键。
未来展望:专用UI与自动化代理的融合
当谈及AI创作工具的未来时,团队预见到两条并行发展的路径,分别服务于不同需求的用户。
第一条路径是为专业人士打造的专用用户界面(UI)。聊天机器人虽然是很好的入门方式,但对于需要精确控制的创意工作流而言,其能力有限。未来的专业工具将更像一个画布,布里克托娃设想道:“你真的需要这种精确的、甚至可能是基于手势的控制,比如对帧中的每一个像素进行控制。”
而另一条路径,则是为普通用户设计的自动化代理。在许多场景下,用户并不关心创作过程,他们只想要最终结果。“这几乎就像你今天真正聘请一位专业人士来做某事一样,” 布里克托娃用一个生动的比喻解释道,“就像你聘请一位设计师,你给他们一个规范,然后他们离开,然后他们完成他们所做的所有了不起的工作,因为他们拥有所有的专业知识。因此,这些模型应该能够做到这一点。” 从制作项目更新的PPT到个性化学习,AI代理将能够理解用户的高层意图,并自动完成中间的所有繁琐步骤。
通用模型的终极愿景与生态机遇
尽管当前存在像Nanobanana(图像)、V0(视频)这样的专用模型,但团队明确指出,这只是通往最终目标过程中的一步。终极的“北极星”是构建一个单一的、通用的多模态模型。
“我们的目标始终是构建能够完成所有这些事情的最强大的单一模型,对吧?它可以接收任何模态,并将其转换为任何模态,” 布里克托娃断言。专用模型是推动单一模态技术前沿的“试验场”,其成功经验最终将被整合回像Gemini这样的基础模型中。“我预计你在图像中看到的很多发展,我预计会在6到12个月后在视频中看到。” 这种以图像为先导,视频、音频等多模态能力逐步跟进的模式,预示着一个所有内容形式都能被AI无缝理解和生成的未来。
对于创业公司而言,这个未来充满了机遇。团队认为,最大的机会在于构建垂直领域的工作流工具。“我们看到许多创意领域的人,以一种他们必须使用四个单独的工具才能完成的方式,跨越LLM、图像、视频和音乐进行工作,” 布里克托娃指出。无论是为创意人士、咨询顾问还是金融销售,打造整合了多种AI能力的、针对特定工作流程的应用层产品,将是创业公司可以深耕的广阔领域。
结语:捕捉想象力的时代
从一个有趣的内部代号,到一个能够帮助儿子理解父亲化学研究的温情工具,再到一个预示着通用多模態AI未来的技术里程碑,Nanobanana的故事最终回归到一个最核心的价值。正如布里克토娃在访谈开始时所说:“在某种程度上,就像相机在变得非常普及的时候让任何人都能捕捉现实一样,你也在捕捉人们的想象力。” 随着AI工具变得越来越强大和易于使用,我们正进入一个新时代——在这个时代,技术不再仅仅是记录现实的工具,更是将每个人心中独特的想象力变为现实的画笔。
天空之城全文整理版 开启想象:Nanobanana的创意应用与技术愿景
Hansa Srinivasan: 视觉媒体的某些特质确实能让人感到兴奋。就像有趣的事物一样,但它不仅仅是有趣。它是令人兴奋的。它是直观的。视觉空间在很大程度上是我们人类体验生活的方式,我认为我喜欢它如此打动人心。
Nicole Brichtova: 我认为我们现在真的有可能讲述你从未能讲述的故事。并且在某种程度上,就像相机在变得非常普及的时候让任何人都能捕捉现实一样,你也在捕捉人们的想象力。就像,你正在给他们工具,让他们能够以一种他们以前无法做到的方式,将他们大脑中的东西以视觉形式呈现在纸上,因为他们没有工具或者不了解工具的知识。就像,这真的很棒。
红杉Sonya: 今天我们与妮可·布里克托娃和汉莎·斯里尼瓦桑对话,她们是谷歌 nanobanana 图像模型背后的团队,该模型最初只是凌晨 2 点的代码名称,后来已成为一种文化现象。他们带领我们了解了实现单图像角色一致性的技术飞跃,高质量数据、长多模态上下文窗口和严谨的人工评估如何从单张照片中实现可靠的角色一致性,以及工艺和基础设施为何与规模同等重要。我们讨论了推动前沿与广泛可及性之间的权衡,以及这项技术的发展方向、多模态创作、个性化学习以及将细粒度控制与放手自动化相结合的专用用户界面。最后,我们将探讨实现真正通用人工智能仍然缺少什么,以及初创公司现在应该在哪些空白领域进行建设。祝您观看愉快。
红杉Stephanie Zhan: 妮可和汉萨,非常感谢今天能加入我们。我们很高兴来到这里,更多地聊聊nanobanana,它已经风靡全球。我们认为可以从一个有趣的问题开始。使用nanobanana,你们自己创造了一些什么作品,或者你们从社区里看到了哪些最具创意的作品?
Hansa Srinivasan: 是的,所以我想对我来说,我看到的最令人兴奋的事情之一是,我没有想到,但事后看来这是非常明显的,就是与视频模型结合使用,以获得真正一致的跨场景角色和场景保留。目前的工作流程有多流畅?做那件事有多难?所以我看到的情况是,人们真的在混合使用各种工具,并使用来自不同来源的不同视频模型。所以我认为它可能不是很流畅。我知道有一些产品试图与多个模型集成,以使其更流畅。但我认为我看到的在nanobanana发布前后的视频差异非常显著。而且更加、更加流畅。也更像你希望在视频创作过程中,场景切换感觉很自然。所以这很酷。而且我不知道为什么我没有完全意识到人们会立刻这么做。但是,是的。
Nicole Brichtova: 我最喜欢的,也是我没想到的一个方面是,人们如何破解模型,用它来学习新事物或消化信息。上周我遇到了一个人,他一直在用它来为各种主题创建草图笔记。这很令人惊讶,因为技术,渲染并不是我们想要的那样,但这个人已经破解了,就像那些大规模的提示一样,让模型输出一些连贯的东西,他用它来试图理解他父亲正在做的工作,他父亲是大学里的化学家,这是一个超级技术性的话题,所以他一直在用nanobanana将他父亲的讲座输入给Gemini,然后得到这些非常连贯且视觉上易于理解的草图笔记,而且我认为这是几十年来的第一次,他们能够互相交流他父亲的工作,这真的很有趣,也是我没想到的。
Hansa Srinivasan: 是的,我认为人们真的在努力解决,你知道,这个模型很棒,但显然它并不完美。我们有很多想要改进的地方,而且我认为人们找到与模型合作的方式,以我们没有预料到的方式,并以我们没有预料到的方式向模型提供输入,以发挥最佳性能并解锁这些令人难以置信的东西,这让我感到震惊。
“哇,这真是我!”:Nanobanana的灵光乍现时刻
红杉Pat Grady: 你们在构建它的时候,有没有那么一个时刻,像是灵光一现的时刻,你们感觉,哇,这东西会相当不错?
Nicole Brichtova: 我们刚刚讨论过这个。
红杉Pat Grady: 是的,我想妮可有那个灵光一现的时刻。
Nicole Brichtova: 我有过一次,所以我们总有一个内部演示,在我们开发模型的时候用它们来玩。我有过一次,我只是拍了一张自己的照片,然后我说,比如,嘿,把我放在红地毯上,全身盛装,完全是虚荣的提示,对吧?然后它出来了,看起来像我。然后我把它和我们之前的所有模型进行了比较。没有其他模型真正像我。我当时非常兴奋。哇。然后人们看了看,他们说,好吧,是的,我们明白了。就像你走在红地毯上一样。然后我认为过了几个星期,其他人也能自己拍照并尝试使用它,并且开始意识到当它能正常工作时是多么神奇。这就是人们一直在用这个模型做的主要事情,对吧?将你自己变成一个3D小雕像,就像你想要一台电脑,你想要一个玩具箱,然后你作为小雕像,像那样三次,这样就能以新的方式表达自己和看到自己,几乎像是增强了自己的身份,这真的很有趣,对我来说,就像,天哪,这太棒了。纳米香蕉在红地毯上对你所做的事情,比其他人做的要好得多的是什么?它看起来像我。而且你很难判断你不认识的人的脸上的性格一致性。是的。所以如果我看到,你知道,你的一个版本,就像你的一个AI版本,我可能会接受它。但你会说,哦,不,你知道,我脸上的某些部分不太对劲。而且你真的只能在自己身上做,这就是为什么我们现在在许多团队成员身上都有进化,就像他们自己的脸,并且他们正在看着模型输出的带有他们自己脸部的结果。因为这真的是你判断某人是否长得像你的唯一方法。
Hansa Srinivasan: 你自己,就像你熟悉的面孔。我觉得就像我们开始自己做这件事的时候,我经常看到妮可。所以,就像妮可和我们可能评估的随机的人相比,对吧?在判断模型能力方面,这简直是天壤之别。
一致性的秘诀:数据、工艺与Gemini的力量
红杉Pat Grady: 是的,我认为这是非常有趣的一件事,即身份的保留对于这些模型真正发挥作用和令人兴奋至关重要,但你知道,这出人意料地棘手,这就是为什么我们看到很多其他模型做得不太好的原因。我想问你,我认为角色一致性不仅仅是规模涌现的属性,所以也许有两个问题,一,我确定有些东西你不能告诉我们,但你能告诉我们关于你是如何实现它的,然后二,这是在开发这个模型时的一个明确目标吗?
Hansa Srinivasan: 是的,我想说,我的意思是,是的,我认为这里肯定有些事情很难说,但我会说,有不同类型的图像生成方法。因此,这肯定在它的好坏程度上发挥作用。我认为这绝对是从一开始就有的目标。
Nicole Brichtova: 这绝对是一个目标,因为我们知道这是我们过去发布的模型的一个差距。而且通常对我们来说,一致性是一个目标,因为每次你编辑图像时,比如,你想保留其中的一些部分,然后你想改变一些东西,但之前的模型在这方面做得不太好,这使得它在专业工作流程中不是很有用,而且对于诸如角色一致性之类的事情也没什么用处。我们多年来一直听到这种声音,甚至来自那些试图宣传他们产品的广告商,比如把他们的产品放在生活方式的照片中,它必须百分之百看起来像你的产品,否则你就不能把它放在广告中,所以我们知道有这样的需求,我们知道模型存在差距,而且我们觉得我们有正确的配方,无论是在模型架构还是在数据方面,最终使之成为可能。我认为让我们感到惊讶的是,当我们最终构建模型时,它竟然如此出色。
Hansa Srinivasan: 是的,没错。因为我认为我们感觉我们已经完全掌握了配方,正如妮可所说,但在你看到模型、完成训练、实际使用它之前,总是存在一些不确定性。你不知道你离那个目标有多近。我认为我们对此都感到惊讶。是的,我认为另一件事是,如果我们考虑人们对编辑的期望,当你在手机应用程序或Photoshop上编辑时,你期望对你没有触及的东西进行高度的保留。而且根据模型的制作方式以及它们背后的设计决策,这非常棘手。但这是人们真正喜欢的,就像,它是那种事情,即使对于使用这些模型的普通人来说,也会觉得编辑功能应该是最基本的,但实际上它在技术上却出乎意料地困难。就像你不会去碰那些你不想被碰的东西。
红杉Pat Grady: 是的。回到你在红地毯上看到自己的那一刻,哇,那真的是我。你的一些同事花了几个星期才获得同样的体验,因为他们用自己的照片进行了尝试。问题超越了“嘿,那真的是我”这种定性测试。是否可以进行某种评估,使其定量化,从而得知我们已经实现了我们最初设定的目标?
Hansa Srinivasan: 是的。所以我实际上认为,面部一致性,正是因为这个原因。正如妮可所说,这非常困难。其他人很难做到。我想说的是,总的来说,我们发现图像生成尤其为我们解锁了很多东西,比如人工评估非常重要。我认为它们是基础性的。我们有一个团队,致力于帮助我们构建良好的工具和实践,用于评估以及让人类实际评估这些非常微妙的东西。比如,如果你考虑图像生成,比如人脸、审美质量,这些都是很难量化的东西。所以我认为人类评估对我们来说是一个巨大的变革因素。
Nicole Brichtova: 我认为这绝对是,我认为这是人类评估、不同人员对模型结果进行非常技术性的“眼球评估”的结合。还有社区测试。当我们进行社区测试时,我们从内部开始。我们有谷歌和Google Define的艺术家来使用这些模型。我们的高管也会使用这些模型,我认为这真的有助于构建关于“为什么这个模型实际上很棒”的定性描述,因为如果你只看定量基准,你可能会说“哦,它比我们之前的模型好10%”,但这并不能完全理解那种情感方面的影响,比如“哦,我现在可以用新的方式看到自己,或者我现在终于可以编辑我五岁时剪掉的这张家庭照片了,我可能不应该剪掉它,但人们确实这么做了,然后我能够修复它”。我认为你真的需要这种定性的用户反馈,才能讲述那种情感故事。
Hansa Srinivasan: 我认为这可能适用于许多通用人工智能和人工智能能力,但我认为在视觉媒体方面尤其如此,因为它非常主观,而如果你考虑数学、推理、逻辑推理等,你可以真正地将其建立在一个答案之上。因此,更容易拥有这些非常客观、自动化、量化的评估。
红杉Stephanie Zhan: 仅从某人的一个二维图像达到那种程度的角色一致性真的非常非常困难。你能稍微详细地介绍一下吗?是什么技术突破帮助你们达到了这种我们在其他任何地方都没有见过的角色一致性水平?我的意思是,我认为关键在于拥有良好的数据,这些数据可以教会模型进行泛化,对吧?
Hansa Srinivasan: 并且这是基于Gemini模型。是的。 这是一个多模态基础模型,已经见过大量数据并具有良好的泛化能力。我认为这有点像秘诀,对吧?就像你真的需要能够很好地泛化的模型,才能利用它来实现这一点,对吧?
Nicole Brichtova: 是的。而且我认为在像Gemini这样的模型中做这件事的另一个好处是,你还可以获得这种非常长的上下文窗口。比如,你可以提供一张你自己的图片,但你也可以提供多张。然后在输出端,你也可以跨多个回合进行迭代,并真正与模型进行对话,这在以前是不可能的,对吧?一两年前,我们还在用你的10张图片进行微调,而且实际上需要20分钟才能得到看起来像你的东西。这就是为什么它从来没有流行起来,从来没有在主流中流行起来,对吧,因为它太难了。而且你没有那么多自己的照片。这太费劲了。所以我认为这既是普遍的,就像Gemini变得更好一样。你受益于那种多模态上下文窗口,并且你受益于长输出以及在长时间对话中保持上下文的能力。然后你还可以受益于真正关注数据,专注于问题。我们很多变得擅长的事情都归结于团队里有一个人痴迷于让它们发挥作用。比如我们团队里有人痴迷于文本渲染,并告诉你更多。所以我们的文本渲染不断变得更好,因为那个人就是痴迷于这个问题。
Hansa Srinivasan: 是的。这不仅仅是投入大量数据,对吧?我认为非常重要的一点是,要关注细节和质量,以及你用模型所做的所有事情。在每个环节都有很多小的设计决策和决策点。我认为高质量的数据和选择对细节的关注非常重要。
Nicole Brichtova: 是的,这是技艺的部分。
Hansa Srinivasan: 是的,人工智能,我们很少谈论它,但我认为它非常重要。
Nicole Brichtova: 那么,开发并发布它的团队有多大?这需要一个村庄的力量。特别是考虑到我们在许多产品中切换发布,我认为有一个核心的建模团队,然后是我们在所有界面上的紧密合作者。当你把他们都放在一起时,很容易达到几十甚至数百人,但研究模型的团队要小得多。然后是那些真正让奇迹发生的人,我们有很多基础设施团队,他们优化了堆栈的每个部分,以便能够满足我们所看到的的需求,这非常棒。但说真的,为了交付它,我们开玩笑说这需要一个小国的人力。
从凌晨2点的代号到文化现象:Nanobanana的诞生与哲学
红杉Pat Grady: 当你构建类似的东西时,你是根据特定的人物角色或特定用例来构建的,还是更多地以能力优先的心态来构建的?然后一旦能力显现,你就可以将其映射到人物角色。
Nicole Brichtova: 我会说,两者都有一些。比如,在我们开始训练任何新模型之前,我们大概知道我们想要什么。它的能力以及一些设计决策,比如推理时它的速度有多快,这些也会影响你要追求的人物角色,是的,所以这个模型,因为它有点像一个对话式编辑器,我们希望它非常敏捷,因为如果生成需要一两分钟,你就无法真正与模型进行对话,这就是图像模型与视频模型相比的优势,你只需要等待那么久,所以从一开始,对我们来说,它感觉像一个非常以消费者为中心的模型。但显然我们也有开发者产品和企业产品,所有这些功能最终对他们都有用。但实际上,我们在消费者方面看到了大量的兴奋,这在我们之前的图像模型中从未有过,因为它非常敏捷,并且通过文本提示,可以非常容易地访问这些专业级的功能。这就是我们最初的出发点,但显然它最终在其他领域也很有用。
Hansa Srinivasan: 是的,我认为其中一个哲学上的差异是,就像之前我们一直在研究Imagine系列模型,它们是直接的图像生成。而且我认为这些Gemini图像生成模型中一个重要的哲学目标转变是,通用化是一种更基础的能力。所以我认为这里也有很多,就像有些事情,我们希望这个模型能够擅长于代表人物,让他们编辑自己的图像,并且看起来像他们自己,但我认为也有很多事情,是从拥有一个具备基础能力的模型的目标中涌现出来的,比如能够推理视觉信息。我认为让我感到惊讶的一件事,可以回应你早前的谈话,就是人们可以输入数学问题,比如一个数学问题的图画,然后让它渲染出答案,对吧?所以你可以输入一个几何问题,然后说,这个角是多少度?这是,这就是一个具备基础能力的模型涌现出来的能力,它同时具备推理能力、数学理解能力和视觉理解能力。所以我认为两者都有。
红杉Stephanie Zhan: 是的。 你能分享一下吗? 我只是好奇。了解Gemini驱动的nanobanana、VO,以及所有其他相关的产品和模型之间的家族映射和关系,这些产品和模型都受益于Gemini本身的泛化和规模,以及如何共同开发,以及接下来要将其带向何方的最佳方式是什么?
Nicole Brichtova: 我们的目标始终是构建能够完成所有这些事情的最强大的单一模型,对吧?它可以接收任何模态,并将其转换为任何模态。这就是北极星。我们显然还没有完全实现。因此,在实现目标的路上,我们有很多专门的模型,它们可以在特定领域为你带来出色的结果。例如,Imagen是图像生成的例子。Vio是视频生成和编辑的例子。因此,我认为我们都在开发这些模型,以推动该模态的前沿。你可以从中获得非常有用的输出,对吧?许多电影制作人正在使用Vio和他们的创作过程。但你也在学习很多东西,然后可以将其带回Gemini,从而使其擅长那种模态。我认为,图像总是略微领先,因为你只有一个帧,对吧?这在训练和推理时都更便宜。所以我认为你在图像中看到的很多发展,我预计会在6到12个月后在视频中看到。所以这始终是我们的目标。因此,我们有独立的团队来开发这些,然后我认为在图像方面,我们现在正朝着Gemini和那个单一最强大模型的愿景靠拢,我认为你会在其他一些模态中看到这一点,并且在此过程中,我们将发布这些体验,它们非常强大,并且在那种模态中非常令人兴奋,比如V-O-3非常棒,因为它将音频引入了视频生成,这是一种我们以前没有见过的G&E3非常棒,因为它让你能够实时地浏览一个世界,因此为了推动这个前沿,现在在一个模型中同时完成所有这些事情非常困难。因此,在某种程度上,这些专门的模型有点像试验场。但我预计,随着时间的推移,Gemini应该能够做到所有这些事情。
Hansa Srinivasan: 太有趣了。
红杉Pat Grady: 好的。我们得问问你关于名字的事。我怀疑这个名字在其中起到了一定的作用。这是一个了不起的产品。我怀疑这个名字给它带来了一些推动力,因为它非常容易记住而且非常独特。所以这是一个美好的意外,还是有某个富有创造力的天才知道这将是一个完美的名字?
Hansa Srinivasan: 这是一个美好的意外。我想很多人都知道,这个模型是在一个ILA码头上发布的,很多模型都是这样。其中一部分是你会给它一个代号。如果有人还没用过Alamarina,你可以输入你的提示。你会收到来自两个模型的回复。在公开发布之前,它们都有代号。我觉得就像是,我们得凌晨2点出去找人,而妮可,我们出色的项目经理,还有另一位项目经理叫尼娜,有人给她发信息说我们该给它起什么名字,她当时非常疲惫,筋疲力尽,她说这个名字是凌晨2点灵光乍现想到的。这是你吗?
Nicole Brichtova: 不是我,是我团队里的某个人给模型命名的,我不能居功。谁在工作?和妮可一起,我们的另一位项目经理。但真正棒的是,首先,这真的很有趣。我认为这真的很有帮助。是的。 它很容易发音。它有一个表情符号,这对于品牌推广至关重要。
Hansa Srinivasan: 她没有过度思考。
Nicole Brichtova: 在这个时代,但她没有过度思考。厉害的是,一旦上线,大家都接受了。我觉得这感觉非常谷歌,非常自然,最终看起来像是营销的天才之举。但实际上,这是一个美丽的意外。它就这样奏效了,人们喜欢它。所以我们顺势而为。现在,你知道的,到处都是香蕉。当你进入Gemini应用程序时,到处都是香蕉,我们这样做是因为人们抱怨他们进入应用程序后很难找到模型。是的。所以我们让它更容易了。
Hansa Srinivasan: 是的。是的,没错。我想公开场合人们都在说,纳米香蕉,纳米香蕉。我该如何使用nanobanana?我在谷歌共事的一个人问我,我该如何使用nanobanana?我说,就是Gemini。它就在那儿。只要问它要一张图片就行了,是的,但我觉得关键在于,我觉得谷歌一直拥有这种非常有趣的品牌形象,对吧?就好像它从一开始就不是一家以消费者为导向的公司,而且我觉得,利用人们对谷歌的这种印象,把它打造成一个有趣的地方、一家有趣的公司,并拥有这个有趣的名字,真的很好。这也算是一条通往实用的便捷途径,对吧?
Nicole Brichtova: 我觉得Nanobanana以及整个模型,还有你能用它做的事情,比如把自己放在红地毯上,做所有你小时候梦想的职业。这是一个非常有趣的切入点,但令人惊叹的是,一旦人们进入这个应用,开始使用Gemini,他们就开始用它来做其他事情。是的。然后这些事情就会在他们的日常生活中变得有用。比如你用它来学习和解决数学问题,或者你用它来了解其他事情。所以我觉得,稍微拥有一些乐趣,可能有时会被低估。
Hansa Srinivasan: 不仅在命名上,而且在我们构建的产品上也很有趣,因为它能让人们参与进来,让他们兴奋,然后帮助他们发现其他的东西,你知道这些模型在这方面很棒。是的,我认为其他用户,比如我的父母和他们的朋友都在使用它。我认为这是因为它有这样的声誉,它真的很简单,很有趣,尝试起来感觉没有压力,你尝试一下,就会觉得这实际上很容易操作,很容易使用,很容易互动,没有技术障碍。没有那种,你知道的,技术,我认为技术有时会让人们望而却步,尤其是现在的人工智能。是的。我认为聊天机器人的自然性已经打破了很多障碍,但可能对年轻人来说更是如此。是的。我认为这种乐趣,是的,我妈妈喜欢制作这些图像,玩得很开心,然后意识到她可以用它来删除图像背景中的人物,比如这些非常实际的事情,对吧?一开始很傻,后来变得非常实用。酷。然后人们可以用它来实现,实际上他们可以给你他们图表,或者帮助他们理解东西。所以我认为这里面也有一个很大的可访问性因素。
超越提示词:多模态、个性化与AI的未来交互
红杉Stephanie Zhan: 是的。接下来你们想往哪个方向发展?也许从模型和产品两方面来说?
Nicole Brichtova: 在产品方面,我认为有几个领域。就像在消费者方面一样,我仍然认为我们还有很长的路要走,才能让这些东西更容易使用,对吧?你会注意到,许多纳米香蕉提示语都长达100个字,人们实际上会进入并将它们复制粘贴到Gemini应用程序中,并且会努力使其工作,因为回报是值得的。但我认为我们必须跳过面向消费者的这个提示工程阶段,让事情真的很容易让他们使用。我认为在专业方面,我们需要进入更精确的控制、某种稳健性、像可重复性这样的特性,使其在实际的专业工作流程中变得有用。对。所以,是的,你知道,我们非常擅长编辑一致性和不改变像素,但我们还没有百分之百做到。当你是一名专业人士时,你需要百分之百做到,对吧?比如,你真的需要这种精确的,甚至可能是基于手势的控制,比如对帧中的每一个像素进行控制。所以我们肯定需要朝着这个方向前进。
然后我认为有一个我非常兴奋的总体方向,那就是可视化信息。所以我在开头提到的关于草图笔记的例子,以及有人通过使用纳米香蕉来解决这个用例,你可以想象能够对任何事情都这样做,对吧?很多人是视觉学习者。我认为我们还没有真正挖掘出大型语言模型在帮助你消化和可视化信息方面的潜力,无论哪种方式对你来说是最自然的,对吧?所以有时是一张图表,有时是一张图片,有时可能是一个短视频,对吧,你想了解你在生物课或其他类似课程中学习的某个概念。所以我认为这是一个全新的领域,我对此非常兴奋,这些模型变得更好,并且超越了你从这些模型中获得的95%的输出仅仅是文本的阶段,这很有用,但这并不是我们现在在现实世界中消费信息的方式。
Hansa Srinivasan: 这真的很有趣。
红杉Stephanie Zhan: 那么,在产品方面,你是否暗示你们可能想要垂直整合,并围绕它构建更多的产品?你是否也暗示了,随着时间的推移,你与其中一些模型交互的方式不仅仅是通过纯语言和提示,而是更多的用户界面?
Nicole Brichtova: 是的,是的。是的,我绝对认为聊天机器人是人们的一个简单切入点,因为你不需要学习一个新的用户界面。你只需要和它说话,然后说你想做什么,对吧?我认为它开始对视觉模式产生一些限制。而且我认为有很大的思考空间,比如,未来新的视觉创作画布是什么?你如何以一种不会让人感到压力过大的方式来构建它,对吧?因为随着这些模型能做的事情越来越多,这一点非常非常重要。很难向用户解释在一个非常开放式的事情中,约束是什么,以及你如何解决这些约束,以及你如何以富有成效的方式实际使用它。所以我真的很高兴人们朝着这些方向构建产品。对我们来说,你知道,我们在谷歌有一个名为 Labs 的团队,由 Josh Woodward 领导,他们做了很多这种前沿思维实验。
Hansa Srinivasan: 他们与我们密切合作,他们使用我们的前沿模型,思考娱乐的未来、创作的未来、生产力的未来是什么。
Nicole Brichtova: 因此,他们构建了像 Notebook L.M 和视频方面的 Flow 这样的产品。我很高兴也许 Flow 能够成为一个你可以进行一些创作,并思考未来它会是什么样的地方。
Hansa Srinivasan: 我认为在短期内,很明显,你知道,这个模型有一些它不擅长的事情。所以在短期内,它显然应该每次都按照你期望的方式工作,而不仅仅是很多时候,并且真正使其无缝衔接。并且,并且,并且,修复所有这些小问题,这些问题只是在性能上稍微有些不一致。我认为长期来看,妮可已经涵盖了这一点,对我来说,为了真正实现丰富的多模态生成,这是必要的。所以现在,如果你让 Gemini 解释一些事情,它通常只会用文字解释,除非你要求它提供图像。但是如果你想想在过去 10 年、20 年里真正兴起的学习平台,比如我们想到可汗学院是在 YouTube 上起家的,我们想到维基百科有很多图片,如果你查找任何数学相关的东西,它都非常注重图片,比如图表等等,所以这应该成为更自然的流程的一部分,以及你使用这些模型的方式的一部分,并且要从建模的角度来实现这一点,它又回到了我们之前谈到的多模态理解和模态之间的无缝泛化。
Nicole Brichtova: 也许另一个有趣的领域是,当我们考虑这些模型在主动拉取代码、图像或视频等方面更加积极主动时,当它适合用户意图时,我认为这是另一个令人兴奋的一年,我的职业生涯是从顾问开始的。所以很明显,我在我的职业生涯中制作了很多幻灯片。我现在还在做。我认为在某些使用场景中,你实际上并不想深入到创作的细节中。就像你真正想要的是,比如说你要向你的利益相关者汇报一个项目的进展情况,对吧?你想要引入一些内容。上下文,也许是会议记录,也许是几个要点,也许是你过去创建的其他演示文稿。然后你可能只是想让 Gemini 去完成所有的工作,对吧?比如把那个演示文稿整理好,格式化,创建合适的视觉效果,让它更容易理解。这件事你可能不想参与,它更多地涉及到这些代理行为,而不是我认为对于某些创意工作流程,比如你实际上想进行创作,你想深入细节,你想考虑一下什么样的用户界面能让用户更容易实现目标。所以,如果我正在设计我的房子,而且我真的很喜欢设计我的房子,那么我可能实际上想玩一玩,玩一玩纹理和不同的颜色,以及如果我移除这堵墙会发生什么。
Hansa Srinivasan: 所以我认为存在这样一种范围,从非常放手,比如让模型自行寻找,为测试提取相关的视觉材料,一直到如何真正让一个创意过程更有趣,并消除繁琐的部分,消除我们今天拥有的工具所存在的技术障碍。这就像是给予用户细粒度的控制,就像他们想要的精确控制,但在另一个极端,也要让模型能够理解用户的需求并进行预测,对吧,就像理解需求和它应该达成的结果,并在两者之间完成所有介入的工作。
Nicole Brichtova: 这几乎就像你今天真正聘请一位专业人士来做某事一样,对吧?就像你聘请一位设计师,你给他们一个规范,然后他们离开,然后他们完成他们所做的所有了不起的工作,因为他们拥有所有的专业知识。因此,这些模型应该能够做到这一点,但它们在今天的许多领域还无法真正做到这一点。
责任与机遇:在AI新纪元中导航安全、创业与社会影响
红杉Pat Grady: 你认为在这个世界里,下一个竞争的战场是什么?
Nicole Brichtova: 我认为在使这些模型更具能力方面还有很多工作要做。因此,拥有一个单一的模型,它可以接受任何东西并将其转换为任何其他东西,我认为还没有人真正弄清楚这一点。但我确实认为,为了真正推动采用,可能需要两件事:一是用户界面,比如我们仍然非常依赖聊天机器人,我们已经讨论过这一点,它对某些事情很有用,也是一个很好的切入点,但它可能并不适用于所有事情。所以我认为开始更深入地思考用户是谁,他们试图做什么,技术如何才能有所帮助,然后围绕它构建什么样的产品来实现这一点,这可能是一个方面。
Hansa Srinivasan: 你认为从现在起五到十年,前沿技术的发展速度会像过去几年这么快吗?
Nicole Brichtova: 从现在起五到十年,感觉就像从现在起20年一样。仅仅是这个领域,你们可能也看到了,这个领域发展得非常快。而且,你知道,如果你在两年前问我,我会告诉你这个领域发展得非常快。如果你今天问我,我会告诉你它比两年前发展得更快。
红杉Pat Grady: 好的,我要问你一个非常不同的问题。我知道谷歌非常非常谨慎,非常关心深度伪造之类的事情。我不得不想象,当你们看到这个模型有多强大时,肯定会有一场关于“好吧,我们如何确保人们不会以错误的方式使用它?”的大讨论。在谷歌内部,这种讨论是如何进行的?你们对最终的结果感到满意吗?
Nicole Brichtova: 我认为这是一个不断发展的领域,也是因为它是这种混合体。你想给予人们创造性的自由,以便能够使用这些工具,对吧?你想让用户能够以一种不感到过于受限的方式使用这些工具。你想阻止最严重的危害,对吧?我认为这始终是我们花费大量时间讨论的平衡点。显然,当你查看模型的输出时,会有一个可见的水印,说明它是用 Gemini 生成的。 这立即表明它是人工智能内容。而且,在我们用我们的模型生成的每一个输出中,无论是图像、视频,还是音频,都有嵌入的 synth ID,这是一种隐形水印。这些就是我们验证内容是人工智能生成的可见或不可见的方式。我们对此投入了很多,而且,你知道,我们认为给用户提供这些工具,让他们能够理解他们所看到的东西不是真实的视频或图像,这一点非常重要。显然,当我们开发这些模型时,我们会进行大量的内部测试,以及与外部合作伙伴进行测试,以便随着模型变得越来越强大,找到新的攻击途径,对吧?就像你必须缓解的新方法。因此,这对我们来说是模型开发非常重要的一部分。我们继续投资,并且随着模型变得更好,以及你可以用它们做新的事情,我们还必须开发新的缓解措施。或者确保我们不会造成伤害,而且仍然给予用户创造力和控制权,以便在产品中使用这些模型。
Hansa Srinivasan: 我的意思是,我认为这是一个非常非常难实现的平衡,对吧?因为你总会有人真诚地使用一个工具。你也总会有人恶意地使用它。我认为这很难。就像,它是一个工具吗?它是否承担责任?所以我认为我们对此非常重视。用户显然也要对自己使用模型所做的事情负责,但合成ID确实是一项重要的技术,它让我们能够像这样将这些能力发布给人们,并且有信心我们仍然可以进行验证,对吧,并且拥有对抗虚假信息风险的工具。但这是一个非常棘手的问题,我认为我看到每个人都非常重视它。关于如何平衡两者,有很多很多的讨论。
红杉Stephanie Zhan: 这现在是整个行业的标准吗?合成ID,是的。这是谷歌的标准。
Hansa Srinivasan: 我相信每个谷歌的产品,比如想象一下Imagine系列,当你以任何产品形式使用它们时,它们都带有合成ID。
红杉Pat Grady: 好的,你告诉我们,我们不能展望5到10年后的情况,因为事情变化太快了。我们展望1到3年后的情况。
Hansa Srinivasan: 谢谢。
红杉Pat Grady: 两个问题。第一,今天我们只能梦想的事情,未来会变成什么可能?第二,由此产生的改变会对我们所有人的生活方式造成什么影响?
Nicole Brichtova: 我真的希望一两年后,我们就能拥有个性化的导师,某种程度上,也能拥有个性化的教科书,对吧?喜欢。如果我们有不同的学习方式,没有理由你我应该学习同一本教科书。和不同的起点,但这就是我们现在所做的,对吧?这就是我们的学习环境的设置方式,我认为在所有这些突破中,拥有一个可以了解你的学习风格的LLM导师,以及你喜欢的东西,这应该是非常有可能的。也许你喜欢篮球,所以我需要用篮球类比来向你解释物理学,对吧?嗯,所以我对学习变得更加个性化感到非常兴奋,而且感觉这非常容易实现。显然,我们必须确保我们不会产生幻觉,并且要对事实的准确性有很高的要求。因此,我们需要扎根于现实世界的内容。但这才是真正让我兴奋的地方。我认为这实际上消除了人们的许多障碍,正如你所问的影响将会是什么。我认为它会变得更加容易,基本上以一种为你量身定制的方式学习任何东西,这是你现在无法做到的。
红杉Pat Grady: 这会是谷歌的产品界面吗?
Nicole Brichtova: 应该有人研究一下。
Hansa Srinivasan: 是的,而且我认为它会改变我们的生活和工作方式。我认为我们,我认为研究这些技术,我已经看到了它如何极大地改变我们的工作方式,因为我们显然经常使用它们。我要结婚了。我们用我们的模型制作了婚礼预告。所以,我真正认为我们会看到的是,而且仅仅是工作,数量,部分原因,我认为创新加速的原因是我们有这些模型,你有像代码辅助这样的东西,你只需要,你可以使用模型来过滤东西以分析大量数据。比如它极大地提高了我们自己的工作流程。就像我今年能做的事情和两年前相比,工作量简直增加了一个数量级。我认为这是真的。对于科技行业而言。对于很多其他行业来说并非如此,仅仅是因为这种集成尚未融入到他们的工作流程或工具中。所以我认为有些人会想,哦,它会取代我。但至少我所看到的是,它实际上仅仅改变了个人能够完成的工作量。这对企业或经济意味着什么,我不太确定。但我认为这意味着我们将看到人们更有能力在相同的时间内完成更多的工作。比如,也许你不需要,你知道,我有些朋友在咨询行业,花费大量时间。他们说,我只是花费大量时间,比如两个小时制作幻灯片,进行调整。
红杉Pat Grady: 移动logo。
Hansa Srinivasan: 而且,希望他们不必再做这些。他们实际上可以花时间思考幻灯片的内容应该是什么,与客户合作。我认为那应该是我们在一到两年内将会看到的。
红杉Stephanie Zhan: 鉴于你在这些能力中看到的轨迹,你认为有哪些有趣的领域是初创公司应该进入,而谷歌本身可能不会进入的?
Nicole Brichtova: 我认为有很多空间,即使仅仅在创意工具中也是如此。我认为人们有很多空间可以弄清楚,未来的用户界面会是什么样子?比如,什么是创造性的控制?如何将一切结合在一起?我们看到许多创意领域的人,以一种他们必须使用四个单独的工具才能完成的方式,跨越LLM、图像、视频和音乐进行工作。就像很多人使用LLM进行构思一样,对吧?比如给我一些概念,或者用我已有的想法。一旦你对这些感到满意,你就可以把它交给图像模型,开始思考我希望在视频中出现的关键帧,你会在那里花大量时间迭代,然后你再把它交给视频模型,那是另一个层面。然后在某个时候,你想要加入声音和音乐,并把它们混合在一起。然后你实际上可能想要做一些粗略的编辑,然后你就会用到一些传统的软件工具。感觉上,这些基于工作流程的工具可能会在许多不同的垂直领域涌现。所以创意活动只是其中的一个例子,但也可能有一个是针对顾问的,这样你就可以更高效地制作幻灯片、演示文稿和向客户进行宣传的演示稿。所以我认为那里有很多机会,你知道,有些公司可能不会涉足。
Hansa Srinivasan: 是的。有很多类似“我们如何让这项技术对X工作流程有用”的问题,对吧?比如销售、金融,就像我说了许多我不太了解的公司里的事情,比如财务工作流程,但我认为有很多任务可以自动化,可以变得更加高效。是的。而且我认为初创企业处于有利地位,可以真正地去了解特定客户的用例需求,即利基市场需求,并完成应用层的工作,而不是像我们一样真正关注的。是基础技术。
捕捉想象力:技术如何触动人心
Hansa Srinivasan: 我想我只是对如此多的人对这个模型感到兴奋感到非常激动。如果这有意义的话,就像我生活中的很多人,像很多阿姨、叔叔、我的父母、朋友,他们都使用过聊天机器人。他们会问它问题。他们获取信息。我妈妈喜欢向聊天机器人询问健康信息。但视觉媒体有一些特别之处。这真的让人们兴奋。这就像有趣的事情,但不仅仅是有趣。这令人兴奋。这很直观。视觉空间在很大程度上是我们人类体验生活的方式,我认为我喜欢它如此触动人心。比如情感上,兴奋度上,我觉得这是这件事对我来说最令人兴奋的部分。
红杉Stephanie Zhan: 我的孩子们喜欢它。是的。我三岁的儿子把我们的狗链,就是那种磨损的。你知道的,棕色的绳子,像战士一样绑在自己身上,我给他拍了张照片,把他变成了战士超人,是的是的,让他感觉自己像超人一样,是的,我丈夫会读书,他用谷歌故事书给他读这些关于他在学校学到的教训的故事,你知道,如果他在操场上和另一个孩子发生了什么事,或者在适应一所新学校,它已经创造了我,我的丈夫,我和我们的狗和女儿的这些角色,在这些有趣的故事和我们试图教给他的课程中,就像你谈到的个性化一样。所以我真的很喜欢这个未来。这将与我的成长经历完全不同。
Nicole Brichtova: 这太棒了,对吧?因为这是一个故事,你知道,为了你永远不会创造出的一个人或五个人,对吧?就像,其他人可能不想读它。如果你想的话,我很乐意。是的。但我认为我们现在真的有可能讲述你过去永远无法讲述的故事。并且以某种方式,就像相机在变得非常容易获得时允许任何人捕捉现实一样,你也在捕捉人们的想象力。就像你给了他们工具,让他们能够以一种他们以前无法做到的方式,将他们脑海中的东西以视觉的方式呈现在纸上,因为他们没有工具或者他们不了解工具。就像那真的太棒了。
红杉Pat Grady: 这是个不错的说法。
Nicole Brichtova: 非常感谢。谢谢你们邀请我们。
红杉Stephanie Zhan: 很高兴你们来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.