谷歌AI掌门人Jeff Dean对话Transformer作者：AI提速300%，1000万倍工程师要来了|算法|编程|上下文|大模型|神经网络|jeff|谷歌ai

分享至

新智元报道

编辑：犀牛

【新智元导读】谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术，分享了「猫神经元」等早期AI突破的背后故事，还大胆畅想了AI处理万亿级别Token、实现「1000万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文，今天的AI会是什么样子？

Jeff Dean，谷歌的首席科学家，和Transformer的作者Noam Shazeer，最近在一场深度访谈中，不仅回顾了AI发展的关键时刻，还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE架构的内幕，甚至讨论了如何让AI模型处理整个互联网的信息！

访谈内容十分丰富，看点十足。

低精度让模型快三倍

「最近，我感觉基于通用CPU的机器扩展性不如以前了。」Jeff说。

他表示，制造工艺的改进现在需要三年时间，而不是以前的两年。多核处理器等架构改进也没有给我们带来20到10年前那么大的提升。

但是，同时我们看到了越来越多的专用计算设备，比如机器学习加速器、TPU，以及最近的专注于机器学习的GPU，它们让我们能够在现代计算中获得非常高的性能和良好的效率，这些计算与传统的C++代码，比如运行Microsoft Office这类任务的计算大不相同。

可以说，算法正在跟随硬件的发展。Noam表示，现如今算术运算非常便宜，而数据传输的成本则相对还较高。

正是因为这一点，深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习，这实际上是N立方次的运算和N平方字节的数据传输。」Noam说。

对此，Jeff表示认同。他说，「我认为，向硬件转向的这一重要变化非常关键，因为在那之前，CPU和GPU并不特别适合深度学习。」

后来，谷歌开始打造TPU，这些TPU其实是低精度线性代数处理器，一旦有了这样的硬件，就需要充分利用它。

就像拉里·佩奇曾说的：「我们的第二大成本是税收，最大成本是机会成本。」在这种情况下，把这些算术单元填满！可以让算术运算的数量增加几个数量级。

然后，接下来要改变的是什么？算法、数据流，等等。Jeff继续说道，「哦，对了，算术运算的精度可以非常低，这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是，我们在量化或拥有更低精度模型方面变得越来越好。」Jeff说到。

从TPUv1开始，当时他们甚至不确定能否使用8位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的，于是他们就决定围绕这一点构建整个芯片。

随着时间的推移，大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用INT4或者FP4。

「如果20年前你告诉一个超级计算浮点数专家，我们要使用FP4，他一定会觉得那太疯狂了。」Jeff说，他们喜欢64位的浮点数。

Jeff说到，「一些人正在将模型量化到2位或1位，我认为这是一个明显的趋势。是的，量化确实有点烦人，但你的模型会快三倍，所以你得接受它。」

扩展神经网络确实有效

当Jeff被问到有没有在研究某个领域时，突然有了想法，并且有种「天啊，简直不敢相信这竟然成功了」的感觉时。Jeff回忆起在Brain团队早期的时候。

那个时候，他们专注于「看看能否构建一些基础设施，让我们能够训练非常非常大的神经网络」。

当时，他们的数据中心没有GPU，只有CPU。但是他们知道如何让大量的CPU一起工作。所以构建了一个系统，能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff表示，它采用了一种空间局部表示的方法，因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在2000台计算机上运行，使用了16000个核心进行训练。

不久之后，该模型实际上能够在最高层构建一个表示，其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫，但它在训练数据中看到了足够多的猫的正面面部视图，因此这个神经元会对这些图像产生反应，而对其他东西则不太敏感。」Jeff说，类似的，你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷，因为它是基于无监督学习原理，构建出这些非常高层次的表示。」

随后，他们在监督学习的ImageNet 20000类别挑战中获得了非常好的结果，相对于之前的技术，提升了60%的性能，这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了50倍，并且得到了很好的结果。

所以这让Jeff有了一种感觉，「嘿，实际上，扩展神经网络似乎是个不错的主意，看来确实有效，我们应该继续推动这一方向。」他说。

想办法处理数万亿token

谈到长上下文问题时，Jeff表示，「我们还没有完全做到，但我确实看到了在未来可实现的目标。」

Jeff表示，他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错，但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的token上进行了训练，并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中，也就是模型的输入中，信息是非常清晰明确的，因为我们在Transformer中有一个非常好的注意力机制。模型可以关注事物，并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前，我们有能够处理数百万token上下文的模型，这已经相当多了。Jeff表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频，或者这些内容的某种组合，这非常酷。」

但是，如果模型能够处理数万亿的token，那就太好了。它能否关注整个互联网并为你找到正确的内容？它能否为你处理所有个人信息？

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时，它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff说。

但这将是一个巨大的计算挑战，因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的token，更不用说让它直接处理数万亿的token了，这是不可能的。

因此，需要大量有趣的算法近似来实现的：一种让模型在概念上能够处理更多、更多的token，数万亿token的方法。

也许可以将所有Google代码库放入每个Google开发者的上下文中，将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中，主持人提出了一个极具挑战性和前瞻性的问题，将讨论引向了AI安全性的深层领域：如果AI系统偏离了预设目标，转而优化一些未知的、甚至可能有害的目标函数，将会产生怎样的后果？

主持人进一步设想了一个场景：假设一个AI获得了与Jeff或Noam相当、甚至超越他们的编程能力。

在这种情况下，如果该系统被恶意复制或自我复制，产生了数百万个具有顶级编程水平的「副本」，那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前AI安全研究的核心关切——目目标对齐（Goal Alignment）问题。即如何确保AI系统的目标与人类的价值观和预期目标保持一致，避免出现意外或有害的行为。

对此，业界存在两种极端的观点：灾难论（Catastrophism），认为AI系统在各方面都将远超人类，最终可能导致人类被AI压制或取代。乐观论（Optimism），认为AI系统将带来巨大的福祉，无需过分担忧其潜在风险。

对此，Jeff表示，他的立场介于这两种极端观点之间。他虽然对AI的潜在风险保持警惕，但并未表现出极度的担忧。

这种审慎乐观的态度，反映了当前AI领域许多专家对AI安全问题的主流看法：既要重视潜在风险，积极开展安全研究，也要对AI的未来发展保持信心。

1000万倍工程师

在访谈中，两位专家深入探讨了AI发展所面临的关键挑战与巨大机遇。

Jeff预测，随着AI聊天界面等应用的普及，计算资源需求将面临爆炸性增长。他指出：「目前可能只有10%到20%的计算机用户了解并使用这类交互式界面，但随着用户认知和应用场景的拓展，未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI技术的快速发展也伴随着潜在风险。Jeff Dean强调：「我们需要警惕AI可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此，在模型设计中必须尽可能内置防护和缓解措施，以确保AI的安全可控。」

Noam认为，AI领域并非零和博弈，其发展将带来广泛的社会效益。他乐观地预测：「当前AI的发展态势预示着未来在GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明AI有潜力成为推动社会进步的重要引擎。

接着，Jeff提出了一个引人深思的问题：如果每增加一倍的计算资源投入，就能使AI助手的能力提升5到10个点，那么企业是否愿意为实现「10倍工程师」、「100倍工程师」甚至「1000万倍工程师」的生产力跃升而加大投入？

这一设问揭示了AI在提升生产力方面的巨大潜力，可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean和Noam Shazeer的对话，让我们看到了AI技术发展的无限可能。

从让模型快三倍的低精度计算，到处理数万亿token的长上下文挑战，再到对AI安全性的深刻思考，这场访谈为我们描绘了一个激动人心的未来。

正如Jeff所说，他并不完全担心AI的「邪恶」版本，但我们仍需在技术发展的同时，保持对潜在风险的警惕。

参考资料：

https://www.youtube.com/watch?v=v0gjI__RyCY

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

谷歌AI掌门人Jeff Dean对话Transformer作者：AI提速300%，1000万倍工程师要来了

苹果刚涨价！预付款消费者就被要求补差价

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

德国足球，脸都不要了

黄晓明沦陷！羡慕周杰伦能降住昆凌

中东局势再添变数

奇瑞风云A9探店 五个理由一定来看看

态度原创

不是所有的老弟都叫老弟

今年首个1000万销量的游戏，居然让我锻炼视力？

狂吃“糯叽叽”小心肠梗阻！

爱马仕橙退场！iPhone 18 Pro红色款偷跑：年度爆款色预定

河南高考生成绩超本科线12分，省位次8.2万左右，这个志愿真难报

父母花20万为娃办借读发现准考证是假的孩子无缘中考

父母花20万为娃办借读发现准考证是假的孩子无缘中考

奇瑞风云A9探店五个理由一定来看看