网易首页 > 网易号 > 正文 申请入驻

谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

0
分享至

新智元报道

编辑:犀牛

【新智元导读】谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术,分享了「猫神经元」等早期AI突破的背后故事,还大胆畅想了AI处理万亿级别Token、实现「1000万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文,今天的AI会是什么样子?

Jeff Dean,谷歌的首席科学家,和Transformer的作者Noam Shazeer,最近在一场深度访谈中,不仅回顾了AI发展的关键时刻,还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE架构的内幕,甚至讨论了如何让AI模型处理整个互联网的信息!

访谈内容十分丰富,看点十足。

低精度让模型快三倍

「最近,我感觉基于通用CPU的机器扩展性不如以前了。」Jeff说。

他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来20到10年前那么大的提升。

但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的C++代码,比如运行Microsoft Office这类任务的计算大不相同。

可以说,算法正在跟随硬件的发展。Noam表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。

正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是N立方次的运算和N平方字节的数据传输。」Noam说。

对此,Jeff表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU和GPU并不特别适合深度学习。」

后来,谷歌开始打造TPU,这些TPU其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。

就像拉里·佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。

然后,接下来要改变的是什么?算法、数据流,等等。Jeff继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff说到。

从TPUv1开始,当时他们甚至不确定能否使用8位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。

随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用INT4或者FP4。

「如果20年前你告诉一个超级计算浮点数专家,我们要使用FP4,他一定会觉得那太疯狂了。」Jeff说,他们喜欢64位的浮点数。

Jeff说到,「一些人正在将模型量化到2位或1位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」

扩展神经网络确实有效

当Jeff被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff回忆起在Brain团队早期的时候。

那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。

当时,他们的数据中心没有GPU,只有CPU。但是他们知道如何让大量的CPU一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在2000台计算机上运行,使用了16000个核心进行训练。

不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」

随后,他们在监督学习的ImageNet 20000类别挑战中获得了非常好的结果,相对于之前的技术,提升了60%的性能,这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了50倍,并且得到了很好的结果。

所以这让Jeff有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。

想办法处理数万亿token

谈到长上下文问题时,Jeff表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」

Jeff表示,他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的token上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在Transformer中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前,我们有能够处理数百万token上下文的模型,这已经相当多了。Jeff表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」

但是,如果模型能够处理数万亿的token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff说。

但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的token,更不用说让它直接处理数万亿的token了,这是不可能的。

因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的token,数万亿token的方法。

也许可以将所有Google代码库放入每个Google开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了AI安全性的深层领域:如果AI系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?

主持人进一步设想了一个场景:假设一个AI获得了与Jeff或Noam相当、甚至超越他们的编程能力。

在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前AI安全研究的核心关切——目目标对齐(Goal Alignment)问题。即如何确保AI系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。

对此,业界存在两种极端的观点:灾难论(Catastrophism),认为AI系统在各方面都将远超人类,最终可能导致人类被AI压制或取代。乐观论(Optimism), 认为AI系统将带来巨大的福祉,无需过分担忧其潜在风险。

对此,Jeff表示,他的立场介于这两种极端观点之间。他虽然对AI的潜在风险保持警惕,但并未表现出极度的担忧。

这种审慎乐观的态度,反映了当前AI领域许多专家对AI安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对AI的未来发展保持信心。

1000万倍工程师

在访谈中,两位专家深入探讨了AI发展所面临的关键挑战与巨大机遇。

Jeff预测,随着AI聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有10%到20%的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI技术的快速发展也伴随着潜在风险。Jeff Dean强调:「我们需要警惕AI可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保AI的安全可控。」

Noam认为,AI领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前AI的发展态势预示着未来在GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明AI有潜力成为推动社会进步的重要引擎。

接着,Jeff提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使AI助手的能力提升5到10个点,那么企业是否愿意为实现「10倍工程师」、「100倍工程师」甚至「1000万倍工程师」的生产力跃升而加大投入?

这一设问揭示了AI在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean和Noam Shazeer的对话,让我们看到了AI技术发展的无限可能。

从让模型快三倍的低精度计算,到处理数万亿token的长上下文挑战,再到对AI安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。

正如Jeff所说,他并不完全担心AI的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。

参考资料:

https://www.youtube.com/watch?v=v0gjI__RyCY

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“看站姿就不像当过兵的!”家长炫耀特种兵儿子,败露后惨遭打脸

“看站姿就不像当过兵的!”家长炫耀特种兵儿子,败露后惨遭打脸

妍妍教育日记
2026-04-02 12:29:05
触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

触目惊心,大学生正在沦为最廉价劳动力,教育初心何在?

宏哥谈商道
2026-04-18 19:00:03
1949年,解放军打开马鸿逵的仓库,全都愣住:里面是1286公斤羊毛

1949年,解放军打开马鸿逵的仓库,全都愣住:里面是1286公斤羊毛

野史日记
2026-04-18 21:00:03
曼联错过切尔基:天才少年的反向选择

曼联错过切尔基:天才少年的反向选择

绿茵狂热者
2026-04-21 02:24:58
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
63岁富豪斥资9亿斩断婚姻,娶女秘书生双胞胎,最终落得凄惨下场

63岁富豪斥资9亿斩断婚姻,娶女秘书生双胞胎,最终落得凄惨下场

青橘罐头
2026-04-20 17:09:04
24岁外卖小哥被判死刑,3名家属索赔300万,外卖小哥:我只是想活着

24岁外卖小哥被判死刑,3名家属索赔300万,外卖小哥:我只是想活着

罪案洞察者
2025-11-12 13:39:24
一个重磅数据刷屏:广东人口已达1.65亿,新时代的"孔雀东南飞"上演

一个重磅数据刷屏:广东人口已达1.65亿,新时代的"孔雀东南飞"上演

市井大实话
2026-04-20 11:00:49
为什么想念局座,讨厌李莉?

为什么想念局座,讨厌李莉?

雪中风车
2026-03-19 22:03:17
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
4月20号收评:沪指逼近4100点!所有人都注意,大盘后市或这样走

4月20号收评:沪指逼近4100点!所有人都注意,大盘后市或这样走

春江财富
2026-04-20 15:22:16
中国禁硫酸出口,全球农业震荡,第一次看到了日本的穷

中国禁硫酸出口,全球农业震荡,第一次看到了日本的穷

月满大江流
2026-04-20 18:06:06
字越少,事越大,国安部点名日本间谍,它们还玩着131年前的套路

字越少,事越大,国安部点名日本间谍,它们还玩着131年前的套路

贱议你读史
2026-03-28 17:03:36
“霍尔木兹决战”,枪声又响了

“霍尔木兹决战”,枪声又响了

中国新闻周刊
2026-04-20 18:00:50
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-04-20 19:09:36
山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

山东一男婴日夜啼哭,母亲掀开被子后,将月嫂当场掐死

罪案洞察者
2025-03-31 09:35:41
“把列车当自家客厅!”网友称买商务座遇几人打牌喧闹,12306回应

“把列车当自家客厅!”网友称买商务座遇几人打牌喧闹,12306回应

潇湘晨报
2026-04-20 17:22:03
克林顿表示,如果中国成为新的世界领导者,希望能对美国手下留情

克林顿表示,如果中国成为新的世界领导者,希望能对美国手下留情

安安说
2026-04-18 11:13:29
一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

一年亏损四千万,全国陷“关停潮”,曾经的金饭碗如今正惨遭抛弃

凉了时光人
2026-03-30 18:50:52
惊人的两倍电力鸿沟,让所有制裁成了笑话

惊人的两倍电力鸿沟,让所有制裁成了笑话

李荣茂
2026-01-20 08:45:13
2026-04-21 03:55:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15021文章数 66791关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

时尚
艺术
家居
本地
公开课

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

艺术要闻

沙特官宣:全球最大单体建筑,延期十年!网友:又是画饼?

家居要闻

自然慢调 慢享时光

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版