网易首页 > 网易号 > 正文 申请入驻

谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

0
分享至

新智元报道

编辑:犀牛

【新智元导读】谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术,分享了「猫神经元」等早期AI突破的背后故事,还大胆畅想了AI处理万亿级别Token、实现「1000万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文,今天的AI会是什么样子?

Jeff Dean,谷歌的首席科学家,和Transformer的作者Noam Shazeer,最近在一场深度访谈中,不仅回顾了AI发展的关键时刻,还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE架构的内幕,甚至讨论了如何让AI模型处理整个互联网的信息!

访谈内容十分丰富,看点十足。

低精度让模型快三倍

「最近,我感觉基于通用CPU的机器扩展性不如以前了。」Jeff说。

他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来20到10年前那么大的提升。

但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的C++代码,比如运行Microsoft Office这类任务的计算大不相同。

可以说,算法正在跟随硬件的发展。Noam表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。

正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是N立方次的运算和N平方字节的数据传输。」Noam说。

对此,Jeff表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU和GPU并不特别适合深度学习。」

后来,谷歌开始打造TPU,这些TPU其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。

就像拉里·佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。

然后,接下来要改变的是什么?算法、数据流,等等。Jeff继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff说到。

从TPUv1开始,当时他们甚至不确定能否使用8位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。

随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用INT4或者FP4。

「如果20年前你告诉一个超级计算浮点数专家,我们要使用FP4,他一定会觉得那太疯狂了。」Jeff说,他们喜欢64位的浮点数。

Jeff说到,「一些人正在将模型量化到2位或1位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」

扩展神经网络确实有效

当Jeff被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff回忆起在Brain团队早期的时候。

那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。

当时,他们的数据中心没有GPU,只有CPU。但是他们知道如何让大量的CPU一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在2000台计算机上运行,使用了16000个核心进行训练。

不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」

随后,他们在监督学习的ImageNet 20000类别挑战中获得了非常好的结果,相对于之前的技术,提升了60%的性能,这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了50倍,并且得到了很好的结果。

所以这让Jeff有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。

想办法处理数万亿token

谈到长上下文问题时,Jeff表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」

Jeff表示,他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的token上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在Transformer中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前,我们有能够处理数百万token上下文的模型,这已经相当多了。Jeff表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」

但是,如果模型能够处理数万亿的token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff说。

但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的token,更不用说让它直接处理数万亿的token了,这是不可能的。

因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的token,数万亿token的方法。

也许可以将所有Google代码库放入每个Google开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了AI安全性的深层领域:如果AI系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?

主持人进一步设想了一个场景:假设一个AI获得了与Jeff或Noam相当、甚至超越他们的编程能力。

在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前AI安全研究的核心关切——目目标对齐(Goal Alignment)问题。即如何确保AI系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。

对此,业界存在两种极端的观点:灾难论(Catastrophism),认为AI系统在各方面都将远超人类,最终可能导致人类被AI压制或取代。乐观论(Optimism), 认为AI系统将带来巨大的福祉,无需过分担忧其潜在风险。

对此,Jeff表示,他的立场介于这两种极端观点之间。他虽然对AI的潜在风险保持警惕,但并未表现出极度的担忧。

这种审慎乐观的态度,反映了当前AI领域许多专家对AI安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对AI的未来发展保持信心。

1000万倍工程师

在访谈中,两位专家深入探讨了AI发展所面临的关键挑战与巨大机遇。

Jeff预测,随着AI聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有10%到20%的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI技术的快速发展也伴随着潜在风险。Jeff Dean强调:「我们需要警惕AI可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保AI的安全可控。」

Noam认为,AI领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前AI的发展态势预示着未来在GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明AI有潜力成为推动社会进步的重要引擎。

接着,Jeff提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使AI助手的能力提升5到10个点,那么企业是否愿意为实现「10倍工程师」、「100倍工程师」甚至「1000万倍工程师」的生产力跃升而加大投入?

这一设问揭示了AI在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean和Noam Shazeer的对话,让我们看到了AI技术发展的无限可能。

从让模型快三倍的低精度计算,到处理数万亿token的长上下文挑战,再到对AI安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。

正如Jeff所说,他并不完全担心AI的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。

参考资料:

https://www.youtube.com/watch?v=v0gjI__RyCY

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
温瑞博6-10逆转晋级 孙颖莎对手出现!张本智和狂轰11-1 户上输得最窝囊

温瑞博6-10逆转晋级 孙颖莎对手出现!张本智和狂轰11-1 户上输得最窝囊

好乒乓
2026-06-30 16:43:33
630G 机密外泄iPhone18 全套图纸从印度代工厂流出,苹果底牌全曝光

630G 机密外泄iPhone18 全套图纸从印度代工厂流出,苹果底牌全曝光

小兔子发现大事情
2026-06-30 00:34:50
解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

胖福的小木屋
2026-06-30 23:32:12
豪车跳水致“二手车”大降价:保时捷15万、宾利26.8万

豪车跳水致“二手车”大降价:保时捷15万、宾利26.8万

大象新闻
2026-06-30 22:06:07
风波迎来大结局?韩红宣布退出公益行业,多名圈内艺人说出大实话

风波迎来大结局?韩红宣布退出公益行业,多名圈内艺人说出大实话

萧狡科普解说
2026-07-01 05:19:09
7.1日凌晨乒赛:世界第二爆冷,林诗栋狂胜仅让对手10分

7.1日凌晨乒赛:世界第二爆冷,林诗栋狂胜仅让对手10分

余憁搞笑段子
2026-07-01 07:12:07
脸都被打肿!皇马两年四大皆空甩锅姆巴佩,结果世界杯踢成球王!

脸都被打肿!皇马两年四大皆空甩锅姆巴佩,结果世界杯踢成球王!

奶盖熊本熊
2026-07-01 07:25:43
2026年本科专业热度10强出炉

2026年本科专业热度10强出炉

第一财经资讯
2026-06-30 20:39:20
项立刚评冯小刚:饭局跳舞事件后我就不看他电影了,太恶心了

项立刚评冯小刚:饭局跳舞事件后我就不看他电影了,太恶心了

映射生活的身影
2026-06-29 16:37:52
近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

一口娱乐
2026-06-30 09:15:46
138万赞,3.5万评论!孙兴慜道歉大火,耶鲁大学教授:成年人楷模

138万赞,3.5万评论!孙兴慜道歉大火,耶鲁大学教授:成年人楷模

新杀猪的秀才
2026-07-01 00:05:33
替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

替董事长坐12年牢,出来后他转我600万,他女儿:我爸要我嫁给你

千秋文化
2026-06-27 19:44:16
外交部:王毅将于7月2日至8日访问丹麦、瑞典、芬兰、挪威

外交部:王毅将于7月2日至8日访问丹麦、瑞典、芬兰、挪威

每日经济新闻
2026-06-30 23:47:38
NBA官方:新赛季工资帽1.64961亿 奢侈税线中产特例等数据出炉

NBA官方:新赛季工资帽1.64961亿 奢侈税线中产特例等数据出炉

罗说NBA
2026-07-01 06:01:21
湖人名宿祝福詹姆斯!天勾调侃能当克城市长 魔术师直言永远感念

湖人名宿祝福詹姆斯!天勾调侃能当克城市长 魔术师直言永远感念

罗说NBA
2026-07-01 06:05:03
姆巴佩表演凌波微步!詹俊叹服:太快 像是蓝色幻影 对手只能看戏

姆巴佩表演凌波微步!詹俊叹服:太快 像是蓝色幻影 对手只能看戏

风过乡
2026-07-01 06:40:54
一夜消息:7换1交易达成,老詹湖人生涯结束,热火签约神射

一夜消息:7换1交易达成,老詹湖人生涯结束,热火签约神射

冷月小风风
2026-07-01 08:53:00
办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

办世界杯竟成烫手山芋,2030年仅两个申办国,为啥没人抢?

叹为观止易
2026-06-08 14:22:53
炸裂!伦纳德1换7回猛龙!2年1.26亿终老退役!

炸裂!伦纳德1换7回猛龙!2年1.26亿终老退役!

贵圈真乱
2026-07-01 08:01:57
1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

1换1!送走一个玻璃人,再来一个玻璃人,勇士真要这么玩?

球毛鬼胎
2026-06-30 17:00:26
2026-07-01 09:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15574文章数 66943关注度
往期回顾 全部

科技要闻

苹果刚涨价!预付款消费者就被要求补差价

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

头条要闻

父母花20万为娃办借读发现准考证是假的 孩子无缘中考

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

中东局势再添变数

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

亲子
游戏
健康
手机
教育

亲子要闻

不是所有的老弟都叫老弟

今年首个1000万销量的游戏,居然让我锻炼视力?

狂吃“糯叽叽”小心肠梗阻!

手机要闻

爱马仕橙退场!iPhone 18 Pro红色款偷跑:年度爆款色预定

教育要闻

河南高考生成绩超本科线12分,省位次8.2万左右,这个志愿真难报

无障碍浏览 进入关怀版