网易首页 > 网易号 > 正文 申请入驻

谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

0
分享至

新智元报道

编辑:犀牛

【新智元导读】谷歌首席科学家Jeff Dean与Transformer作者Noam Shazeer在一场访谈中不仅揭秘了让模型速度提升三倍的低精度计算技术,分享了「猫神经元」等早期AI突破的背后故事,还大胆畅想了AI处理万亿级别Token、实现「1000万倍工程师」的可能性。

如果没有「Attention Is All You Need」这篇论文,今天的AI会是什么样子?

Jeff Dean,谷歌的首席科学家,和Transformer的作者Noam Shazeer,最近在一场深度访谈中,不仅回顾了AI发展的关键时刻,还大胆预测了未来的方向。

他们揭秘了模型蒸馏、MoE架构的内幕,甚至讨论了如何让AI模型处理整个互联网的信息!

访谈内容十分丰富,看点十足。

低精度让模型快三倍

「最近,我感觉基于通用CPU的机器扩展性不如以前了。」Jeff说。

他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来20到10年前那么大的提升。

但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的C++代码,比如运行Microsoft Office这类任务的计算大不相同。

可以说,算法正在跟随硬件的发展。Noam表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。

正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是N立方次的运算和N平方字节的数据传输。」Noam说。

对此,Jeff表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU和GPU并不特别适合深度学习。」

后来,谷歌开始打造TPU,这些TPU其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。

就像拉里·佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。

然后,接下来要改变的是什么?算法、数据流,等等。Jeff继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」

「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff说到。

从TPUv1开始,当时他们甚至不确定能否使用8位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。

随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用INT4或者FP4。

「如果20年前你告诉一个超级计算浮点数专家,我们要使用FP4,他一定会觉得那太疯狂了。」Jeff说,他们喜欢64位的浮点数。

Jeff说到,「一些人正在将模型量化到2位或1位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」

扩展神经网络确实有效

当Jeff被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff回忆起在Brain团队早期的时候。

那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。

当时,他们的数据中心没有GPU,只有CPU。但是他们知道如何让大量的CPU一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。

「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在2000台计算机上运行,使用了16000个核心进行训练。

不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。

「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。

「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」

随后,他们在监督学习的ImageNet 20000类别挑战中获得了非常好的结果,相对于之前的技术,提升了60%的性能,这在当时是非常不错的。

这种神经网络可能比之前训练过的神经网络大了50倍,并且得到了很好的结果。

所以这让Jeff有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。

想办法处理数万亿token

谈到长上下文问题时,Jeff表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」

Jeff表示,他已经思考这个问题一段时间了。

你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的token上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。

在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在Transformer中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

目前,我们有能够处理数百万token上下文的模型,这已经相当多了。Jeff表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」

但是,如果模型能够处理数万亿的token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?

「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff说。

但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的token,更不用说让它直接处理数万亿的token了,这是不可能的。

因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的token,数万亿token的方法。

也许可以将所有Google代码库放入每个Google开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。

那将是惊人的。

一百万个「邪恶的」Jeff

访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了AI安全性的深层领域:如果AI系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?

主持人进一步设想了一个场景:假设一个AI获得了与Jeff或Noam相当、甚至超越他们的编程能力。

在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。

这一假设情景触及了当前AI安全研究的核心关切——目目标对齐(Goal Alignment)问题。即如何确保AI系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。

对此,业界存在两种极端的观点:灾难论(Catastrophism),认为AI系统在各方面都将远超人类,最终可能导致人类被AI压制或取代。乐观论(Optimism), 认为AI系统将带来巨大的福祉,无需过分担忧其潜在风险。

对此,Jeff表示,他的立场介于这两种极端观点之间。他虽然对AI的潜在风险保持警惕,但并未表现出极度的担忧。

这种审慎乐观的态度,反映了当前AI领域许多专家对AI安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对AI的未来发展保持信心。

1000万倍工程师

在访谈中,两位专家深入探讨了AI发展所面临的关键挑战与巨大机遇。

Jeff预测,随着AI聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有10%到20%的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」

这对底层基础设施和算力提出了严峻挑战。

AI技术的快速发展也伴随着潜在风险。Jeff Dean强调:「我们需要警惕AI可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保AI的安全可控。」

Noam认为,AI领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前AI的发展态势预示着未来在GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明AI有潜力成为推动社会进步的重要引擎。

接着,Jeff提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使AI助手的能力提升5到10个点,那么企业是否愿意为实现「10倍工程师」、「100倍工程师」甚至「1000万倍工程师」的生产力跃升而加大投入?

这一设问揭示了AI在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。

结语

Jeff Dean和Noam Shazeer的对话,让我们看到了AI技术发展的无限可能。

从让模型快三倍的低精度计算,到处理数万亿token的长上下文挑战,再到对AI安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。

正如Jeff所说,他并不完全担心AI的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。

参考资料:

https://www.youtube.com/watch?v=v0gjI__RyCY

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一市纪委监委通报:张国光、顾峰、李军、史肇源被查

江苏一市纪委监委通报:张国光、顾峰、李军、史肇源被查

扬子晚报
2026-03-28 08:07:08
朝鲜亮三张底牌!通告全球:美是恐怖主义国家,韩国升级头号敌国

朝鲜亮三张底牌!通告全球:美是恐怖主义国家,韩国升级头号敌国

兴史兴谈
2026-03-27 23:44:01
4万股东突发踩雷,这家公司白天大涨,晚上股票被实施st风险警示

4万股东突发踩雷,这家公司白天大涨,晚上股票被实施st风险警示

有范又有料
2026-03-28 10:13:07
周星驰抱着刘嘉玲,既自然又纯洁,看起来就像姐弟俩。

周星驰抱着刘嘉玲,既自然又纯洁,看起来就像姐弟俩。

喜文多见01
2026-03-26 20:21:19
最高院:只有微信昵称没有实名被拉黑不能起诉?能,手机就搞定!

最高院:只有微信昵称没有实名被拉黑不能起诉?能,手机就搞定!

周军律师聊案子
2026-03-28 09:49:03
4月1日医保新规正式执行,这6件事再不办,看病直接全自费!

4月1日医保新规正式执行,这6件事再不办,看病直接全自费!

复转这些年
2026-03-28 12:04:05
87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

侃球熊弟
2026-03-28 20:07:16
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

小小科普员
2026-03-26 00:27:10
张雪峰灵堂花圈摆满松柏:遗孀付幸保持沉默,前妻李丽婧也未露面

张雪峰灵堂花圈摆满松柏:遗孀付幸保持沉默,前妻李丽婧也未露面

眼光很亮
2026-03-27 14:45:20
俄乌战场传来血的教训,我们最先进的歼20,不能再抱着火箭弹不放

俄乌战场传来血的教训,我们最先进的歼20,不能再抱着火箭弹不放

安安说
2026-03-28 11:54:14
人老了,想多活几年,先管住自己这10点:1、不摔倒,2、不劳累…

人老了,想多活几年,先管住自己这10点:1、不摔倒,2、不劳累…

荷兰豆爱健康
2026-03-28 09:28:48
《纽约时报》| 牛油果有多健康?

《纽约时报》| 牛油果有多健康?

一半杯
2026-03-27 10:14:14
同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

同学聚会,班长让我给迟到的镇长让座,下一秒,县长向我道歉

农村情感故事
2026-03-23 07:31:39
实锤!伊朗导弹基地指挥官被以色列精准斩首

实锤!伊朗导弹基地指挥官被以色列精准斩首

老马拉车莫少装
2026-03-27 18:55:23
演员李现发文:快折磨死我了!眼下杭州高发,有人洗个热水脸红一整天

演员李现发文:快折磨死我了!眼下杭州高发,有人洗个热水脸红一整天

都市快报橙柿互动
2026-03-28 10:19:28
张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

张雪峰二婚妻子付幸:几个月婚姻分走数亿,11岁女儿遗产继承复杂

眼光很亮
2026-03-27 16:04:09
“只要愿意卖,啥电脑都收”,二手旧电脑回收行情大涨,回收商:涨幅远超手机价格,翻了5倍,16G内存条几十块钱,涨到了五六百

“只要愿意卖,啥电脑都收”,二手旧电脑回收行情大涨,回收商:涨幅远超手机价格,翻了5倍,16G内存条几十块钱,涨到了五六百

观威海
2026-03-28 18:47:03
4天3场大三双!79+53+48,这数据找不出第二个了.....

4天3场大三双!79+53+48,这数据找不出第二个了.....

柚子说球
2026-03-28 21:17:59
AI繁荣带来的“意外”泼天富贵:废旧手机身价暴涨1000%

AI繁荣带来的“意外”泼天富贵:废旧手机身价暴涨1000%

米师傅安装
2026-03-29 01:01:46
A股:大消息传来,做好准备,下周一迎暴风雨?牛市还能走多远?

A股:大消息传来,做好准备,下周一迎暴风雨?牛市还能走多远?

云鹏叙事
2026-03-29 00:00:03
2026-03-29 03:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14837文章数 66720关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

伊朗议长:伊朗将加速以军崩溃

头条要闻

伊朗议长:伊朗将加速以军崩溃

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

房产
亲子
手机
本地
公开课

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

亲子要闻

小孩子能口无遮拦到什么程度!网友:恨不得当场找个地缝钻进去

手机要闻

华为手机全面回归!畅享90 Pro Max下周首销:1699元起

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版