网易首页 > 网易号 > 正文 申请入驻

Gemini灵魂人物、传奇工程师Jeff Dean最新访谈:未来人均50个虚拟实习生,用不上专家了!

0
分享至


整理 |华卫

“简历基本上就是 AI 的时间线”,这是许多人对 Gemini 背后的核心推动者、谷歌首席人工智能科学家 Jeff Dean 的评价。从 2000 年代初重写谷歌搜索全栈到重启万亿参数稀疏模型,再到将 TPU 与前沿机器学习研究协同设计,Jeff Dean 以一种低调的方式,几乎塑造了现代 AI 技术栈的每一层。他亲历了多轮规模革命:从 CPU、分片索引,到能跨文本、视频、代码进行推理的多模态模型。

近日,他在一场深度对话中的犀利言论备受热议。不少业内人士直呼,“信息量超大”。在这场访谈中,Dean 抛出了诸多独家观点与极具前瞻性的判断。

“大一统模型的时代真的来了。关键在于,模型正在变得越来越强,不再需要领域专家。”他表示,未来是专用模型加模块化模型的组合,可以同时拥有并在不同场景下调用 200 种语言、超强机器人模块、超强医疗模块。“模型知识是可安装的,像下载软件包一样。”

作为“计算机历史上最高产的工程师之一”,Dean 还大方分享了自己现在用 AI 写代码的方式,并表示,“未来很可能每个人都能拥有 50 个虚拟实习生,让他们组成小组,只需要对接 5 个小组,让他们各自干活。”

而且,Dean 详细透露了谷歌内部“冲前沿”的模式和推动团队架构改进和模型能力升级的思考。除此之外,他还提出并拆解了多个有趣的问题,包括:为什么蒸馏是每一次 Flash 模型突破的核心驱动力、为何能耗而非算力正成为真正瓶颈、如何提前 2–6 年 进行硬件与模型的协同设计、为什么下一次跃迁不只来自更大的上下文窗口而是来自能“仿佛在处理万亿 token” 的系统等。

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

1 下一代模型,哪些旧思路值得捡起来?

Shawn Wang:今天我们请到了谷歌首席 AI 科学家 Jeff Dean,欢迎您。能邀请到您真的太荣幸了,我看过您无数场演讲,您的职业生涯堪称传奇。首先必须要说,恭喜你们拿下了"帕累托前沿"(Pareto Frontier)。

Jeff Dean:谢谢。帕累托前沿确实很棒,能站在这个位置很不错。

Shawn Wang:对,我觉得是两者兼备。你既要占据帕累托前沿,要有顶尖能力,也要兼顾效率,然后提供大家愿意用的一系列模型。这其中一部分源于你们的硬件工作,一部分来自模型工作,肯定还有很多日积月累的独门秘诀。能看到这一切如此丝滑地整合在一起,真的非常震撼。

Jeff Dean:是的没错。就像你说的,这不是单一因素,而是技术栈从上到下一整套东西的结合。所有这些加在一起,才让谷歌能够做出能力极强的大模型,同时也通过软件技术,把大模型的能力迁移到更小、更轻量的模型里,这些小模型成本更低、延迟更低,但在自身规模下依然能力很强。

Alessio Fanelli:那在守住帕累托前沿下限这方面,你们有多大压力?我感觉很多新实验室都在拼命冲性能上限,因为要融资之类的。而你们有数十亿用户。我记得你们早年做 CPU 的时候就讨论过:如果每个谷歌用户每天用三分钟语音模型,你们就得把 CPU 数量翻倍。现在谷歌内部是怎么讨论的?怎么权衡“冲前沿”和“必须落地部署”这两件事?

Jeff Dean:我们一直希望拥有前沿、甚至推动前沿的模型,因为只有这样才能看到去年、半年前不存在的新能力。但同时我们也知道,这些顶尖模型虽然有用,但对很多更广泛的场景来说,速度偏慢、成本偏高。所以我们的思路是:同时做两条线,一条是高能力、低成本的模型,支持低延迟场景,让大家能更轻松地用在智能体编程等任务上;另一条是高端前沿模型,用于深度推理、解决复杂数学问题这类场景。两者不是二选一,而是都有用。而且通过蒸馏这一关键技术,你必须先有前沿模型,才能把能力蒸馏到小模型里。所以这不是非此即彼,而是相辅相成。

Alessio Fanelli:你和 Jeffrey 在 2014 年就提出了相关方案。

Jeff Dean:别忘了还有 L’Oreal Vinyls 那篇工作。

Alessio Fanelli:都是很早以前了。我很好奇,你怎么看待这些思路的迭代周期?比如稀疏模型这类想法,你们会怎么重新评估?下一代模型里,哪些旧思路值得重新捡起来?你参与过很多后来影响巨大的想法,但在当时未必能看出来。

Jeff Dean:蒸馏最早的出发点是,我们当时有一个很大的图像数据集,3 亿张图。我们发现,如果为不同图像类别训练专用模型,比如这个专攻哺乳动物,那个专攻室内场景,先在更宽泛的图像上预训练,再对聚类后的类别用增强数据微调,效果会好很多。但如果把这 50 个模型当成一个大集成模型,实际部署并不现实。于是蒸馏的思路就来了:把这些独立的专家模型“压缩”成一个可以实际部署的形态。这和我们今天做的事本质差不多,只是现在我们不再用 50 个模型的集成,而是先训练一个超大模型,再把它蒸馏成小得多的模型。

Shawn Wang:我还在想,蒸馏是不是和强化学习的革新也有关系?我试着表达一下,强化学习会让模型在分布的某一部分突飞猛进,但可能在其他区域有损失,是一种不太均衡的技术。但或许可以通过蒸馏把它“收回来”。大家的普遍期望是:提升能力的同时不在其他地方退步。这种无损能力融合,我感觉一部分应该可以通过蒸馏实现,但我还没太理清,相关论文也不多。

Jeff Dean:我觉得蒸馏的一个核心优势就是:你可以用很小的模型,配合超大数据集,通过多次遍历数据,从超大模型那里拿到逻辑概率输出,引导小模型学到只用硬标签学不到的行为。我们观察到,蒸馏可以让小模型接近大模型的效果。这对很多人来说都是最佳平衡点。现在 Gemini 已经好几代了,我们都能让新一代的 Flash 版本达到甚至大幅超越上一代 Pro 版本的效果。我们会继续这么做,因为这是一个很健康的方向。

Shawn Wang:达拉之前问过:最早的路线图是 Flash、Pro、Ultra。你们是不是一直拿着 Ultra 当“母模型”,从它里面蒸馏?Ultra 就是那个终极源头吗?

Jeff Dean:我们有很多种模型,有些是内部模型,不对外发布或部署;有些是 Pro 级别模型,我们也可以从它蒸馏出 Flash 级别模型。这套能力很重要,推理时的动态扩展也能提升模型效果。

Shawn Wang:明白。而且显然 Flash 的成本优势带来了绝对统治力。最新数据好像是 50 万亿 token,我记不清了,反正每天都在变。

Jeff Dean:对,希望市场份额也在往上走。

Shawn Wang:我是说从成本上看,Flash 太经济了,几乎什么场景都能用。现在 Gmail 里有,YouTube 里有,到处都有。

Jeff Dean:我们也在越来越多的搜索产品里用上它,包括各种 AI 模式。

Shawn Wang:我的天,Flash 都进 AI 搜索模式了?我都没想到。

Jeff Dean:Flash 模型的一大优点不只是成本更低,还有延迟更低。延迟其实非常关键,因为未来我们会让模型做更复杂的事,生成更多令牌。比如你不再只让它写个循环,而是让它写一整套软件包。能低延迟完成这些就特别重要。Flash 是一条路径,我们的硬件平台也支撑了很多服务能力,比如 TPU,芯片间的互联性能极高,非常适合长上下文注意力、稀疏专家模型这类技术。这些对规模化部署至关重要。

Alessio Fanelli:那从 Pro 到 Flash 的蒸馏,会不会存在一个临界点,差不多滞后一代?我有种感觉:很多任务今天 Pro 已经饱和了,到下一代,同样任务在 Flash 的价位上就能饱和。再过两代,Flash 几乎能做所有人需要的一切。那当大部分用户都满足于 Flash 时,你们怎么说服内部继续投入去推 Pro 的前沿?我很好奇你怎么看。

Jeff Dean:如果用户的需求分布是静止不变的,那确实会这样。但现实往往是:模型越强,人们对它的期待就越高。我自己就有体会:一年前我用模型写代码,简单任务还行,复杂的就不行;现在我们在复杂代码上进步巨大,我就会让它做更难的事。不止编程,现在你会让它分析全球可再生能源部署、写一份太阳能报告,这些都是一年前没人会让模型做的复杂任务。所以你依然需要更强的模型去拓展边界,同时也能帮我们找到瓶颈:哪里还不行,该怎么改进,让下一代更强。

2 “把整个互联网纳入上下文”,让模型处理万亿 token

Alessio Fanelli:你们内部会用一些专属基准或测试集吗?因为每次公开的都是那几个基准,从 97% 涨到 99%,你们内部怎么推动团队:我们真正要做的目标是什么?

Jeff Dean:公开基准有它的价值,但生命周期有限。刚出来时很难,模型只有 10%–30% 正确率,你可以一路优化到 80%–90%。但一旦到 95% 左右,边际收益就极低了,要么是能力已经达标,要么是训练数据里出现了泄露或相似内容。所以我们有一批不公开的内部基准,确保训练数据里完全没有,代表模型目前还不具备、但我们希望它拥有的能力。然后我们去评估:是需要更专业的数据?还是架构改进?或是模型能力升级?怎样才能做得更好。

Shawn Wang:能不能举个例子:某个基准直接启发了架构改进?我正好顺着你刚才的话问。

Jeff Dean:我觉得 Gemini 模型尤其是 1.5 首次推出的长上下文能力,就是这么来的。我们当时的目标就是。

Shawn Wang:当时所有人一拥而上,全是一片飘绿的图表,我就在想:怎么大家同一时间都突破了?

Jeff Dean:Stack Benchmark 这种基准,在 1k、2k、8k 上下文长度上早就饱和了。我们真正在推的是 100 万、200 万上下文的前沿,因为这才有真实价值:你可以把上千页文本、几小时视频放进上下文里真正使用。单针查找已经饱和,我们需要更复杂的“多针查找”,或是更真实的长上下文理解与生成任务,才能衡量用户真正需要的能力,而不只是“你能不能找到这个商品编号”。

Shawn Wang:本质是检索,是机器学习里的检索。我想站在更底层一点说:你看到一个基准,发现需要改某个架构才能解决,但你真的应该改吗?有时候这只是一种归纳偏置。就像曾在谷歌工作的 Jason Wei 说的:你可能短期赢了,但长期不一定能扩展,甚至以后还要推翻重做。

Jeff Dean:我不太会纠结具体要用什么方案,而是先想清楚:我们到底需要什么能力?我们非常确定,长上下文是有用的,但现在的长度还远远不够。你真正想要的,其实是回答问题的时候能把整个互联网都纳入上下文,对吧?但这靠单纯扩容现有方案是做不到的,现在的算法复杂度是平方级的。一百万 tokens 已经是现有方案的极限了,你不可能做到十亿、更别说万亿 tokens。但如果你能营造出一种“模型可以关注万亿 tokens”的效果,那就太厉害了,应用场景会多到爆炸。

这相当于能把整个互联网当成上下文,能处理 YouTube 视频的所有像素,以及我们能提取到的深层表征;不只是单个视频,而是海量视频。在个人版 Gemini 层面,只要你授权,模型还能关联你所有的个人状态:你的邮件、照片、文档、机票信息等等。我觉得这会非常非常有用。问题在于,如何通过算法改进和系统级优化,让模型真正有意义地处理万亿 tokens。

Shawn Wang:对了,我之前算过一笔账:一个人每天不停说 8 小时话,一天最多也就生成 10 万 tokens 左右,这个量现在完全装得下。

Jeff Dean:没错。但如果你想理解所有人上传的视频内容,那就完全不是一个量级了。

Shawn Wang:而且还有个经典例子:一旦跳出文本,进入蛋白质这类信息密度极高的领域,数据量就爆炸了。

Jeff Dean:Gemini 从一开始就坚持做多模态。对很多人来说,多模态就是文本、图片、视频、音频这些人类熟悉的模态。但我认为,让 Gemini 理解非人类模态也非常重要。比如 Waymo 自动驾驶汽车的激光雷达数据、机器人传感器数据,还有各类医疗模态:X 光、核磁共振、医学影像、基因组信息等等。世界上可能有几百种数据模态,我们至少要让模型知道:这是一种有意义、有价值的模态。哪怕你没有在预训练里把所有激光雷达、MRI 数据都训进去,至少加一小部分进去也是很有用的,能让模型对这类信息有基本概念。

Shawn Wang:正好趁这个机会,我想问一个一直想问你的问题:有没有“王者模态”,也就是能统摄其他所有模态的模态?举个简单例子:视觉在像素级别就能编码文本,Deepseek 那篇 OCR 论文就证明了这点。而且视觉也能处理音频,因为可以转成语谱图,本质也是视觉任务。这么说的话,视觉是不是就是王者模态?

Jeff Dean:视觉和动态时序非常重要。这里说的动态,是视频,而不是静态图片。进化让眼睛独立演化了 23 次,是有原因的,感知周围世界的能力太关键了,而这正是我们希望这些模型具备的能力。模型要能解读我们看到、关注到的事物,并帮我们利用这些信息去做事。

Shawn Wang:说到动态理解,我必须夸一句:Gemini 目前依然是市面上唯一原生支持视频理解的模型,我经常用它看 YouTube。

Jeff Dean:其实很多人还没真正意识到 Gemini 模型的能力。我在演讲里举过一个例子:给模型一段过去 20 年里 18 个经典体育瞬间的 YouTube 集锦,里面有乔丹总决赛绝杀、足球进球等等。你直接把视频丢给它,说:“帮我做一个表格,列出所有事件、发生时间和简短描述。”

它真的能直接从视频里抽出信息,生成一张 18 行的表格。大多数人根本想不到,模型可以直接把视频转成结构化表格。

Alessio Fanelli:你刚才提到“把整个互联网纳入上下文”,谷歌本身就是因为人类处理不了全网信息,才需要做搜索排序。这对大模型来说逻辑完全不一样:人类看搜索结果可能只看前五六条,但对大模型来说,是不是要给它 20 条高度相关的内容?谷歌内部是怎么思考的:如何打造一种比传统人类搜索更宽泛、覆盖更广的 AI 模式?

Jeff Dean:即使在大模型出现之前,我们的排序系统也是这么做的:索引里有海量网页,大部分都不相关,先用轻量方法筛出一批相关的,比如缩到 3 万个文档,再一步步用更复杂的算法、更精细的信号去精排,最终只展示给用户 10 条左右结果。大模型系统的思路不会差太多。你看似要处理万亿 tokens,但实际流程是:先筛出大约 3 万个文档、大概 3000 万有用 tokens;再从中精挑细选出 117 个真正值得关注的文档,用来完成用户任务。

你可以想象这套系统:先用轻量模型、高并发处理,筛出初始 3 万候选;再用更强一点的模型把 3 万缩到 117;最后用最强的模型去深度理解这 117 个内容。只有这样的系统,才能营造出“模型能处理万亿 tokens”的效果,就像谷歌搜索确实在搜全网,但最终只给你最相关的一小部分。

Shawn Wang:我经常跟不了解谷歌搜索历史的人说,Bert 刚出来就直接用进了搜索,效果提升非常明显。这对谷歌来说肯定是最核心的数据。

Jeff Dean:大模型带来的文本表示方式,让我们跳出了“关键词必须精确匹配网页”的硬限制,真正做到主题和语义相关,而不是字面对应。

Shawn Wang:我觉得很多人根本没意识到,大模型已经接管了谷歌、YouTube 这种超高流量系统。YouTube 有个语义标识机制,每个 token 对应一个视频,用码本预测视频,以 YouTube 的规模来说,这太夸张了。

Jeff Dean:最近 Grok 也用在了可解释 AI 上。其实在大模型大规模用于搜索之前,我们就一直在弱化“用户输入什么就必须匹配什么”的思路。

Shawn Wang:你有没有梳理过这一路的演进历程?

Jeff Dean:我 2009 年在一个网络搜索与数据挖掘会议上做过一次演讲,讲了 1999 到 2004、2005 年左右,谷歌搜索和检索系统的五六代架构演进,那部分内容我们没有正式发过论文。2001 年发生了一件关键的事:我们在多个维度扩容系统。一是把索引做大,覆盖更多网页,质量自然会提升,索引里没有的页面,你永远搜不出来。二是扩容服务能力,因为流量暴涨。我们用的是分片架构,索引变大就加分片,比如从 30 片变成 60 片,以此控制延迟。流量变大就增加副本。

后来我们算了一笔账:一个数据中心有 60 个分片,每个分片 20 个副本,一共 1200 台带硬盘的机器。这些机器的内存加起来,刚好能把整个索引全放进内存。于是 2001 年,我们直接把全量索引塞进内存,效果直接起飞。在此之前,你必须非常谨慎,因为每个查询词都要在 60 个分片上触发一次磁盘寻道,索引越大效率越低。但全量内存索引后,哪怕用户只输入三四个词,你扩展成 50 个相关词都没问题,可以加同义词,比如 restaurant、restaurants、cafe、bistro 全都一起搜。我们终于能开始理解词义,而不是死磕用户输入的字面形式。

那是 2001 年,远在大模型之前,但思路已经是:放宽严格字面匹配,靠近语义理解。

3 “写大量代码前,先在脑子里推演一遍设计空间”

Alessio Fanelli:你设计系统的原则是什么?尤其是在 2001 年,互联网规模每年翻几倍、涨三倍,现在大模型也是每年规模和能力跳一大截。你有什么一贯的设计原则?

Jeff Dean:首先,设计系统时,必须先抓住最关键的设计参数:每秒要扛多少查询?互联网有多大?索引要做多大?每个文档存多少信息?怎么检索?流量再涨两三倍还能不能扛?我一个很重要的设计原则是:把系统设计成能扩容 5~10 倍,但不用更多。因为一旦变成 100 倍规模,整个设计空间会完全不一样,原来合理的方案会直接作废。比如从磁盘索引到内存索引,就是流量和机器足够多之后才变得可行的,一下子打开了全新架构。

我很喜欢在写大量代码之前,先在脑子里把设计空间推演一遍。回到谷歌早期,我们不仅在疯狂扩大索引,索引更新频率才是变化最夸张的指标。以前是一个月更新一次,后来我们做到了单页面一分钟内更新。

Shawn Wang:这就是核心竞争力对吧?

Jeff Dean:没错。新闻类查询,如果你的索引还是上个月的,那就完全没用。

Shawn Wang:新闻是个特殊场景,你们当时就不能把它拆成独立系统吗?

Jeff Dean:我们确实推出了谷歌新闻,但用户在主搜索里输新闻相关关键词,也必须拿到最新结果。

Shawn Wang:所以你们还要分类页面,判断哪些页面该高频更新、频率是多少。

Jeff Dean:背后有一整套系统,用来决定页面的更新频率和重要度。有些页面虽然变化概率低,但只要更新价值极高,依然会非常频繁地重新抓取。

Shawn Wang:说到延迟和存储,我必须提你的一篇经典之作:《每个程序员都该知道的延迟数字》。背后有什么故事吗?就是随手整理的?

Jeff Dean:里面大概列了八九种、十来项指标:缓存失效开销、分支预测失败开销、内存访问开销、从美国发数据包到荷兰的时间等等。

Shawn Wang:顺便问一下,为什么是荷兰?是因为 Chrome 的关系吗?

Jeff Dean:我们当时在荷兰有个数据中心。其实这就回到了快速估算这件事上。这些都是最基础的指标,你可以拿它们来做判断:比如我要做图片搜索、生成缩略图,我是提前算好缩略图,还是实时从大图里生成?需要多少带宽?会产生多少次磁盘寻道?你只要手里有这些基础数值,几十秒就能在脑子里做一遍推演。等你用更高级的库写软件时,也要培养出同样的直觉:比如在某种结构里查一次数据大概要多久。

Shawn Wang:这就是简单的字节换算,没什么特别的。我在想,如果你要更新那篇文章的话……

Jeff Dean:我觉得很有必要去算一下模型里的计算量,不管是训练还是推理。

Jeff Dean:一个很好的视角是:你需要从内存里搬运多少状态,片上 SRAM、加速器的 HBM、DRAM,还是网络传输?然后对比一下,数据搬运的成本,和矩阵乘法单元里一次实际乘法运算的成本差多少。其实计算成本非常非常低,根据精度不同,大概不到 1 pJ。

Shawn Wang:哦,懂了,你是用能耗来衡量的。

Jeff Dean:对,核心就是能耗,以及如何做出能效最高的系统。在同一块芯片上,只是从一边的 SRAM 传到另一边,能耗就可能达到 1000 pJ。这就是为什么加速器一定要用批处理(batching)。如果你把一个模型参数从片上 SRAM 搬到乘法单元,要花 1000 pJ,那你最好把这个参数重复用好多次。这就是 batch 维度的意义。batch 设成 256 就还好,但如果是 1,那就非常不划算。

Shawn Wang:对,没错。

Jeff Dean:因为你花了 1000 pJ,就为了做一次 1 pJ 的乘法。

Shawn Wang:我从来没听过从能耗角度去解释批处理。

Jeff Dean:这就是大家用 batch 的根本原因。理论上,batch=1 延迟最完美,但能耗和计算效率的浪费实在太大了。

Shawn Wang:延迟是最好的。

Jeff Dean:对,但代价太高。

4 TPU 的神级决策:反过来调整模型架构

Shawn Wang:那有没有类似当年“把索引全放进内存”这种神级技巧?比如 NVIDIA 这次押注 SRAM 搞 Grok,引起很大轰动。我在想,你们做 TPU 的时候是不是早就看到这一点了?毕竟要支撑你们的规模,肯定提前预判到了。从这些现象里,你们总结出了哪些硬件创新或洞察?

Jeff Dean:TPU 有很规整的结构,2D 或 3D 网格,很多芯片连在一起,每块都挂着 HBM。

在部署某些模型时,从 HBM 拿数据比从片上 SRAM 拿数据,成本和延迟都高得多。所以如果模型够小,你可以用模型并行,把它分散到很多芯片上,吞吐量和延迟都会明显提升。把一个中小模型打散到 16、64 块芯片上,如果全都能放进 SRAM,提升会非常巨大。这不算意外,但确实是个好技巧。

Alessio Fanelli:那 TPU 的设计呢?你们怎么决定改进方向?举个例子,有没有办法把 1000 pJ 降到 50?值得为了这个专门设计一颗新芯片吗?最极端的就是有人说,直接把模型烧进 ASIC。领域变化这么快,多少事值得用硬件来解决?内部是怎么讨论的?

Jeff Dean:我们 TPU 芯片设计架构团队和高层建模专家之间有大量协作。因为你需要协同设计:根据机器学习研究的未来方向,去定义下一代 TPU 应该长什么样。做 ML 硬件的人都知道,今天开始设计一颗芯片,可能两年后才进数据中心,还要用三四年。你必须预测未来 2~6 年,人们会想跑什么机器学习计算。所以,要有一批人去研究:哪些思路在那段时间里会起效、会更重要。这样我们才能把有用的硬件特性,加到未来几代的 TPU 里。

Shawn Wang:芯片迭代周期是两代之后?

Jeff Dean:差不多。小改动可以塞进下一代,大改动必须提前更早启动设计。只要条件允许,我们都会这么做。有时会加一些试探性的功能,占芯片面积不大,但如果成了,能直接快 10 倍;就算不成,也就浪费一点点面积,问题不大。但如果是特别大的改动,我们就会非常谨慎,做大量实验来确认方向是对的。

Alessio Fanelli:那有没有反过来的情况:因为芯片设计已经定了,所以模型架构不能那么走,因为不匹配?

Jeff Dean:肯定有。你会反过来调整模型架构,让它在那一代芯片上训练和推理更高效。两边是互相影响的。比如未来一代芯片支持更低精度,你甚至可以提前用那个精度训练,哪怕当前一代还不完全支持。

Shawn Wang:那精度到底能压到多低?

Jeff Dean:很多人在说三值精度。我个人非常支持极低精度,因为能省巨大量的能耗。能耗是按每比特传输算的,减少比特数是最直接的方式。业界已经在极低比特精度上取得了很多效果,再配上一组权重的缩放因子,效果就很稳。

Shawn Wang:有意思,低精度,但带缩放权重。我以前没想过这点。

Shawn Wang:说到这,我觉得精度这个概念本身在采样场景里就很奇怪。我们堆了这么多算力超强的芯片,最后前面还要挂一个随机数生成器。现在业界有往能量基模型、能量导向处理器发展的趋势,你显然也思考过,能说说你的看法吗?

Jeff Dean:确实有几个有意思的方向。能量基模型是一个,不按顺序逐 token 解码的扩散模型是另一个。还有 speculative decoding(推测解码),相当于一个很小的草稿 batch,先预测 8 个 token,有效 batch size 就扩大 8 倍,最后接受其中 5~6 个。这样分摊下来,把权重搬到乘法单元里的成本就被摊薄了,能带来几倍的提升。这些都是非常好的技巧。而且一定要从真实能耗、延迟、吞吐量这几个角度去看,你才会找到正确的方向:要么能服务更大模型,要么同等模型成本更低、延迟更低。

Shawn Wang:这个思路在理论上很吸引人,只是还没真正成为主流。但某种意义上还挺有美感的,如果从硬件底层就设计好,我们就不用搞那么多取巧的办法。

Jeff Dean:还有一些更前沿的方向,比如模拟计算基底,而不是数字电路。理论上能效可能极高,但问题是你要跟数字系统对接,数模、模数转换那部分会吃掉大部分能效优势。但即便只看数字方向,靠更专用、更高效的硬件,能效上我们还有巨大的提升空间。

5 大一统模型时代到来,不需要专家了?

Alessio Fanelli:你还看到哪些有意思的研究方向?或者有什么在谷歌暂时没法做,但希望其他研究者去尝试的方向?

Jeff Dean:我们的研究布局已经很广了。有很多开放问题:怎么让模型更可靠,能做更长、更复杂、包含大量子任务的事情?怎么实现模型调用其他模型当工具,组合起来完成远比单模型更有意义的工作?这部分非常有意思。还有,怎么让强化学习在不可验证的领域也能生效?这是个很棒的开放问题。如果能把数学、代码上的进步,复制到其他没那么容易验证的领域,模型能力会再上一个大台阶。

Alessio Fanelli:之前 Noam Brown 来节目里说,他们已经用深度推理证明了这点。某种意义上,你们的 AI 模式也是不可验证的。我在想这里面有没有共通的线索?比如都在做信息检索、返回 JSON。是不是检索就是那个可以打分、可以验证的部分?你怎么理解这个问题?

Jeff Dean:可以用其他模型来评估第一个模型的结果,甚至做检索。比如让另一个模型判断:检索回来的内容相关吗?2000 条里最相关的 50 条是哪些?这类方法其实非常有效。甚至可以就是同一个模型,只是换个提示词,从“检索系统”变成“评判器”。

Shawn Wang:我总觉得有一道很明显的坎:好像简单的事都做完了,剩下的都特别难。其实每年大家都这么觉得。尤其是 RLVR 这块,所有人都在问:不可验证问题的下一阶段到底怎么做?然后大家都说:不知道,等着评判。

Jeff Dean:这个领域好就好在,有无数聪明人在给这些难题想创造性的解法。大家都看得很清楚:模型在某些事上很强,但在边缘场景就会拉胯。提出技巧、验证效果、推动进步,就是这个领域研究的核心。你想想两年前,我们连 GSM8K 这种小学数学题都费劲。现在呢?模型已经能纯靠语言解国际奥数、埃尔德什级别的问题。一年半里能力的跃迁是惊人的,其他领域我们暂时还没完全看清楚路径,但有一些已经看到曙光,我们会全力把这种飞跃复制过去。

Shawn Wang:没错。

Alessio Fanelli:比如 YouTube 缩略图生成,这个功能会非常实用,我们太需要了。这简直就是 AGI 级别的需求。

Shawn Wang:对内容创作者来说绝对是。

Jeff Dean:我不是 YouTube 创作者,所以对这个问题没那么敏感,但我知道很多人很在意。

Shawn Wang:确实大家很看重。毕竟大家真的会“以封面论视频”。回到奥数那个话题,我到现在还觉得很不可思议:一年前我们还在搞 AlphaProof、AlphaGeometry 这些专门的系统,今年直接一句“算了,全都塞进 Gemini 就行”。你怎么看这件事?过去大家普遍认为,符号系统和大模型必须结合,但后来大家直接选择:全都用大模型解决。

Jeff Dean:我觉得这很合理。人类确实会操作符号,但我们脑子里大概率没有一个明确的符号系统,而是某种分布式表征,本质上接近神经网络。大量神经元在特定情况下产生激活模式,让我们能推理、规划、做思维链,发现一条路走不通就换一条。在很多方面,基于神经网络的模型,其实是在模拟我们直觉中大脑里发生的事情。所以对我来说,把完全离散、独立的符号系统,和另一套完全不同的思考机制分开,从来就不太合理。

Shawn Wang:有意思。对你来说可能理所当然,但一年前我可不是这么想的。

Jeff Dean:你看奥数任务也是一样,最开始要翻译成 Lean 语言、用专门工具,第二年还要专用几何模型,到今年直接换成一个统一模型,就是线上正式版模型,只是多给了一点推理资源。

这其实很好,说明通用模型的能力大幅提升,不再需要专用模型。这和 2013 到 2016 年那波机器学习的发展非常像:以前每个任务都要单独训模型,识别路标训一个,语音识别训一个。现在,大一统模型的时代真的来了。关键在于,这些模型在从未见过的新任务上泛化能力如何,而它们正在变得越来越强。

Shawn Wang:而且不再需要领域专家。我之前采访过相关团队的人,他说:我完全不懂奥数,不知道比赛在哪举行、规则是什么,我只管训模型。挺有意思的,现在只要有机器学习这种通用技能,给数据、给算力,就能搞定几乎任何任务。这大概就是所谓的“苦涩教训”吧。

Jeff Dean:我认为,通用模型在绝大多数情况下都会胜过专用模型。

6 未来模型知识直接“装”,“像下载软件包一样”

Shawn Wang:这点我想再追问一下。我觉得这里有个漏洞:模型的容量是抽象的,它能装下的知识只有参数量对应的比特数。谁都知道 Gemini Pro 有几万亿参数,但具体没人知道。但像 Gemma 这类模型,很多人想要开源、本地跑的小模型,它们必然装不下所有知识。大模型有条件什么都知道,但小模型在蒸馏、压缩的过程中,其实会记住很多没用的东西。所以我们能不能把知识和推理剥离开?

Jeff Dean:你确实希望模型把推理做到最强,同时具备检索能力。让宝贵的参数空间去记那些可以查到的冷僻知识,其实不是最优使用方式。你更希望参数用在更通用、更多场景都有用的能力上。但同时,你也不想让模型完全脱离世界知识。比如知道金门大桥大概有多长,对“桥有多长”有个基本概念,这类常识是有用的。它不需要知道世界上某个偏僻小桥的长度,但具备相当规模的世界知识是有帮助的,模型越大,能装的就越多。但我确实认为,把检索和推理结合起来,让模型擅长多轮检索,会是关键方向。

Shawn Wang:并且基于中间检索结果做推理,会让模型看起来比实际强得多。比如个人版 Gemini。

Jeff Dean:我们不太可能把我的邮件拿去训 Gemini。更合理的方式是:用一个统一模型,把检索我的邮件、我的照片当成工具,让模型基于这些信息去推理、交互,分多轮完成任务。这样才合理。

Alessio Fanelli:你觉得垂直领域模型有意义吗?比如很多人说“我们要做最好的医疗大模型、最好的法律大模型”。这些只是短期过渡方案吗?

Jeff Dean:不,我觉得垂直模型是有价值的。你可以从一个很强的基座模型出发,然后在医疗、机器人这类垂直领域富集数据分布。我们不太可能把所有机器人数据都塞进 Gemini 训练,因为要保持能力均衡。我们会给它看一部分机器人数据,但如果你想做一个极致优秀的机器人模型,就要在通用模型基础上,再用更多机器人数据去训练。它可能会因此损失一点翻译能力,但机器人能力会大幅提升。

我们训练基座 Gemini 时,一直在做这类数据配比权衡。我们很想加入 200 多种语言的数据,但这会挤占其他能力:可能 Pearl 编程就没那么强了,Python 还能保住,但其他小众语言或多模态能力可能会受影响。所以我认为,未来是专用模型加模块化模型的组合。你可以同时拥有 200 种语言、超强机器人模块、超强医疗模块,在不同场景下调用。比如处理医疗问题时,就把医疗模块和基座模型一起用上,效果会更好。

Shawn Wang:可安装的知识。

Jeff Dean:没错。

Shawn Wang:像下载软件包一样。

Jeff Dean:一部分可安装知识可以来自检索,另一部分应该来自预训练,比如提前用 1000 亿、1 万亿 token 的医疗数据训好。

Shawn Wang:Gemma 3 的论文里已经有一点这个味道了。

Alessio Fanelli:问题是,你到底需要几千亿 token,才能追上前沿基座模型的进步速度?如果我想做一个更强的医疗模型,而主模型 Gemini 还在不停进化,我需要 500 亿 token 吗?1000 亿?如果需要一万亿医疗 token,那数据根本就不存在。

Jeff Dean:医疗是一个特别有挑战的领域。很多医疗数据我们没有合适的访问权限,但很多医疗组织希望用自己的私有数据训模型。所以机会在于:和大型医疗机构合作,为它们定制模型,效果很可能比只用公开数据训练的通用模型更好。

Shawn Wang:对了,这和语言的话题也有点像。你最喜欢举的一个例子就是:把低资源语言放进上下文里,模型直接就能学会。

Jeff Dean:对,我们用过一个叫 Calaba 的语言,资源极度稀缺,全世界只有大概 120 个人说,还没有文字。

Shawn Wang:直接放进上下文就行,把整个数据集塞进去。

Jeff Dean:像索马里语、阿姆哈拉语这类语言,世界上是有一些文本的。我们不会把所有数据都放进 Gemini 训练,但放得越多,模型能力就越强。

Shawn Wang:我个人对语言学有副业兴趣,大学时修过几门课。如果我是语言学家,能用上这些模型,我会去问关于语言本身的根本性问题。比如萨丕尔—沃尔夫假说:你说的语言在多大程度上影响你的思维?有些语言里存在其他语言没有的概念,也有很多概念是重复的。还有一篇很有名的论文提到“柏拉图表征”:比如“杯子”的图片,配上大量带“cup”的文本,最后表征会收敛到差不多同一个位置。这套逻辑理论上也适用于语言,但有些地方不适用,而这些不适用的地方,恰恰反映了人类独有的概念差异,有些概念甚至英语里都不存在。这部分我觉得非常有意思。

Jeff Dean:我早年做过一个模型,把文本表征和图像模型结合起来,在 ImageNet 这类数据上训练,然后把顶层表征融合。你会发现,给模型一张它从未见过的新图片,它往往能给出正确标签。比如,模型学过望远镜和双筒望远镜,但没见过显微镜。给它看显微镜的图片,它居然能输出“microscope”这个标签,尽管从来没见过带这个标签的图。

Shawn Wang:这太酷了。

7 8 岁就开始琢磨:用算力做大神经网络

Shawn Wang:以你的视野,我们聊了硬件、模型、研究,你最希望被问到哪一类问题?

Jeff Dean:有件事我觉得挺有意思的。1990 年我本科毕业论文就做的是神经网络并行训练。那时候我就觉得,神经网络是正确的抽象方向,只是算力远远不够。系里那台 32 核的并行计算机,只能跑出稍微有趣一点的模型,远远解决不了真实问题。直到 2008、2009 年,摩尔定律带来了足够的算力,加上更大的数据集,神经网络才真正开始解决大家关心的真实问题:语音、视觉,最后是语言。

2011 年底我在谷歌开始做神经网络时,就坚定地认为:我们要用大规模并行计算,把神经网络的规模拉上去。我甚至把本科论文里的一些思路重新捡了起来,包括模型并行、数据并行,并且做了对比。可以说,我从 8 岁就开始琢磨这些事了,只不过那时候叫法不一样。

Shawn Wang:那篇论文是公开的吗?我们能找到吗?

Jeff Dean:可以的,网上就能查到。过去这 15 年里,把这些技术整合在一起,全力做规模化,是非常关键的。这既包括硬件层面的进步,比如推动 TPU 这类专用芯片的研发,也包括软件层面,做更高层的抽象,让人们能更方便地把想法交给计算机去实现。

Shawn Wang:你当时是否认同这个观点?或者现在有不同的复盘?

Jeff Dean:说的是算力配额的“大脑市场”机制?

Shawn Wang:对,算力配额。David 之前在 OpenAI 做负责工程的副总裁,后来也去过谷歌。他的核心观点是:OpenAI 敢于 all in,把赌注全压在一件事上;而谷歌更加“民主化”,每个人都有自己的配额。如果你相信规模化很重要,那这就是一个全公司层面的关键决策。

Jeff Dean:我部分同意。事实上,我当时还写过一页纸的备忘录,说我们把资源碎片化是很愚蠢的。那时候,谷歌研究室和 Brain 团队在做大语言模型,其他部门在做多模态,DeepMind 那边也在做 Chinchilla、Flamingo 这些模型。结果就是,我们不仅算力被拆分,最优秀的人才和精力也被拆分了。我当时就说,这样太傻了,为什么不合并起来,集中力量做一个从头就是多模态、全能的大一统模型?这就是 Gemini 项目的起源。

Shawn Wang:你这一页纸的备忘录成了,很不错。当时名字想好了吗?大家都知道,Gemini 是你取的。

Jeff Dean:是我取的。当时还有另一个候选名字,但我觉得,两个团队合在一起,某种意义上就像双胞胎。而且 NASA 也有 Gemini 计划,是阿波罗登月之前非常关键的一步。所以这个名字很合适,代表双子携手。

8 史上最高产工程师写代码:带 50 个“AI 实习生”

Alessio Fanelli:很棒。我知道时间不多了,最后很好奇:你现在怎么用 AI 写代码?你可以说是计算机历史上最高产的工程师之一。我看过一篇文章,讲你和 Sanjay 的合作方式,你说过:要找到和你思维合拍的人结对编程,两个人加起来才会是互补的合力。我就在想,你怎么看待代码智能体?你会怎么塑造一个和你思维兼容的代码助手?现在的工具你打几分?未来方向在哪?

Jeff Dean:首先,代码工具相比一两年前已经强太多了,现在真的可以把更复杂的任务交给它们。人类工程师和代码模型之间的互动方式,其实会反过来决定它怎么配合你。你可以让它写完备的测试,也可以让它帮你 brainstorm 性能优化思路。你和它交互的方式,会决定它的输出风格、解决问题的粒度,以及你希望它更自主,还是更频繁地和你对齐。没有哪一种风格是万能的。有些问题你需要高频交互,有些问题你直接说“帮我把这个实现出来”就行。

未来会出现更多独立软件智能体,帮你代劳各种事情。难点在于设计合适的人机交互模式、界面,决定它什么时候该打断你:“我需要更多指引”或者“我做完了,下一步做什么”。这部分我们还没有终极答案,模型变强之后,交互模式还会变。你可以想象成:你带了 50 个实习生,你会怎么管理?如果他们能力很强,你可能真的会想要 50 个。

Shawn Wang:但管理成本也很高。

Jeff Dean:没错。但未来很可能每个人都能拥有 50 个虚拟实习生。那你该怎么安排?你肯定会让他们组成小组,你不用管 50 个人,只需要对接 5 个小组,让他们各自干活。最终会演变成什么样,我也不完全确定。

Alessio Fanelli:那人与人的协作呢?AI 辅助编程的好处是能带来新的思路。但如果有大量代码智能体在并行写代码,其他人要介入就很困难,因为要追上巨量的上下文。你会不会担心,团队里的人会变得更孤立?

Jeff Dean:有可能。但反过来想,传统没有 AI 辅助的团队,50 个人干活,组织结构天然是层级化的,各组之间交互不多。但如果是 5 个人,每人管理 50 个虚拟智能体,这 5 个人之间的沟通带宽,反而可能比传统 5 个组长协调 50 个人的模式更高。

Alessio Fanelli:那你自己的工作节奏有改变吗?会不会花更多时间和人对齐架构、设计目标?

Jeff Dean:我觉得很有意思的一点是:以前教别人写软件,都会说要把需求文档写清楚,但大家其实都不当回事。但现在,如果你要让智能体帮你写代码,你必须极其清晰地定义需求,这会直接决定输出质量。你没说它要处理某种边界情况、没强调性能要求,它就可能不做。人们会越来越擅长清晰、无歧义地描述目标,这其实不是坏事,不管是不是工程师都是一项有用的技能。

Shawn Wang:我开玩笑说,现在给模型下指令,和高阶高管沟通没区别,像写内部备忘录一样,字斟句酌。而且我认为多模态非常重要。谷歌的 Anti-Gravity 团队一上来就做了很强的多模态,包括视频理解。这是你能给模型的、最高带宽的“提示词”,非常强。

Alessio Fanelli:你平时是怎么整理自己脑子里那些经验的?比如你那种超强的性能优化直觉,大家都说你一眼就能看出哪里能提效。那如果把这些经验写成通用文档,再让模型去检索学习,会不会很有价值?就像边界情况,就是个很好的例子。做系统的人脑子里都有特定的边界场景,但现在每次都要重复说一遍。你觉得人们会花更多时间去写文档、提炼通用经验吗?

Jeff Dean:我确实认为,写得好的软件工程指南会非常有用。既可以给模型当输入,也可以让其他开发者参考,让他们在写提示词时,更清楚底层系统应该实现什么。不一定需要为每个场景单独定制,只要有通用指南,放进代码智能体的上下文里,就会很有帮助。比如分布式系统,可以列出:要考虑哪些故障类型、有哪些处理方案,像 Paxos 复制、双写请求、只要一个返回即可容忍故障等。把 20 个这类分布式系统设计技巧总结一下,就能很大程度提升代码智能体生成可靠、健壮分布式系统的能力。

9 延迟能突破 1 万 token/s,人类不用读代码了

Shawn Wang:我就在想,Gemini 什么时候能自己造出 Spanner(解决了分布式系统 CAP 不可能三角的关系型数据库)?

Alessio Fanelli:搞不好代码它早就全看过了。这就是个好例子。CAP 定理是公认的真理,不能打破,但最后你们还是做出了看似打破它的东西。

Shawn Wang:我很好奇,模型算不算某种意义上“打破”了它?你会说你们打破了 CAP 定理吗?在特定假设下,比如精准时钟同步的前提下。

Alessio Fanelli:有时候你不必死守所谓的真理。但模型有时候会过于相信你告诉它的东西。

Jeff Dean:回到提示词和迭代的问题。我一直想做一个对比实验:一种是,用三次快速但普通的模型调用,中间加入人类对齐,人看一遍结果,再给新提示;另一种是,花很久写一个超长、超精细的提示词,直接丢给一个超强模型一次做完。我想看看这两种方式的效果差距。很多时候效果不好,不是模型不行,而是需求描述不完整,模型根本不可能猜到你想要什么。

Shawn Wang:就是定义不清晰,模型可以生成 10 个结果,只有一个是你想要的。而用轻量快模型多轮交互,反而够用。

Jeff Dean:我非常重视延迟。低延迟交互体验,比慢 10 倍、20 倍的系统舒服太多。未来我们会看到模型、软件、硬件整体延迟比现在低 20 倍、50 倍,这对需要大量交互的系统至关重要。

Shawn Wang:现在有两个极端,一边是极致快,另一边是 DeepThink 这种极致深思考。

Jeff Dean:如果不考虑成本和延迟,所有人都会一直用 DeepThink。如果底层硬件和系统把延迟再提 20 倍,成本下来,没理由不用。

Shawn Wang:帕累托曲线会一直往上走,不断外扩。我们来问点预测吧。你有没有什么一直关注的小测试,或者哪些东西你觉得现在还不够好,但很快能实现?

Jeff Dean:我说两个不算这一类的预测吧。第一,了解你、能访问你所有授权的个人数据的个性化模型,相比通用模型会带来巨大的价值提升。能关联我所有的邮件、照片、看过的视频、一切信息,这会非常有用。第二,越来越专用的硬件会让模型延迟更低、能力更强、成本更亲民,这一点也会非常关键。

Shawn Wang:你说的低延迟,大家一般用 token 每秒衡量。现在大概是 100 token/s,你觉得能到 1000?10000 有意义吗?

Jeff Dean:绝对有。因为有思维链推理。你可以并行做更多轮推演,生成更多代码,再用思维链校验正确性。10000 token/s 会非常强。

Shawn Wang:到 10000 token/s,人就不用读代码了,直接让模型生成。

Jeff Dean:它最终不一定输出 10000 token 代码,可能只有 1000 token 代码,但背后有 9000 token 的推理过程,这样的代码质量会高得多。

Alessio Fanelli:就像“如果我有更多时间,我会写一封更短的信”。Jeff,今天太棒了,感谢你的时间。

Jeff Dean:很开心,谢谢邀请。

https://youtu.be/F_1oDPWxpFQ

声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。

InfoQ 新年礼物上线啦!

AI 快讯轮播推送正式上线,给你更优的阅读体验、更强的 AI 赋能、更懂 AI 行业的资讯检索~我们会持续优化体验,追求更深度的 AI 能力内化改造,欢迎大家体验并反馈!立即前往 InfoQ 官网,体验 AI 快讯带来的全新阅读感受吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大年初一执法亚冠!马宁强硬一幕:努涅斯鼓掌抱怨,立马吃到黄牌

大年初一执法亚冠!马宁强硬一幕:努涅斯鼓掌抱怨,立马吃到黄牌

风过乡
2026-02-17 13:56:16
5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

5年前,他靠核酸检测设备2年狂入222亿,扬言活120岁,如今咋样

芳芳历史烩
2026-01-25 10:06:32
欧洲震惊:特朗普的承诺不到一天就作废,欧洲进一步退十步

欧洲震惊:特朗普的承诺不到一天就作废,欧洲进一步退十步

瑛派儿老黄
2026-02-16 09:22:51
大年初一,这三件事很不寻常

大年初一,这三件事很不寻常

牛弹琴
2026-02-17 07:38:43
吴三桂的困境:撤不撤藩都必须死,悔不听洪承畴之言,只能造反了

吴三桂的困境:撤不撤藩都必须死,悔不听洪承畴之言,只能造反了

掠影后有感
2026-02-17 11:21:10
“哭哭马”登上央视春晚,老板来自江西:共50只亮相;网友:戳中自己“表面笑嘻嘻,内心哭唧唧”的情绪

“哭哭马”登上央视春晚,老板来自江西:共50只亮相;网友:戳中自己“表面笑嘻嘻,内心哭唧唧”的情绪

扬子晚报
2026-02-17 18:34:08
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
山东小伙和老板开车10天,横穿欧亚从法国回家过年,老板:回去奖励你20万

山东小伙和老板开车10天,横穿欧亚从法国回家过年,老板:回去奖励你20万

观威海
2026-02-17 15:42:06
女子8万卖掉俩儿子,打赏男主播,与多人交往竟不知孩子生父是谁

女子8万卖掉俩儿子,打赏男主播,与多人交往竟不知孩子生父是谁

云中浮生
2026-01-31 18:20:53
红星专访|王菲春晚唱火《你我经历的一刻》,原创称歌词是倒着写出来的

红星专访|王菲春晚唱火《你我经历的一刻》,原创称歌词是倒着写出来的

红星新闻
2026-02-16 22:22:42
战争已打响!特朗普兵分两路,收割中国资产,开始全面反华?

战争已打响!特朗普兵分两路,收割中国资产,开始全面反华?

南宗历史
2026-02-17 01:33:03
聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

聂卫平一生的三个妻子:一个得到爱,一个得到钱,还有一个最特别

好贤观史记
2026-01-16 11:32:24
穆帅:我为皇马付出了全部,是我主动选择离开的所以无需后悔

穆帅:我为皇马付出了全部,是我主动选择离开的所以无需后悔

懂球帝
2026-02-17 02:30:09
大事不好,新娘变成蛇精飞走了??人没了,床上只剩一张蛇皮… 十几天后,真相大白…

大事不好,新娘变成蛇精飞走了??人没了,床上只剩一张蛇皮… 十几天后,真相大白…

英国那些事儿
2026-02-16 20:15:22
只剩9天!俄罗斯全力推进撤侨,中方按兵不动,美国偷偷断供石油

只剩9天!俄罗斯全力推进撤侨,中方按兵不动,美国偷偷断供石油

来科点谱
2026-02-17 11:05:25
马年春晚主持人:龙洋总看提词器,刘心悦抢镜,撒贝宁笑点太多了

马年春晚主持人:龙洋总看提词器,刘心悦抢镜,撒贝宁笑点太多了

动物奇奇怪怪
2026-02-17 05:25:34
一伤一增!集训新增一人!中国男篮有望出线,郭士强霸气表态

一伤一增!集训新增一人!中国男篮有望出线,郭士强霸气表态

帮主砍球
2026-02-17 14:58:14
蒂格谈杜兰特与伦纳德:巅峰期同一档!但有一致命差距

蒂格谈杜兰特与伦纳德:巅峰期同一档!但有一致命差距

大眼瞄世界
2026-02-17 06:01:54
加代一生中有多少情妇?今天我们就来说说这位——风月场里的老鸨

加代一生中有多少情妇?今天我们就来说说这位——风月场里的老鸨

阿柒故事汇
2026-01-28 12:16:57
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
2026-02-17 20:44:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12063文章数 51756关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

数码
游戏
家居
艺术
亲子

数码要闻

公牛推出67W自带线三合一充电头/移动电源,289元

扮演阴暗哥布林!外媒高分评测《冥河:贪婪之刃》

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

名家笔下话过年,别有风味!

亲子要闻

宝蓝买了一个凯迪猫的玩具车,还可以做滑滑梯,太好玩了~

无障碍浏览 进入关怀版