网易首页 > 网易号 > 正文 申请入驻

烧2万亿美元却难用?Gary Marcus狂喷AI赛道不靠谱:推理模型只是“模仿秀”,OpenAI一年后倒闭?

0
分享至


整理 | 华卫

“一圈又一圈的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许方向本身就站不住脚。”

近日,知名 AI 专家、认知科学家 Gary Marcus 在一场访谈中愤愤表示,“整个世界都在全力押注神经网络,还在这个我始终觉得毫无道理的理念上投入了巨资,但大语言模型根本无法带我们抵达 AGI 这一终极目标。”

这场对话由曾因成功预测 2008 年金融危机而闻名的传奇投资人、华尔街最具影响力人物之一 Steve Eisman 发起,他与 Marcus 共同探讨了当下 AI 进展的方方面面,包括商业路径、社区现状和未来方向等。Marcus 认为,大语言模型已经达到了收益递减的阶段。并且,他指出,现在 AI 领域根本没有技术壁垒了,所有 AI 企业的研发思路基本一致。

对于大量人才从大厂离职去办初创公司的现象,Marcus 直言道,“如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。”在他看来,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。

值得一提的是,他认为,OpenAI 最终会成为 AI 领域的 WeWork,这家公司原本计划以 500 亿美元的巅峰估值风光上市、却在一夕之间破产。“我觉得最终 OpenAI 可能会被微软这样的企业收购。OpenAI 每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。”

谈及各家模型的未来,Marcus 的预测是,“大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。当产品变成商品后,价格必然下跌。”

以下是详细对话内容,我们在不改变原意的基础上进行了翻译和删减,以飨读者。

1 2 万亿美元押注 Transformer,根本“毫无道理”?

Steve Eisman:大家好,我是 Steve Eisman。今天我们请到了一位特别的嘉宾,他就是 Gary Marcus。他是大语言模型的坚定质疑者,而大语言模型正是整个 AI 领域的核心根基。接下来,Gary 会和我们分享他的观点,聊聊大语言模型到底是什么。

Gary Marcus:谢谢你的邀请,也感谢一两个月前你在 CNBC 对我的盛赞。

Steve Eisman:不客气,这都是你应得的。在正式开始之前,我的观众大多还不了解你,不如先和大家说说你的背景,让大家知道你在这个领域发表观点是完全有底气的。

Gary Marcus:我这辈子几乎都在研究智能相关的问题。我 10 岁学会编程后,就开始涉足 AI 领域了。我的职业生涯中,很大一部分精力都用在研究自然智能上,比如人类的智能、还有孩子是如何学习语言这类问题。我在 MIT 的博士论文围绕两个方向展开,一个是儿童的语言学习机制,另一个就是神经网络。神经网络是 AI 领域的一种特定研究方法,也被用于人类思维的建模,它的设计灵感可以说和大脑有一点松散的关联。这其实是个很巧妙的营销说法,会让人觉得它是完全基于大脑研究的,但事实并非如此,二者只是浅层关联。早年间神经网络就曾风靡一时,我在上世纪 90 年代就研究过这类模型,发现它们并不能很好地模拟人类的思维方式,但我还是投入了大量精力,想弄清楚它们的实际工作原理。

2012 年深度学习重新兴起时,我当时就觉得,这些东西我早就研究过了,和我博士论文里的内容高度相似。我在 2001 年写过一本名为《The Algebraic Mind》的书,在书里我其实就预判到了如今大语言模型出现的幻觉问题,还有一些推理层面的缺陷,这些都是我们今天要探讨的话题。所以当深度学习再次成为热点时,我一眼就看出了其中的诸多问题,对我来说这些问题都很熟悉。2012 年,我在《The New Yorker》上发表了一篇文章,标题是《Is Deep Learning a Revolution in Artificial Intelligence?》,我在文中写道:“深度学习确实很有意思,我很佩服 Jeff Hinton,他能长期坚持自己的研究方向。”

Steve Eisman:Jeff Hinton 是谁?

Gary Marcus:他是去年诺贝尔生理学或医学奖的得主,也是深度学习领域的核心奠基人之一。

Steve Eisman:原来如此。

Gary Marcus:他的一些学生,最近也开始认同我的观点了。Jeff Hinton 确实是这个领域的大人物,在神经网络一度无人问津的时期,是他一直坚守,这份坚持值得肯定。但当然,他的研究并非全无可议之处,我们这里就不细谈了。他让神经网络重获关注,而更值得你的听众了解的是,真正让这个领域迎来爆发的,是他的学生 Ilya Sutskever,或许还有另外几位研究者。他们找到了方法,能让这套研究了许久的系统落地应用。要知道,神经网络的研究最早能追溯到上世纪 40 年代,Jeff Hinton 也在上世纪 80 年代中期做出了不少重要贡献。而这些研究者发现,借助英伟达研发的图形处理器(GPU),就能实现神经网络的高效运行。

彼时的英伟达,生产 GPU 主要是为了满足电子游戏的需求。这些原本为游戏设计的 GPU,核心优势在于并行计算,简单来说,就是能同时处理多个计算任务,而非按顺序逐个完成。传统的中央处理器(CPU),运行软件程序时基本是逐行执行的,虽然现在的技术已经有了改进,但这仍是计算机科学入门课程里会教的基础原理。而 GPU 能把一个复杂问题拆解成无数个小任务,同时进行处理,它的设计初衷就是为了计算机图形处理。比如要渲染电子游戏的下一帧画面,如果逐行处理,耗时会非常久,而用 GPU 的话,能同时处理整个画面,一个子处理器负责一个像素点,以此类推。不得不说,GPU 在图形处理上的表现堪称完美,我偶尔也玩电子游戏,深知 GPU 的算力有多惊人。

Ilya Sutskever,还有另一位我一时想不起名字的论文合作者,他们证明了 GPU 是运行神经网络的绝佳载体,至于神经网络的具体定义和实际意义,我们之后可以再聊。他们的这一发现,让神经网络的运行实现了两大突破:一是速度大幅提升,二是能处理海量数据。在此之前,六十多年的神经网络研究做出的基本都是些玩具级的模型,而他们证明,借助 GPU 这项技术能真正实现规模化的实际应用,能在更大的维度上落地。可以说,我们如今看到的所有深度学习成果,都源于 2012 年的这次突破。

而在这一突破出现后,两件事接踵而至:《The New York Times》刊发了文章,盛赞深度学习的惊人潜力;第二天,我就在《The New Yorker》的博客上发表了文章。我在文中表示,深度学习固然出色,但也存在诸多问题,它注定会在一些领域表现优异,却在另一些领域束手无策。它擅长模式识别和统计分析,这一点毋庸置疑,但人类的认知活动中还有大量的抽象思维过程。比如我们能理解家谱的逻辑,进而对现实世界的相关问题进行推理,而深度学习模型永远无法擅长这类任务,它的架构本身就不适合做抽象推理。从早年对神经网络的研究以及对人类认知机制的研究中,我早就看清了这一点。你应该读过 Daniel Kahneman 的经典著作《Thinking, Fast and Slow》吧?

Steve Eisman:我读过。

Gary Marcus:Daniel Kahneman 在书中提出了双系统认知理论,他将人类的认知分为系统一和系统二。系统一的思考速度快,是无意识的、基于统计的、本能的反应;而系统二的思考速度更慢,更具思辨性,核心是逻辑推理。神经网络本质上就相当于人类的系统一,这本身没问题,系统一也是人类认知的重要组成部分,但人类的认知还有系统二的部分。尤其是在理性思考时,我们会依赖系统二,进行更审慎、更有逻辑的推理。而神经网络模型,从始至终都不擅长系统二的这类任务,直到现在依然如此。我在 2012 年就指出,深度学习模型只能实现系统一的功能,却无法完成系统二的思考。

而在这之后的 14 年里,整个世界都在全力押注神经网络。这里要说明的是,我们所说的神经网络,就是如今的大语言模型,大语言模型是神经网络的一种形式,抱歉,我之前没明确说明这一点。事实上,2012 年时大语言模型还未出现,后续又有不少技术突破,其中关键的就是 2017 年发表的 Transformer 论文,这也是大语言模型的起源。而全世界在这一领域的投资规模达到了天文数字,据我粗略估算,已经有 1 到 2 万亿美元了,全都投在了这个我始终认为毫无道理的理念上。这些研究者的想法是,只要持续发展神经网络,就能实现智能所需的一切能力,抵达 AGI 的目标,但他们却忽视了系统二的核心价值。

一开始,他们只是把神经网络当成一个巨大的黑箱,直到现在,还有很多人抱着这样的想法。他们觉得,只要把海量数据喂进去,就能得到一个拥有智能的系统,却从未从科学的角度深入思考过真正的智能究竟该具备怎样的架构。我认为这些人太过天真,我也一直试图指出这一点,这也让我成了这个领域里的“孤行者”。很长一段时间里,人们对我的观点不屑一顾,甚至不只是不屑,而是鄙夷。

Steve Eisman:没错,他们对你的态度远不止是不屑,而是赤裸裸的鄙夷。

Gary Marcus:我们还能举出很多这样的例子。我对他们的这种态度感到失望,这个话题我们可以聊很久。他们甚至对我公开表现出敌意,比如我了解到,OpenAI 内部还为我做了专属的表情包。

Steve Eisman:我也看到过这个消息。

Gary Marcus:某种程度上,这也算是一种认可吧,既觉得荣幸,又觉得有些离谱,你能看出来,我一直试图用平常心看待这件事。但这也能从侧面说明问题,Sam Altman 还在推特上称我为“喷子”。他们就是不想听我的观点,而我核心的观点,都写在了 2022 年发表的论文《Deep Learning is Hitting a Wall》里。我在这篇论文中指出,当时“规模化扩张”的理念已经开始流行,也就是通过不断投入更多数据、更多 GPU,把模型做得越来越大,他们认为只要模型足够大,就会拥有超乎想象的能力。

我先暂停一下,和大家解释下这个“规模化扩张”的理念。他们确实有一些数据能支撑这个观点,但这种想法依然太过天真。我把这种理念称作“万亿磅婴儿谬误”,道理很简单:一个婴儿出生时 8 磅重,一个月后长到 16 磅,并不意味着他会一直这样翻倍增长,到上大学时长成万亿磅的巨人。他们就是做出了这样天真的推断,我相信你在商业领域也经常见到这种情况。很多手握巨资的聪明人,都押注了这个理念,他们说,“我们从数据中看到了这样的发展规律,只要投入足够多的数据,就能实现真正的智能。”

2 “大模型不会思考,重构信息碎片致幻”

Steve Eisman:先稍停一下,我们倒回去说。大语言模型到底能做什么?这些研发者又认为它们本该实现什么功能?我真想把这个问题彻底讲清楚。

Gary Marcus:你这个问题问得特别好。大语言模型的核心工作原理,就是预测序列中的下一个内容。你可以想想苹果手机的自动校正功能,原理差不多,虽说那功能有时候能把我逼疯,你继续说。这个功能并非总能生效,核心逻辑就是你在输入句子时,它会预判接下来可能要打的内容。比如你打出“在……见我”,它大概率会推测你想说“在餐厅见我”。它会对人类的语言表达做统计分析,效果还算过得去,但绝非完美,偶尔还会出错,让人恼火,这就是我们说的自动补全。

而我把大语言模型称作“超级版自动补全工具”,它们只是用一种特殊的方式完成这种预测,这就是其最本质的功能。它们的运作方式里还有些有意思的点,其中一个就是会把所有信息拆解成细碎的片段,之后再重新整合,这就导致信息之间的关联会被切断。也正是因此,它们才会时不时出现幻觉现象,凭空编造内容。

Steve Eisman:我们稍后再细说幻觉这个问题。

Gary Marcus:好,回头再聊。幻觉是这类模型的典型错误之一,早在 2001 年,大语言模型甚至还没被发明出来的时候,我就指出过这个问题。我当时就说,如果一直沿着这个方向研究下去,必然会出现这个问题,而事实也确实如此。大语言模型把信息拆分成碎片,再通过这些碎片预测后续内容。如果用整个互联网的内容对它们进行训练和数据投喂,它们的表现会好得让人意外,因为几乎任何你能想到的问题,注意,这里的“几乎”是关键,几乎所有问题,此前都有人提出过,也有人给出过答案。从某种程度来说,这些模型就是功能强大的记忆机器。

就在前几天,《大西洋月刊》还刊发了相关的文章,而且一直以来都有大量证据能证明这一点。比如你输入《哈利·波特》的部分内容,它能直接补完整段文字,本质上就是因为它记住了这些内容。如果一个模型能记住整个互联网的信息,那确实算得上很厉害。比如你问“道奇队在搬到洛杉矶之前,主场在哪”,网上有大量相关表述,它会告诉你是布鲁克林,大概率能给出正确答案。但仅仅依靠这种方式,模型根本无法形成抽象的概念和思想,还会因为信息碎片的拆解和错误整合出现各种问题。

Steve Eisman:那我们现在聊聊幻觉吧。到底什么是 AI 幻觉?举个例子,再说说出现这种情况的原因。

Gary Marcus:幻觉就是模型凭空编造内容,还无比笃定地呈现出来,但这些内容根本不符合事实。

Steve Eisman:那给我们举个例子。

Gary Marcus:我最喜欢的一个例子和 Harry Shearer 有关,你可能听过他的名字,看过《摇滚万万岁》吗?

Steve Eisman:当然看过。

Gary Marcus:他在这部影片里饰演贝斯手,巧的是,他还是我的朋友。他出演了《摇滚万万岁》,还和 Christopher J. Guest 合作了多部影片,参演了《楚门的世界》,还为《辛普森一家》里的伯恩斯先生等多个角色配音,他的知名度还挺高的,这点对接下来的故事很重要。先倒回说个题外话,我之前遇到的最典型的幻觉案例,主角是我自己。有人发给我一份我的人物简介,里面说我养了一只叫 Henrietta 的宠物鸡,但我根本没养过,这就是个很典型的幻觉案例,纯粹是凭空编造的。后来发现,有位插画师大概叫 Gary Oswald,写过一本关于 Henrietta 去上学的书,模型不过是把这些碎片化的信息胡乱拼凑在了一起。

Steve Eisman:那为什么会出现这种幻觉呢?

Gary Marcus:这就和我刚才说的信息碎片化拆解有关了。我再给你讲讲 Harry Shearer 的那个例子。我总拿宠物鸡 Henrietta 的事举例,有一天他给我发消息,说他没遇到过宠物鸡这种事,却遇到了和自己相关的幻觉案例。他比我有名多了,至少以前是。我当时也算小有名气,而模型给出的信息里,说他是英国的配音演员和喜剧演员,但他根本不是英国人。你只要花两秒看一下维基百科,就会发现他出生在洛杉矶。他名气不小,你也能在烂番茄、互联网电影数据库上查到他的资料,他接受过很多采访,也聊过自己的成长经历,他小时候还在洛杉矶的《杰克·本尼秀》里当过童星,想找到正确的信息一点都不难。

我们会错误地把大语言模型当成和人类一样拥有智能的个体,但实际上,它们所做的只是重构信息碎片之间统计层面的大概率关联,所以难免会出错,这种重构过程也常会出现偏差。Harry Shearer 这个案例就是如此,模型其实就是在构建一个信息集群,用统计学的方式预测各类信息之间的关联。而现实中确实有很多英国的配音演员和喜剧演员,比如 Ricky Gervais、Don Cleeve 等等。模型就把这些信息混为一谈了,这种信息融合的方式整体来看效果还算不错,但你永远无法确定它给出的某一个具体信息是准确的,所以幻觉现象才会频繁出现。

有人专门追踪过相关的法律案件,发现律师提交的辩护状里,有很多引用的判例都是模型编造的,根本不存在。我第一次关注这件事时,他已经发现了约 300 起这样的案件,三个月后再看,数量涨到了 600 起。这些律师不仅用 ChatGPT 这类工具代写文书,还因此被法官发现,受到了处罚。模型会出错,而最危险的是,这些错误还很容易被忽略,人们根本发现不了。还有一个例子,CNET 是最早用 AI 写稿的媒体之一,他们首批用 AI 写的 75 篇文章里,有近一半都存在错误,编辑们却没发现。因为这些文章语法通顺、格式规范,也没有拼写错误,人们很容易就放松了警惕。

我把这种现象称作“看着没问题效应”。大语言模型带来的这种效应,还催生了一个新词汇,我真后悔不是我发明的,叫“低效工作产物”。这个词大概是去年由几位教授提出的,指的是人们用 AI 写报告、提交给雇主,表面上看没什么问题,实则漏洞百出,因为大语言模型根本不具备真正的理解能力。

Steve Eisman:你的意思是,大语言模型并不会思考。

Gary Marcus:它们确实不会思考,只是把统计学上大概率关联的内容拼凑在一起。

Steve Eisman:只是简单拼凑。

Gary Marcus:没错。我还喜欢用“黏合”这个词,它们只是把信息黏合在一起。从统计学角度来说,大部分内容的拼凑是合理的,但总有一部分是错误的,而这些模型根本无法区分对错,也不会主动告知你。它们永远不会说,“维基百科显示 Harry Shearer 出生在洛杉矶,但作为大语言模型,我感觉他可能出生在伦敦,你可以去核实一下”。它们从来不会给出这样的提示,只会把所有内容都当作百科全书里的标准答案呈现出来,无论真假,这也是这类模型的危险之处。

Steve Eisman:确实是这样。

Gary Marcus:这类问题其实有很多,这个案例属于另一种情况,但也和模型的本质缺陷有关。这个问题的根源在于,所有大语言模型都有数据截止日期,它们的训练都是在某个特定时间点完成的,核心模型所掌握的信息,也只到这个时间点为止。研发者会给它们加各种补救措施,比如接入网络搜索功能,但这些补救措施和核心模型的融合效果都很差,不同系统的表现略有差异而已。这类模型最大的问题就是无法应对新事物、新情况,也是它们最根本的缺陷。早在 1998 年,我就通过研究早早发现了这一点。如果一个模型本质上只是个功能强大的记忆机器,当你向它输入一个超出其训练数据范围的内容时,它就会失灵。

有个例子特别能说明问题,具体细节我不太清楚,但特斯拉的 AI 系统也大量采用了这种记忆式的运作方式,而且其系统的复杂程度并不高。有人用过特斯拉的召唤功能,你应该记得马斯克说过,未来可以从纽约远程召唤洛杉矶的特斯拉,但现在显然做不到,不过据说能在停车场里召唤车辆。有人在一场航空展上试过这个功能,你能在油管上找到相关视频。这个人召唤自己的特斯拉,想在航空展上秀一下,结果车子径直撞上了一架价值 350 万美元的私人飞机。

原因就是,特斯拉的训练数据里,根本没有教系统如何应对飞机,毕竟谁会专门训练汽车躲避飞机呢?系统对世界没有形成通用的认知,比如“不要撞上挡路的大型贵重物体”,它根本不懂这些,只会识别训练数据里的自行车、行人等目标,它的识别分类里根本没有“飞机”这一项,所以才会直接撞上去。

3 所有 AI 企业都变了:悄悄复用经典符号式工具

Steve Eisman:那你有没有了解到,随着这场争论的风向转变,各大企业内部现在的情况如何?

Gary Marcus:我了解到的情况主要有几点。首先,我一直都在说,单纯的大语言模型行不通,必须结合传统的符号式 AI 技术。但之前他们都对此嗤之以鼻,觉得这套技术早就过时了,没必要用,还说人脑的工作模式本就不是这样。而现在,他们都悄悄在一定程度上采用了这项技术,比如引入代码解释器来运行 Python 代码,这些都是经典的符号式工具。说白了,他们正在偷偷把系统二的相关能力融入模型中,只是没有大肆宣扬,但这一改变确实带来了不小的提升。

马斯克发布 Grok 4 时的演示就很能说明问题,我还为此写过一篇文章,标题是《为何 GPT-3 和 Grok 4 无意间印证了神经符号 AI 的正确性》。文章里放了当时的演示图表,能清晰看到,正是那些他们不愿提及的符号式工具的加入,让模型的表现变得更好。如今模型的些许提升,绝大部分都来自这个原因,而非单纯的大语言模型优化,他们其实已经悄悄放弃了纯大语言模型的研发思路。而这对你所关注的商业领域来说意义重大,因为这些符号式工具根本不需要在 GPU 上运行,普通的 CPU 就足够了。

Steve Eisman:原来如此。

Gary Marcus:对我而言,从技术角度来说,这印证了我一直以来倡导的研发思路是正确的。这是第一个变化。第二个变化是,各大企业的很多人都离职去创办自己的初创公司了。你可以想想,如果 OpenAI 真的能在下周推出 AGI,谁会在这个即将改变世界的关键节点离职,去创办一家可能要花四年时间才能做出成果的小公司?显然没人会这么做,大家都会想留在公司见证这个时刻。

所以,大量人才离职的事实就说明,这些企业内部的人也清楚,他们根本没有做出宣称的那种突破性成果。还有一个变化,就是谷歌正在迎头赶上。就像我几年前在 Substack 专栏里预测的那样,因为现在所有企业的研发思路基本一致,这个领域根本没有技术壁垒。

Steve Eisman:没错,完全没有技术壁垒。

Gary Marcus:你和其他一些人都认为,如果所有人都在做大语言模型的规模化扩张,那么最终的赢家就是最有实力承担这笔扩张成本的企业。而放眼整个行业,谁的资金实力能超过谷歌?根本没有。

Steve Eisman:确实。

Gary Marcus:我其实也表达过类似的观点,只是表述略有不同,你的这个说法其实也没错。我当时的观点是,行业头部企业会逐渐趋同,而随着大语言模型成为标准化商品,行业内会引发价格战,服务定价会大幅下降。事实也确实如此,现在大语言模型的按 token 计费价格,已经暴跌了 99%。价格战确实爆发了,而最终的受益者自然是谷歌,这一点我当初虽然没有直接点明,但也有所预判。我大概是在 2024 年 3 月,也可能是 2023 年 8 月开始写相关文章,当时就说,所有企业都在遵循同一种研发思路,没人掌握什么独门绝技,这就意味着头部企业的产品会越来越趋同。

大语言模型会成为一种标准化商品,各家的模型只会比上一年的版本稍有提升,差距微乎其微,最终品牌差异会变得无关紧要。这一趋势带来的结果就是,谷歌迎头赶上了,中国的企业也追上来了,Anthropic 同样不甘落后。就像你说的,当产品变成商品后,价格必然下跌。这对终端消费者来说是好事,但对企业的商业模式来说却是巨大的打击。毕竟企业原本的设想是,花巨资采购 GPU,然后靠模型服务赚回巨额利润。

4 推理模型进行不了逻辑分析,再升级也没价值?

Steve Eisman:我们能不能聊聊推理模型?先给我的观众解释一下,推理模型和大语言模型有什么区别?推理模型是基于大语言模型研发的吗?

Gary Marcus:推理模型是在大语言模型的基础上运作的,但它不会像大语言模型那样直接给出第一个想到的答案,而是会反复迭代、花费时间去推敲,试图得出最优解。至于具体的研发细节,各家企业都没有公开太多。传统的神经网络模型,在某种意义上都是一次性输出结果的,当然现在行业内对“一次性”的定义有所不同。简单来说,就是把数据输入模型后,神经网络会立刻完成一次正向传播,粗略来讲,模型中的每个神经元都会处理信息并生成对应的结果。而推理模型则会进行多次传播,这是本质上的区别。

我有个朋友把传统模型的输出方式称为“恒时推理”,意思是模型生成答案的时间基本固定,无论什么问题,耗时都相差无几:把数据输入模式识别器,模型会根据现有的模式给出最优解。而推理模型采用的是全新的“变时推理”模式,我之后会聊聊它的适用场景和短板,这种模式的特点是,处理不同的问题,耗时会有所不同。目前还没有企业能完全解决推理模型的所有技术难题,但在一些场景下,它的表现确实不错。

据我了解,推理模型的研发思路之一,就是让模型模仿人类解决问题的思考过程,毕竟这些模型本质上都是模仿系统。比如在解决几何题或代数题时,模型会刻意模仿人类的解题步骤。人类解决这类问题需要一步步推导,融合了推理能力的神经网络模型,同样需要分步骤完成。

Steve Eisman:那推理模型的优势是什么?又有哪些明显的短板?

Gary Marcus:在回答这个问题之前,我想先提一点:推理模型的成本天生就更高,因为它需要占用 GPU 更长的时间来生成答案。

Steve Eisman:好的。

Gary Marcus:那我来说说它的适用场景和短板。推理模型最擅长的,是那些能生成形式规范、可验证的数据来训练模型的领域。比如数学和计算机编程,我们可以编写程序生成各种不同的代码片段来训练模型,也能生成各类几何证明题的解题思路。这类领域之所以适合推理模型,是因为它们都属于封闭领域,相关的知识边界是明确的。

Steve Eisman:没错,数据库中的知识量和相关的有效知识量都是有限的。

Gary Marcus:对,就是这个意思。所以推理模型在几何、编程这类领域的表现最好,而在开放式的现实世界中,它的表现就差强人意了。我总会从你所熟悉的金融领域举例子,当然你肯定有更贴切的案例,比如长期资本管理公司的破产。其实那也是一种模型失效的情况,只是模型的原理不同,当时没人考虑到俄罗斯债券市场崩盘的可能性,最终导致美国金融市场出现了大幅动荡。这是因为当时的金融模型,其参数设定根本没有覆盖这类极端情况。

而现在的推理模型,也面临着类似的问题:它其实并不具备真正的思考能力,哪怕是关于债券的基本问题,它也无法进行真正的逻辑分析。如果用它处理的问题,和训练数据中的内容高度相似,那一切都顺理成章;但一旦超出了它的认知范围,就像我们之前聊到的特斯拉的例子,模型就会立刻失效。

Steve Eisman:也就是它依然无法应对新事物、新情况。

Gary Marcus:没错,即便升级到了新的推理模型,核心问题依然是无法处理未知信息。它只是在原有基础上做了些许改进,但本质上还是受限于对新事物的适配能力。而关键问题在于,现实世界中,大多数有价值的问题都包含着一定的新要素、新情况,并非全是已知的问题。当然,也有例外,我们确实可以用这种不擅长处理新事物的技术,在一些狭窄的领域做出成绩,比如国际象棋和围棋。这些领域的规则千百年间基本没有太大变化,有海量的历史数据可供参考,模型还能通过自我对弈生成更多训练数据。

但在开放式的现实世界中,比如政治、军事战略领域,永远会出现训练数据中没有的新情况。比如,如何应对一位总统授意将军用飞机伪装成民用飞机,去袭击另一个国家的行为?这种情况此前从未发生过,想要分析这类问题,根本无法依靠过往的数据,必须依靠抽象的概念思考,比如权力、外交规则、国际格局的构建逻辑等,这些都是相关领域的学者更擅长的内容。要做到这一点,模型需要接受正确的训练,具备抽象思维能力,而不是单纯依赖数据。即便是在商业应用中,比如看似简单的客户服务,也会遇到类似的问题:用户总会用全新的方式提出问题,而一旦出现这种情况,模型就会因为无法应对新情况而失效。

5 OpenAI 只够支撑一年,要么倒闭、要么求救微软?

Steve Eisman:假设我任命你为 AI 领域的总负责人,由你掌控所有相关企业,指导整个行业的研发方向。如果你把这些企业的负责人都召集到一起,你会告诉他们,想要实现真正的突破,需要做些什么?

Gary Marcus:我会告诉他们,整个行业需要更多的学术思维多样性。就像在你的金融领域,你会告诉人们不要把所有鸡蛋放在一个篮子里,要做资产配置,分散投资股票、债券、黄金、房地产等。而 AI 领域在过去这些年,就是把所有的精力都押在了一个思路上,大语言模型的规模化扩张,这是行业唯一的研发方向。不可否认,这个思路确实带来了一些成果,模型并非毫无用处,我们也确实能利用它解决一些问题,但它终究无法带我们实现所谓的通用人工智能(AGI)这一终极目标,而且这还是一种成本极高、效率极低的研发方式。你可以对比一下,我的孩子只需要少量的信息和学习,就能理解这个世界,而大语言模型却需要学习整个互联网的海量数据,二者的效率差距简直可笑。

这些企业花费巨资,做出的却是效率低下、可靠性堪忧,但又有一定使用价值的模型。我们需要的是其他更高效、更经济、更可靠的研发思路,企业应该投入资金去探索这些新方向。但问题的根源,其实也来自你所熟悉的金融领域:风险投资家能从那些听起来合理的投资项目中,赚取 2% 的管理费。我很好奇你对这个观点的看法,因为这毕竟是你的专业领域。试想一下,作为风险投资家,如果有一个项目能让你管理一万亿美元的资金,哪怕你根本不在乎项目最终的结果,也能赚到 2% 的管理费,这足以让你成为亿万富翁。我并不是说所有的风险投资家都是这样想的,我见过很多投资人,他们确实真心想推动技术进步。

但就像任何行业一样,很多投资人都带着功利的心态。对这些功利的投资人来说,最理想的投资标的,就是那些听起来前景广阔、无需真正落地、成本极高的项目,这样他们就能赚取巨额的管理费。我认为,这就是整个行业都沉迷于规模化扩张的原因:投资人能从中赚取不菲的管理费,而且数额极其可观。但从学术研究的角度来说,这绝不是正确的选择,最终也没有带来理想的结果,反而造成了巨额的资金浪费。风险投资家赚走了管理费,而那些有限合伙人,最终会损失大量的资金。

Steve Eisman:你是不是觉得,这个行业的泡沫快要破裂了,还是说现在根本没法判断?

Gary Marcus:其实炒股的那句老话你我都懂,市场保持非理性的时间,可能比你保持偿付能力的时间还要长。

Steve Eisman:没错。

Gary Marcus:我去年用一个比喻形容当下的情况,就像《兔八哥》里的歪心狼跑到了悬崖边,它不往下看,就不会掉下去。当然这不符合物理规律,但很有意思。而现在,你所在的投资圈里,已经有人开始往下看了。我觉得从去年 11 月开始,就不断有投资人说,他们看到了一圈又一圈的的循环融资,投资回报率却不尽如人意,这些 AI 系统实际用起来也远没有想象中好用,或许这个赛道本身就不靠谱。我个人觉得,英伟达的产品做得非常出色,生态体系也很完善,不只是芯片本身,配套的软件等方方面面都很好。我见过黄仁勋,他给我留下了很深的印象,英伟达的产品确实很棒。

但问题的关键是,他们最终能卖出多少芯片?我认为,目前的芯片销售全靠市场投机,大家都在赌,我稍后再说说其他人的看法。所有人都在投机,认为这类芯片的需求会无限大,而这种投机的底层逻辑,是相信这些 AI 模型最终能实现 AGI。真正的 AGI 能完成人类能做的所有事,其商业价值不可估量,每年创造数万亿美元的价值都有可能。但《华盛顿邮报》几天前报道了一项一个月前完成的研究,研究显示,人类日常的工作中,只有 2.5% 的工作能真正由 AI 系统完成。所以人们幻想中 AI 能完成的大部分工作,其实它都做不到,也根本做不好。这就意味着,最终所有在芯片上的投资,都会变得毫无意义。

而在这些企业里,OpenAI 可能是最脆弱的那个。OpenAI 有超过一万亿美元的未兑现承诺,却从未实现过盈利,如今又身处一个产品高度同质化的市场。它最大的竞争对手谷歌已经迎头赶上,甚至可以说实现了反超,还拿下了和苹果的合作大单,这可是笔大生意。所以我觉得 OpenAI 现在已经手忙脚乱了,实在看不出它的估值有任何合理性。

Steve Eisman:对我所在的投资圈来说,如果投资人开始从 OpenAI 撤资,而它又融不到新的资金,那会给整个生态系统带来连锁反应。

Gary Marcus:没错,这正是我认为即将发生的事。我觉得最终 OpenAI 可能会被微软这样的企业收购。我这几年一直说,OpenAI 最终会成为 AI 领域的 WeWork。未来人们都会疑惑,它当初怎么会有那么高的估值,这完全不合逻辑。OpenAI 的年收入只有几十亿美元,却每个月亏损数十亿美元,还有众多竞争对手,这样的企业根本撑不下去。如果投资人撤资,或者不再继续注资,OpenAI 就会陷入巨大的危机。它每个月的亏损大概有 30 亿美元,一年就是 300 多亿美元,即便最近完成了 400 亿美元的融资,也只够支撑一年的运营。

Steve Eisman:没错,也就一年的时间。

Gary Marcus:而且现在很多人都在持观望态度,他们会觉得,谷歌才是更适合这场竞争的玩家,毕竟谷歌已经追上来了。如果这场竞争只拼规模,那赢家必然是谷歌,这是毋庸置疑的。谷歌有能力做出巨额投入,甚至根本不需要英伟达的芯片,因为他们自研了张量处理单元,能实现类似的功能,所以谷歌的抗风险能力更强。他们有稳定的财务支撑,最终一定会赢。

Steve Eisman:没错。

Gary Marcus:只要有一部分人意识到,OpenAI 想要活下去,需要的资金量是天文数字,它的处境就会变得岌岌可危。它下一轮可能需要 1000 亿美元的融资,而全世界能拿出这么多钱的人,可能也就五个。就算其中四个愿意投资,只要有一个拒绝,就会出问题;而如果五个都拒绝,它要么倒闭,要么只能去找微软求救。

6 “脱离世界模型做 AI,根本行不通”

Steve Eisman:Gary,在我们结束访谈前,还有什么我该问却没问的问题吗?

Gary Marcus:我觉得这次访谈特别棒。要说还有什么重要的点没聊到,那应该就是“世界模型”这个概念。

Steve Eisman:没错,我本来也想聊这个。你一直说我们需要构建世界模型,这个概念完全超出了我的专业领域,不如你给大家解释一下,到底什么是世界模型?

Gary Marcus:不同的人对世界模型有不同的定义,简单来说,它就是在计算机系统中,构建一个能表征外部现实世界的体系。我说说我认为我们需要的世界模型是什么样的:软件内部需要有一个结构,能对应现实世界中的各种事物。比如导航系统的世界模型,需要能表征道路的分布、连接方式,以及不同路段的通行时间。在传统的 AI 领域,世界模型是研发的起点,所有的研究都基于此,没人会想过脱离世界模型做研发。Herbert Alexander Simon 是上世纪 50 年代 AI 的奠基人之一,他写过一本自传叫《Models of My Life》,他一生都在研究各类模型和世界模型,并且认为,做好 AI 的关键就是构建正确的世界模型。

而大语言模型却试图脱离世界模型运作。构建一个针对特定事物的世界模型,尤其是复杂事物,需要付出巨大的努力。比如过去研发专家系统时,研究者需要构建能模拟医生思考方式的模型,能表征病人身体机能、生理结构的模型,这个过程非常繁琐。当时还有一个专门的领域叫知识工程,做这项工作成本极高,没人愿意做。大语言模型和其他类型的神经网络出现后,研发者宣称,不用再做这些繁琐的工作,只需要让系统从数据中自主学习就行。

但事实证明,这根本行不通。就像大语言模型会把出生在洛杉矶的 Harry Shearer 说成是伦敦人,原因就是它没有一个完善的世界模型,无法像设计精良的软件那样,精准调取正确的信息。所以我们必须在 AI 系统中融入世界模型,才能避免幻觉现象的发生。

Steve Eisman:我还是不太理解世界模型到底是什么。

Gary Marcus:用非专业的语言解释确实有难度,简单说,它就是对世界的一种表征,而且这个“世界”不一定是现实世界。比如我们对《星际迷航》《星球大战》《哈利·波特》这些虚构世界,也会有对应的世界模型。这也是人类和当前 AI 系统最本质的区别:当我们看一部电影、读一本书时,会在脑海中构建出这个世界的运行规则,并且能判断情节是否符合这个世界的逻辑,会不会有不合理的设定。比如看了《哈利·波特》,我们会知道里面的人能骑着扫帚飞,但不会把这个设定和现实世界混淆,不会回家后跳上扫帚就想从窗户飞出去。

人类能快速构建并同时掌握多个世界模型,就算看一部新的科幻剧,20 分钟左右就能理解这个全新世界的规则,这是人类的天赋。但在 AI 领域,无论是传统的符号式 AI,还是现在的大语言模型,都做不到这一点。传统 AI 的优势是可以人工构建世界模型,你可以雇一群学者花六周时间,把一个问题的相关规则梳理清楚,构建成模型。最近离世的顶级研究者 Doug Lenat 就做过这样的研究,他为《罗密欧与朱丽叶》构建了世界模型,他的系统能真正理解这部剧的关键情节,而非从网上的读书笔记中获取二手信息,表现非常惊艳。但问题是,我们不知道该如何让传统 AI 自主学习、构建世界模型。而大语言模型则完全做不到构建世界模型,只是在假装自己能做到。

我有个很经典的例子,就算用整个互联网的内容训练大语言模型,让它接触海量的国际象棋规则和对局记录,它依然会走出违规的棋步,因为它从未真正抽象出国际象棋的运行逻辑。这一点就足以说明问题了。试想一下,一个人看了一百万盘象棋对局,读了维基百科、象棋网站上的所有规则,还看了 Robert James Fischer 的象棋著作,不可能连基本的棋规都掌握不了,但 AI 就是做不到。

所以我们需要研发能自主归纳出世界模型的 AI 系统,这类系统能从数据中挖掘因果规律,识别其中的核心要素。这是一个难题,不是说有人明天回家鼓捣一下就能解决的。长期以来,无论是传统 AI 还是大语言模型,都在回避这个问题,而现在,我们必须直面它。

Steve Eisman:看来这需要很长的时间来研究。

Gary Marcus:确实需要很久。我想说的是,AI 确实会以我们难以想象的方式改变世界,但绝不是现在,靠当下的这项技术根本做不到。我们需要把这一点考虑进去,做出合理的投资决策。现在的问题是,我们到底是在投资基础研究,还是在为一项已经成熟的技术做规模化投入?答案显然是后者。而当下的市场,大多是在投机,赌那些目前行不通的技术,只要做得更大,就能凭空实现突破。

但事实上,单纯的规模化根本解决不了这些核心问题,我们真正需要的是扎实的基础研究。这是我过去五年一直强调的观点,也是 SSG 在去年 11 月提出的观点,而 Ilya Sutskever 也表达了类似的看法。当我们这些背景截然不同的人,都达成了这样的共识,行业内的人其实应该认真听一听。

https://www.youtube.com/watch?v=aI7XknJJC5Q

声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英国网红晒中国就医账单:300英镑解决胃痛!我们的医疗被抢了吗

英国网红晒中国就医账单:300英镑解决胃痛!我们的医疗被抢了吗

李砍柴
2026-01-24 20:06:10
全球最小的发达国家,快被中国人“买”下了,中国移民占比87%!

全球最小的发达国家,快被中国人“买”下了,中国移民占比87%!

财叔
2025-12-28 22:59:30
明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

明朝皇帝为什么会如此短寿?原来都是徐达家的基因不行!

真的好爱你
2026-01-23 22:21:50
李昊吸引不少足坛名宿夸赞:切赫要签名手套,卡森称他有光明未来

李昊吸引不少足坛名宿夸赞:切赫要签名手套,卡森称他有光明未来

茜子足球
2026-01-24 16:56:39
英国卫报披露惊人内幕:马杜罗被捕前,副总统和她的兄弟暗通美国

英国卫报披露惊人内幕:马杜罗被捕前,副总统和她的兄弟暗通美国

荆楚寰宇文枢
2026-01-23 22:47:37
西伯利亚“入冬备战”:人均储粮500公斤,窗户至少加固到三层

西伯利亚“入冬备战”:人均储粮500公斤,窗户至少加固到三层

近史谈
2025-12-05 20:48:52
退市!300391,被重罚

退市!300391,被重罚

中国基金报
2026-01-24 12:11:42
美国专家事后诸葛亮:换下彭德怀能赢?真要让粟裕去指挥,美军主力恐怕连撤退的机会都没有,全得交代在那!

美国专家事后诸葛亮:换下彭德怀能赢?真要让粟裕去指挥,美军主力恐怕连撤退的机会都没有,全得交代在那!

史海残云
2025-12-13 21:54:16
无知的代价:缅王扣押永历帝之后,本想趁机捞一把,结果差点亡国

无知的代价:缅王扣押永历帝之后,本想趁机捞一把,结果差点亡国

掠影后有感
2026-01-23 10:34:33
银价飙升!国际金价突破5000美元

银价飙升!国际金价突破5000美元

环球网资讯
2026-01-24 21:53:27
不到24小时,特朗普闹出6个国际笑话,美国人要心碎了

不到24小时,特朗普闹出6个国际笑话,美国人要心碎了

现代小青青慕慕
2026-01-24 09:26:29
房价又开始沸腾了!北京,上海限购放开,房价真的就能翻倍吗?

房价又开始沸腾了!北京,上海限购放开,房价真的就能翻倍吗?

楼市味道
2026-01-23 21:28:55
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

科学发掘
2026-01-23 11:00:01
熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

熊黛林一家游新加坡,花1个半小时化妆打扮,7岁女儿成“龅牙妹”

疯说时尚
2026-01-24 09:20:12
国际奥委会主席,第三次找上门,想让中国办2036年奥运会。

国际奥委会主席,第三次找上门,想让中国办2036年奥运会。

南权先生
2026-01-19 15:43:28
京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

阿纂看事
2025-12-10 15:38:14
亲人在阴间真正缺少的东西,扫墓时火苗偏向你,是催你送3样东西

亲人在阴间真正缺少的东西,扫墓时火苗偏向你,是催你送3样东西

古怪奇谈录
2026-01-21 14:31:45
离开皇马是对的!9次过人帮助球队致胜,想去世界杯的他机会来了

离开皇马是对的!9次过人帮助球队致胜,想去世界杯的他机会来了

里芃芃体育
2026-01-24 03:00:03
好歹在防守端强势了一些,火箭锋线新星必须得展现出更多的亮点?

好歹在防守端强势了一些,火箭锋线新星必须得展现出更多的亮点?

稻谷与小麦
2026-01-24 23:30:14
广东!新一轮降雨中心已确定,23-25日天气,具体预报如下

广东!新一轮降雨中心已确定,23-25日天气,具体预报如下

温读史
2026-01-24 17:21:12
2026-01-25 00:19:00
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
11980文章数 51712关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

张又侠、刘振立被查 解放军报发布社论

头条要闻

张又侠、刘振立被查 解放军报发布社论

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

时尚
房产
亲子
家居
旅游

冬天最佳“显瘦”公式:上短+下长

房产要闻

正式官宣!三亚又一所名校要来了!

亲子要闻

人类的生育能力到底有多强?网友:凑满十二生肖不是难事!

家居要闻

在家度假 160平南洋混搭宅

旅游要闻

世界旅游休闲中心招牌愈加夺目——2025年澳门入境旅客数据解读

无障碍浏览 进入关怀版