网易首页 > 网易号 > 正文 申请入驻

算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键

0
分享至

机器之心报道

编辑:蛋酱

众所周知,人工智能在过去十五年里取得了令人难以置信的进步,尤其是在最近五年。

回顾一下人工智能的「四大发明」吧:深度神经网络→Transformer 语言模型→RLHF→推理,基本概括了 AI 领域发生的一切。

我们有了深度神经网络(主要是图像识别系统),然后是文本分类器,然后是聊天机器人,现在我们又有了推理模型。领域内的进步一直在持续 —— 尽管范式转变级别的重大突破并不常见,但我们坚信能在缓慢而稳定的发展中前进。

值得深思的问题来了:下一个重大突破会是什么?取决于什么?

康奈尔大学 (科技校区) 博士生JACK MORRIS发表了一个新颖的观点:从 2012 年到现在,AI 的根本性突破并非来自全新的算法创新,而是来自我们能够利用的新数据源和更好的数据利用方式。

博客地址:https://substack.com/home/post/p-160974493

所以他认为人工智能的下一个范式突破可能要依靠视频数据(尤其是 YouTube)和实体世界数据(机器人)。

让我们看看作者是如何分析的:

事实上,一些研究人员最近提出了「人工智能的摩尔定律」,即计算机执行某些任务(在这里指的是某些类型的编码任务)的能力将随着时间的推移呈指数级增长:

「人工智能摩尔定律」。(顺便说一句,任何认为到 2025 年 4 月就能在无人干预的情况下运行自主智能体一小时的人都是在自欺欺人。)

虽然出于种种原因,我并不认同这种说法,但我无法否认人工智能的进步趋势。每年,我们的人工智能都会变得更智能、更快速、更便宜,而且这种趋势尚未看到尽头。

大多数人认为,这种持续的进步来自于学术界(主要是麻省理工学院、斯坦福大学、卡内基梅隆大学)和工业界(主要是 Meta、谷歌和少数中国实验室)研究界的稳定 idea 供给,同时还有很多在其他地方进行的研究是我们永远无法了解的。

研究方面确实取得了很大进展,尤其是在系统方面。这尤其体现在如何降低模型成本。这里挑选几个值得关注的例子:

2022 年,斯坦福大学的研究人员提出了FlashAttention,这是一种在语言模型中更好地利用记忆的方法,这种方法几乎在任何地方都有使用;

2023 年,谷歌的研究人员开发了推测解码,所有模型提供商都使用它来加速推理(也是 DeepMind 开发的,貌似是同时进行的);

2024 年,一群互联网狂热分子开发了 Muon ,它似乎是一个比 SGD 或 Adam 更好的优化器,并可能成为未来训练语言模型的方式;

2025 年,DeepSeek 发布了 DeepSeek-R1 ,这是一个开源模型,其推理能力与人工智能实验室(特别是谷歌和 OpenAI)的类似闭源模型相当。

人们在不断探索,现实也很酷:大家参与的是去中心化的全球化科学研究,研究成果会在 arXiv 、学术会议和社交媒体上公开分享。

如果我们正在进行如此多重要的研究,为什么有些人认为进展正在放缓?引起人们抱怨的是,最新的两个大模型 Grok 3 和 GPT-4.5 ,在此前的基础上仅取得了微小的改进。一个尤为突出的例子是,在最新的数学奥林匹克考试中,语言模型的得分仅为 5%,这表明最近的声明在报告系统能力时可能被夸大了。

人工智能「四大发明」

如果我们试图记录那些「重大」的突破,那些真正的范式转变,它们似乎正在以不同的速度发生。

1. 深度神经网络:深度神经网络在 2012 年AlexNet模型赢得图像识别竞赛后开始起飞;

2. Transformer + 大语言模型:2017 年谷歌在《Attention Is All You Need》中提出了 Transformer,导致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的诞生;

3. RLHF(基于人类反馈的强化学习):据我所知,最早在 OpenAI 2022 年的 InstructGPT 论文中提出;

4. 推理:2024 年 OpenAI 发布了 o1,随后 DeepSeek 发布了 R1。

其实,这四件事(深度神经网络→Transformer 语言模型→RLHF→推理)就概括了 AI 领域发生的一切:我们有了深度神经网络(主要是图像识别系统),然后是文本分类器,然后是聊天机器人,现在我们有了推理模型(不管那是什么)。

假设想要实现第五次这样的突破,研究一下已有的这四个案例可能会有所帮助。

是什么新的研究 idea 导致了这些突破性事件?所有这些突破的基础机制在 1990 年代甚至更早就已存在,这并不荒谬。我们正在应用相对简单的神经网络架构,进行有监督学习(1 和 2)或强化学习(3 和 4)。

交叉熵的有监督学习,即预训练语言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。强化学习是通过强化学习高频训练(RLHF)和推理训练对语言模型进行后期训练的主要方法,它出现得稍微晚一些。它的出现可以追溯到 1992 年策略梯度方法的引入(这些 idea 在 1998 年 Sutton & Barto 出版的《强化学习》教科书第一版时就已经存在了)。

如果 idea 不是新的?那什么是?

这些「重大突破」可以说是我们已知一段时间的东西的新应用。首先,这意味着「下一个重大突破」可能不会来自一个全新的 idea,而是我们已经知道一段时间的东西的重新浮现。

但这里缺失一个部分 —— 这四次突破中的每一次都使我们能够从新的数据源学习:

1. AlexNet 及其后续工作解锁了 ImageNet,一个大型的分类标签图像数据库,推动了计算机视觉十五年来的进步 ;

2. Transformer 解锁了在「互联网」上的训练,以及下载、分类和解析网络上所有文本的竞赛(现在看来我们大部分已经完成);

3. RLHF 让我们可以从表明什么是「好文本」的人类标签中学习(主要是一种感觉);

4. 推理似乎让我们从「验证器」中学习,比如计算器和编译器,它们可以评估语言模型的输出。

提醒自己,这些里程碑中的每一个都标志着各自的数据源(ImageNet、网络、人类、验证器)首次大规模使用。每个里程碑之后都紧随着一阵疯狂的活动:研究人员竞争 (a) 从任何可用来源汲取剩余的有用数据和 (b) 通过新技巧更好地利用已有数据,使我们的系统更高效、对数据需求更少。

预计我们将在 2025 年和 2026 年看到这种趋势在推理模型中出现,因为研究人员正竞相寻找、分类和验证一切可能被验证的东西。

研究者创建了 ImageNet (当时最大的网络公共图像集),人工智能的进步可能是不可避免的。

新 idea 有多重要?

在这些情况下,我们实际的技术创新可能不会产生巨大差异,这一点值得一提。检视一下反事实。如果我们没有发明 AlexNet,也许另一种能处理 ImageNet 的架构会出现。如果我们从未发现 Transformer,也许我们会采用 LSTM 或 SSM,或者找到其他全新的方式来从我们在网络上可用的大量有用训练数据中学习。

这与一些人认为「除了数据之外什么都不重要」的理论一致。一些研究人员观察到,对于我们所做的所有训练技术、建模技巧和超参数调整,总体上产生最大差异的是改变数据。

一个有趣的例子是,一些研究人员致力于使用 Transformer 以外的架构开发一种新的类 BERT 模型。他们花了大约一年时间以数百种不同方式调整架构,并设法创造出一种不同类型的模型(这是一种状态空间模型或 SSM),当在相同数据上训练时,其性能与原始 Transformer 大致相当。

这一发现的等价性真正深刻,因为它暗示了我们可能从给定数据集中学习到的东西有一个上限。世界上所有的训练技巧和模型升级都无法绕过这个冷酷的事实,即从给定的数据集中只能学到这么多。

也许,对新 idea 的漠不关心就是我们应该从《苦涩的教训》中得到的。如果数据是唯一重要的东西,为什么 95% 的人都在研究新方法?

下一个范式转变从何而来?

会是 YouTube 吗?

显而易见的结论是,我们的下一个范式转变不会来自强化学习的改进或一种奇特的新型神经网络,而是会出现在我们解锁以前未曾访问或未能适当利用的数据源时。

许多人正在努力利用的一个明显信息源是视频。根据网络上的一个随机网站,每分钟约有 500 小时的视频上传到 YouTube。这是一个荒谬的数据量,比整个互联网上可用的文本多得多。它也可能是一个更丰富的信息源,因为视频不仅包含单词,还包含它们背后的语调以及关于物理和文化的丰富信息,这些都无法从文本中获得。

可以肯定地说,一旦我们的模型足够高效,或者我们的计算机变得足够强大,谷歌就会开始在 YouTube 上训练模型。毕竟,他们拥有这个平台;不利用这些数据为自己谋利将是愚蠢的。

AI 下一个「范式」的最后一个竞争者是某种具身化的数据收集系统 —— 或者,用普通人的话来说,机器人。目前,我们无法以适合在 GPU 上训练大型模型的方式从摄像头和传感器收集和处理信息。如果我们能够构建更智能的传感器或扩展我们的计算机直到它们能够轻松处理来自机器人的大量数据涌入,我们可能能够以有益的方式使用这些数据。

很难说 YouTube、机器人还是其他什么东西将成为 AI 的下一个大事件。我们现在似乎深深扎根于语言模型阵营,但我们似乎也很快就会用尽语言数据。

但如果我们想在 AI 方面取得进步,也许我们应该停止寻找新想法,开始寻找新数据!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

台州交通广播
2026-01-07 06:53:59
12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

蜉蝣说
2026-01-05 15:00:34
善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

单手搓核弹
2026-01-06 14:04:34
万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

墨兰史书
2026-01-06 11:30:03
德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

Kerry哲学
2026-01-07 13:49:56
流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

潇湘晨报
2026-01-06 17:20:18
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

译言
2026-01-07 10:33:38
紧急道歉反转!雷军又被捅了一刀!

紧急道歉反转!雷军又被捅了一刀!

广告创意
2026-01-06 17:41:33
四川一党组书记任上被查!

四川一党组书记任上被查!

雅安生活网
2026-01-07 14:26:43
首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

看看新闻Knews
2026-01-06 09:01:03
三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

中国能源网
2026-01-07 08:45:05
工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

火山詩话
2026-01-05 12:43:55
詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

一将篮球
2026-01-07 12:16:03
A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

财经大拿
2026-01-07 11:52:26
外交部亚洲司司长刘劲松意外“闯入”李在明自拍

外交部亚洲司司长刘劲松意外“闯入”李在明自拍

看看新闻Knews
2026-01-06 20:13:03
新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社
2026-01-06 17:32:44
疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

金融界
2026-01-07 10:37:18
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
山姆惊现寄生虫!900万会员天塌了

山姆惊现寄生虫!900万会员天塌了

广告案例精选
2026-01-07 11:30:45
2026-01-07 16:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12072文章数 142530关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

健康
教育
手机
家居
公开课

这些新疗法,让化疗不再那么痛苦

教育要闻

中字头央企四川分公司2026校招246人,成都锦城学院成最大赢家

手机要闻

消息称三星2月25日发布Galaxy S26系列手机

家居要闻

宁静不单调 恰到好处的美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版