网易首页 > 网易号 > 正文 申请入驻

AI中场时刻②|大模型进化放缓,AI如何穿越“徘徊期”?

0
分享至

AI 的能力发展到什么程度了?这是一个非常实用的问题。

2024 年春节,OpenAI 推出文生视频模型 Sora,足引起一场革命;2025 年春节期间,DeepSeek 引发广泛关注。谁又能预料 2026 年春节,AI 领域还会推出怎样的“年货级”新角色?你得有所准备。

硅谷风险投资机构 a16z 发布的 2025 年消费者 AI 报告总结道,对于各大AI Lab来说,今年是面向消费者推出产品的大年。比方说,OpenAI 发布了数十项 AI 功能,包括 GPT-4o 图像处理模型、独立 App Sora 以及群聊功能,谷歌推出图像处理模型 Nano Banana 和视频生成模型 Veo,其它实验室也都发布了涵盖聊天、编程、搜索、图像生成等领域的多种工具。结果如何?a16z 评价道:“喜忧参半”。

单从 Sora App 的命运便能看出来,哪怕是关注度多如 OpenAI 推出的 AI 产品,也如同一场大雨,雨落到地上的多,存到罐子里的却少。Sora 的全球下载量超过 1200 万次,但据 SensorTower 估计,其 30 天留存率低于 8%。

2025年,AI 浏览器被视为“AI时代的第一入口”,成了兵家必争之地。Perlexity推出Comet、OpenAI有Atlas,谷歌把AI功能嵌入chrome……不过,根据分析,还没有一款AI浏览器的市占率超过1%。同时,2025被宣传为“Agent元年”,根据麦肯锡报告,智能体在舆论和想象中潜力巨大,但现实落地总体还偏早期:62% 受访者所在公司至少在“实验”智能体,但是真正在任何单一业务职能中“规模化使用”智能体的比例都不超过 10%。麦肯锡总结道:“要做好智能体应用,需要付出艰苦努力。”

为何各家开始在产品赛道上卷生卷死?背后是 AI 模型能力的徘徊。低垂的果实已经摘完了,通往 AGI 的前路开始泥泞。

AI 已经很强了,只是升级的速度变慢了

通过分析259个AI大模型在十余项任务上的表现,我们发现,至少在做题方面,AI 已经拳打脚踢相当一部分人。无论是顶尖的高中生数学竞赛,还是研究生级别的物理、生物和化学问题(直接搜索是搜不到答案的,得进行科学推理),或是看图回答问题,AI 都做得很好,超越了人类专家的平均水准。

而一些相对简单、抽象的真实问题,比方说扮演一位电信技术支持的客服,跟客户协调解决诸如“为啥我连不上网?”之类的问题,AI 也已经很能顶事儿了。


从时间维度上看,AI 大模型在大部分任务上的能力跃升集中在 2024 年下半年至 2025 年年初,是AI 大模型在2025这一年徘徊的一个注脚。

有几道人类的护城河,AI 尚未突破(真是松一口气)。科学编程能力,不及格;“人类的最后一场考试”(HLE,涵盖了数学、科学以及人文社科领域有标准答案的难题),AI 没有通过;至于研究级的物理推理能力(约等于一名优秀的物理研究生独立完成研究的水平),AI 还没摸着边。也就是说,在逻辑推理方面,AI 还没能超越最聪明的那一拨人类。

谷歌的 Gemini 3 在 2025 年的 AI 竞赛中表现亮眼,在多个高难度任务上拔得头筹,也为它赢得了更多用户——Gemini 的 Pro 订阅用户同比增长近 300%,而 ChatGPT 的增幅为 155%。

AI 的能力会此消彼长吗?

AI 在不同方面的能力会有一点起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 为例,提高了编程能力,长文本推理能力就下去了一点。这似乎很好理解,人的特质也常出现左右互搏的情况,理智与情感、创造力和服从度,很难两全。难道 AI 也会出现这种情况?

令人惊讶的是,综合 artificialanalysis 上 259 个模型在 12 项任务上的表现,从总体上看,AI 没有哪项能力是真的互斥的。


数值越高,指标间关联度越高,反之越低

绝大多数指标之间都呈现出正相关,这意味着目前的顶尖模型正在走向“全能化”——通常一个模型在数学上变强了,它的编程和推理能力也会跟着变强,也就是我们常说的“Scaling Law”带来的普遍提升。

不过从中我们也能找出几组很不熟的指标。比方说研究级物理推理能力就跟“模拟客服解决问题”的能力基本毫不相干。这也和前OpenAI核心研究员、CoT(思维链)作者Jason Wei 的观点相似,不同任务提升的速度是不同的。在单项任务上的能力提升不一定会泛化到其他任务上。


Jason Wei在斯坦福大学AI Club的演讲:AI并不是全知全能,AI在不同任务上的智能水平就像锯齿一样,有高有低

接下来,AI 要怎么发展?

世界上最聪明的那拨人对 AI 目前的水平并不满意。不过,他们的方向不太一样。

它怎么不能举一反三呢?OpenAI 前首席科学家Ilya Sutskever认为大力出奇迹的路已经走到尽头了,“数据是有限的,而且各个组织已经拥有大量的计算资源……所以我们又回到了研究时代”,而需要更多研究的方向就是让模型像人类那样学习,从少量的示例和信息中学习。

而李飞飞则想培养 AI 的“空间智能”,简单来说,像是一种空间上的直觉,人可以在半睡半醒间把咖啡倒进杯子里,消防员可以在浓烟弥漫的建筑中穿梭,瞬间判断形势;AI 不仅要能说能看,更要会行动、会创造。

Demis Hassabis 和吴恩达仍然相信规模,前者认为必须将系统的规模扩展推向极致,后者提出多个智能体一起运行可以扩大规模。

无论如何,AI 未来还是要追在人类屁股后面撵,以追赶人类为乐。人该怎么办呢?图灵奖得主 Yann LeCun 建议,应该学习那些“保质期长”的知识,以及能让你“学会如何学习”的东西。他补充道,保质期长的东西,往往不是计算机科学。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

极目新闻
2025-12-29 20:27:57
CBA排名一夜大变!倒数球队升前6,广东被反超夹击,辽宁队最煎熬

CBA排名一夜大变!倒数球队升前6,广东被反超夹击,辽宁队最煎熬

篮球看比赛
2026-01-01 10:18:06
尤太忠有个怪习惯:下连队要数猪,秘书:人没事,猪一定要数清楚

尤太忠有个怪习惯:下连队要数猪,秘书:人没事,猪一定要数清楚

大运河时空
2025-12-31 08:55:03
亨廷顿《文明的冲突》:十大预言已逐一兑现!

亨廷顿《文明的冲突》:十大预言已逐一兑现!

尚曦读史
2025-12-08 10:32:06
海底捞店员表演甩面时面条多次着地;海底捞从赔一根捞面改为一个月无限吃,最新回应

海底捞店员表演甩面时面条多次着地;海底捞从赔一根捞面改为一个月无限吃,最新回应

江西晨报
2025-12-31 09:39:22
仅30株!2018年专家在浙江山中挖出,比长白山人参的来头“还大”

仅30株!2018年专家在浙江山中挖出,比长白山人参的来头“还大”

万象硬核本尊
2025-12-31 12:36:18
不动刀、不化疗!美国癌症I期临床惊现“完全缓解”!

不动刀、不化疗!美国癌症I期临床惊现“完全缓解”!

徐德文科学频道
2025-12-31 12:15:47
美女老板承诺送车却反悔已涉嫌违法 永州队球员可起诉要求赔偿

美女老板承诺送车却反悔已涉嫌违法 永州队球员可起诉要求赔偿

念洲
2026-01-01 09:26:06
谁能想到,马云对美团王兴的复仇,一等就是整整十年

谁能想到,马云对美团王兴的复仇,一等就是整整十年

流苏晚晴
2025-12-29 18:31:44
中日情况有变,13年来日本首次被拒,高市不服:当众喊出一个名字

中日情况有变,13年来日本首次被拒,高市不服:当众喊出一个名字

时时有聊
2026-01-01 10:20:00
人社部部长表态了,2026养老金到底怎么涨?30年以上工龄更吃香?

人社部部长表态了,2026养老金到底怎么涨?30年以上工龄更吃香?

boss外传
2025-12-31 00:00:04
湖北"8·26"高空蹦极事故报告出炉!3名特种设备公职人员被追责!

湖北"8·26"高空蹦极事故报告出炉!3名特种设备公职人员被追责!

特种设备安全科普
2025-12-30 21:49:28
美国下狠手了:要求中国三大运营商14天内完成电信诈骗相关整顿

美国下狠手了:要求中国三大运营商14天内完成电信诈骗相关整顿

流苏晚晴
2025-12-30 21:29:04
122-125!独行侠一跤摔倒,给快船送上“甜蜜”烦恼,太难了

122-125!独行侠一跤摔倒,给快船送上“甜蜜”烦恼,太难了

篮球看比赛
2025-12-31 12:03:49
“乱港分子”何桂蓝:从清华学霸到港独分子,昔日风光今日凄惨

“乱港分子”何桂蓝:从清华学霸到港独分子,昔日风光今日凄惨

蜉蝣说
2025-08-30 17:14:26
章子怡女儿10岁醒醒生日宴惊艳亮相,穿搭简约大方颜值亮眼

章子怡女儿10岁醒醒生日宴惊艳亮相,穿搭简约大方颜值亮眼

述家娱记
2025-12-28 19:26:47
2026元旦贺词金句,愿2026日子常新,美好常在,所愿皆成真。

2026元旦贺词金句,愿2026日子常新,美好常在,所愿皆成真。

心灵悦读
2026-01-01 06:47:34
京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

京东001号快递员已退休,勤恳工作16年,刘强东承诺的房给了吗?

阿纂看事
2025-12-10 15:38:14
凌晨4点 曼城剑指英超7连胜:哈兰德20球一步之遥 首发曝光

凌晨4点 曼城剑指英超7连胜:哈兰德20球一步之遥 首发曝光

叶青足球世界
2026-01-01 10:40:06
成交暴涨182%!广州富人正疯狂加仓的“硬通货”,很多人还看不懂

成交暴涨182%!广州富人正疯狂加仓的“硬通货”,很多人还看不懂

乐居广州
2025-12-31 15:29:18
2026-01-01 11:03:00
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
867903文章数 5086375关注度
往期回顾 全部

科技要闻

2026,冲刺商业航天第一股!

头条要闻

茅台2025年最后一天巨震 为拿回市场定价权放"大招"

头条要闻

茅台2025年最后一天巨震 为拿回市场定价权放"大招"

体育要闻

上海大胜辽宁5连胜 张镇麟弗格战旧主合砍28分

娱乐要闻

跨年零点时刻好精彩!何炅飞奔拥抱

财经要闻

巴菲特「身退,权还在」

汽车要闻

零跑汽车2025年全年交付达596555台 全年同比增长103%

态度原创

亲子
时尚
房产
数码
军事航空

亲子要闻

小时候好看,长大就变丑了!网友:这是什么原理?

小黑靴不流行了?今年冬天最火的靴子竟然是它

房产要闻

终于等来了!2026年首个买房大利好

数码要闻

翻了2.5倍:RTX 5090要飙至35000元!NVIDIA、AMD显卡一季度开始涨价

军事要闻

泽连斯基新年致辞:我们不要“乌克兰的终结”

无障碍浏览 进入关怀版