网易首页 > 网易号 > 正文 申请入驻

大模型开始学习像人类般思考,通往AGI到哪一步了?

0
分享至

2个月前,大模型数学能力弱的问题广泛引起关注,市面上多款大模型甚至无法做对“9.11和9.9哪个大”的简单数学题。2个月后,业内正在逐步解决大模型数学能力限制的问题。

北京时间9月13日凌晨,OpenAI在没有预告的情况下发布了一个新的推理(reasoning)模型系列,包括o1-preview、o1和o1-mini三个型号。这便是OpenAI传闻已久的具有高级推理能力的“草莓项目”。据OpenAI介绍,新系列模型在数据和编码方面表现出色,在国际数学奥林匹克竞赛(IMO)的资格考试中得分83%。

尝试突破数学能力限制的不只OpenAI。谷歌DeepMind团队此前也推出了Al系统AlphaProof,用于解决复杂的数学问题。

突破数学能力极限是AI技术演进、通往AGI(通用人工智能)路上的新一步。在考文垂大学教授、英伟达人工智能技术中心全球主管Simon See(西蒙·西)看来,业界在提升AI数学能力背后,包括了将LLM(大语言模型)结合其他更多技术的努力,结合不同技术的努力产生了一种通往AGI(通用人工智能)的潜在动力。

如何解决数学能力限制?

“对复杂的推理任务而言,这是一个重大进步,代表人工智能能力的一个新水平。”OpenAI在介绍o1系列模型时写到。OpenAI CEO Sam Altman(萨姆·奥尔特曼)也在社交平台上表示,该新模型是一个新范式的开始,即AI能够进行通用复杂推理。

数学能力增强是该系列模型的一个重要特点。OpenAI介绍,新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务,在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而该新模型得分为83%。

就新模型如何实现更好的数学、编程能力,OpenAI介绍,公司用大规模强化学习算法“教会”模型在数据高效训练时用思维链进行高效思考,类似于人类在回答困难问题之前思考很长时间,随着强化学习增加和思考时间增加,o1性能不断提高。OpenAI研究人员Noam Brown称,o1为大模型缩放(scaling)开辟了新维度,让大模型不再受预训练的瓶颈限制,现在也可以扩展推理计算。而就推理能力增强后的作用,OpenAI则表示,可用于医疗保健领域注释细胞测序数据、物理研究领域生成复杂数学公式等。

谷歌DeepMind则是通过结合LLM之外的其他技术来增强AI系统的最终表现。AlphaProof也基于强化学习,是用于数学推理的系统。该系统训练自身用以证明Lean编程语言(一种用于帮助验证定理的编程语言),且结合了训练语言模型与AlphaZero强化学习算法。据谷歌介绍,Lean使该系统在涉及数学推理证明时可以验证正确性。遇到问题时,AlphaProof会生成候选解决方案,再通过在Lean中搜索可能的证明步骤来进行证明或反驳。

不论技术原理是否有相同点,AlphaProof和OpenAI o1相比以往的模型,都趋于进行深度思考,而不仅依赖于LLM预测并迅速生成下一token(词元)的能力。

如何通往AGI?

此前有大模型研发人员告诉记者,大模型数学能力弱的一个原因是没有用到大量高质量的数学数据训练模型,随着数据质量提升,数学能力弱的问题可以解决。不过,除了训练数据的原因,业内分析LLM数学能力差也是因为通过预测下一token的方式并不真正智能。从近期动态看,包括OpenAI和谷歌DeepMind在内,业界正从AI系统运行机制上解决数学和推理能力差的问题,实际上是在通过各种技术弥补LLM运行方式的不足,在某种程度上让LLM的思考方式变得更像人类。

就LLM的能力局限、如何解决诸如数学能力等问题、如何从现有的LLM迈向AGI,业内仍在探讨问题根源和解决方案,多名业内资深人士近日在沙特数据和人工智能管理局主办的GAIN SUMMIT世界人工智能峰会上进行了探讨。峰会上,Simon See表示,现在的人工智能是“狭隘”的,很多人认为LLM会成为实现AGI的动力,但人们其实没真正理解它是如何工作,现在仍处于开发LLM的边缘。现在还有很多问题需要解决,例如不能建立越来越大的模型,因为无法提供无限的能源。

“我们现在就是有大量数据,将模型训练得足够大,就涌现出了能力。在我看来,依靠单一技术不可行,现在业内正在努力的方向包括让LLM结合其他知识和技术如新的符号、微积分等来进行理解和推理。”Simon See表示,不同技术的结合近期取得巨大进步,DeepMind的AlphaProof便结合了Lean编程语言、语言模型等,使AI能用于数学证明。让LLM结合各种技术,使AI系统拥有通往AGI的潜在动力。

Alpha Intelligence Captal联合创始人兼管理合伙人Antoine Blondeau(安东尼·布朗多)也认为,机器最终比人类更出色已成定局,但达成这个结果需要一定时间,还有大量科学工作要做。他判断,AI将不会是一个单一模型,可能是多种模型的结合,机器最终将要学会像人一样会观察、证明或反驳、概括,在现实世界中学习。

就目前LLM的机制和局限,Antoine Blondeau认为,人类从生活中学习,其中95%是从“带声音的视频”中学习,我们生活的本质基本就是“打开视频”,另外5%是来自文本例如书籍。人类会从视频中学习到语义,例如出现5根手指的时候,意味着可能是人类或其他动物,人类还会从视频中理解时间的顺序和事件因果。但机器从视频中学习的时候,它的任务则是预测下一个像素,这不是人类的方式。如果我们无法让机器像人类这般如此学习,机器就很难达到更高的智能水平。

机器学习知名科学家、大模型初创公司Boson AI创始人兼CEO Alex Smola(亚历克斯·斯莫拉)点出LLM运行方式的局限也与token预测有关。他表示,LLM可预测下一个token(词元)的能力已被用于理解图像、声音、制作声音,在过去12个月,所有东西似乎都变成了token。

“某种程度上我们已经开始耗尽可用的token数量。粗略估算,或许已有100万亿tokens,这可能是人类所能用于建造LLM的tokens。现在还有很多视频、音频供给,某种程度上这将发挥作用,这还依靠英伟达或其他公司生产能处理这些模态的芯片。”Alex Smola表示,在可见的未来,LLM核心可能是序列建模(sequence modeling),现在能看到数据、硬件的收敛,概率模型也朝着相似的结构演进,可以看看相关探索接下来几年能走多远。

结合技术进展并展望未来,Antoine Blondeau认为实现AGI可能是在10年或20年内,现在演进的速度很快。Simon See认为要达到AGI,或许能在这10年内实现这一进程的80%,但他判断最后的20%将非常具有挑战性且需要更长时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
工信部NVDB:关于防范OpenClaw(“龙虾”)开源智能体安全风险的“六要六不要”建议

工信部NVDB:关于防范OpenClaw(“龙虾”)开源智能体安全风险的“六要六不要”建议

财联社
2026-03-11 19:39:08
事件升级!市级已立案调查,鲁山舅舅求饶想私了!更多猛料被扒

事件升级!市级已立案调查,鲁山舅舅求饶想私了!更多猛料被扒

社会日日鲜
2026-03-11 03:40:42
不声不响从18涨到210,因为一个概念,股票两年中默默的涨了12倍

不声不响从18涨到210,因为一个概念,股票两年中默默的涨了12倍

丁丁鲤史纪
2026-03-11 11:09:34
“跳梁小丑”降央卓玛跌落神坛,不会被世界宽容,名誉彻底崩塌

“跳梁小丑”降央卓玛跌落神坛,不会被世界宽容,名誉彻底崩塌

吃青菜长高
2026-03-10 23:10:30
欧冠开场两次失误送大礼 22岁热刺门将17分钟被换下 哭着径直离场

欧冠开场两次失误送大礼 22岁热刺门将17分钟被换下 哭着径直离场

我爱英超
2026-03-11 05:25:36
字母哥谈阿德巴约83分:以后没人会记得罚球多少,重要的是他拿到了

字母哥谈阿德巴约83分:以后没人会记得罚球多少,重要的是他拿到了

懂球帝
2026-03-11 13:37:05
别惊讶!伊朗出口的石油比战前还多……

别惊讶!伊朗出口的石油比战前还多……

财联社
2026-03-11 14:18:05
两会定调!养老金调整方向明确,企退、事退和农民分别怎么涨?

两会定调!养老金调整方向明确,企退、事退和农民分别怎么涨?

云鹏叙事
2026-03-11 14:02:16
两会建言 全国人大代表樊芸:建议未来5年逐渐取消公摊面积 差异化推动城市更新

两会建言 全国人大代表樊芸:建议未来5年逐渐取消公摊面积 差异化推动城市更新

中国经营报
2026-03-11 15:54:32
52条中日航线2月取消全部航班,中国到东南亚航线恢复率领跑,马来西亚、新加坡、越南的恢复率超130%

52条中日航线2月取消全部航班,中国到东南亚航线恢复率领跑,马来西亚、新加坡、越南的恢复率超130%

每日经济新闻
2026-03-10 17:11:05
工信部专家: 党政机关、企事业单位和个人用户要审慎使用“龙虾”!国家互联网应急中心提示四大严重安全风险

工信部专家: 党政机关、企事业单位和个人用户要审慎使用“龙虾”!国家互联网应急中心提示四大严重安全风险

每日经济新闻
2026-03-10 22:55:30
悲催!朋友半夜摇号花115万买的房子70万甩掉,一网友直呼不理解

悲催!朋友半夜摇号花115万买的房子70万甩掉,一网友直呼不理解

火山詩话
2026-03-11 18:59:28
最新中国船员战区通讯录音曝光,多艘中国货船被公司要求撤离霍尔木兹海峡

最新中国船员战区通讯录音曝光,多艘中国货船被公司要求撤离霍尔木兹海峡

爆角追踪
2026-03-11 12:37:33
阿德巴约83+9超科比历史第二狂刷纪录 热火6连胜送奇才9连败

阿德巴约83+9超科比历史第二狂刷纪录 热火6连胜送奇才9连败

醉卧浮生
2026-03-11 10:11:02
“上午春分,暖洋洋;下午春分,冻死牛”,今年春分在几点?

“上午春分,暖洋洋;下午春分,冻死牛”,今年春分在几点?

阿龙美食记
2026-03-10 16:36:10
微粒贷逾期后单位、亲朋全被催了个遍 深圳金管局确认微众银行违规 催收机构广东华融数据被诉侵权

微粒贷逾期后单位、亲朋全被催了个遍 深圳金管局确认微众银行违规 催收机构广东华融数据被诉侵权

信网
2026-03-10 11:40:40
战胜国要价:伊朗开出史无前例的停火6条!

战胜国要价:伊朗开出史无前例的停火6条!

胜研集
2026-03-10 11:53:22
人大代表毕利霞哽咽建议提高农民养老金后,多部委已致电与其沟通

人大代表毕利霞哽咽建议提高农民养老金后,多部委已致电与其沟通

界面新闻
2026-03-11 17:09:02
上海一女子痛哭报警!结果意外,“藏”在家的前男友被抓!

上海一女子痛哭报警!结果意外,“藏”在家的前男友被抓!

环球网资讯
2026-03-11 14:33:08
百度的新段子看乐了:李彦宏吐槽豆包不一定比我们好,但它不给我看广告

百度的新段子看乐了:李彦宏吐槽豆包不一定比我们好,但它不给我看广告

爆角追踪
2026-03-11 19:04:48
2026-03-11 20:24:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
246531文章数 621702关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

美叫停以军打击伊朗油库 以军"打击规模远超美国预期"

头条要闻

美叫停以军打击伊朗油库 以军"打击规模远超美国预期"

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

家居
数码
房产
亲子
军事航空

家居要闻

中式风格 人间朝与暮

数码要闻

华硕预热新款“吹雪”主板ROG STRIX B850-A GAMING WIFI7 S NEO

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

亲子要闻

孩子长高应该补充什么?2026年儿童成长十大推荐儿童赖氨酸!

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版