网易首页 > 网易号 > 正文 申请入驻

刚刚,GPT-5内测抢先泄露!推理强到离谱,智商被曝140超越人类天才

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】GPT-5终于要来了,就在刚刚,已经有人通过Copilot放出了GPT-5的惊人实测,推理能力强到离谱。明天凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano全家桶将悉数登场,全网已经high起来了。

就在明天,GPT-5总算要靴子落地了。


周五凌晨,GPT-5、GPT-5 Mini和GPT-5 Nano将同时推出。全网用户都可以立即通过API和ChatGPT访问这三个模型。


经过十来天的营销和造势,众位看官们的热情也是被激到了最高点,明天OpenAI要是拿不出什么硬货来,恐怕是要被嘲了。

就在今天,还有关于GPT-5的消息放出。

比如这种GPT-5基准测试的结果,已经开始全网疯传。

数据显示,它在SimpleBench上的得分已经达到了90%,高于之前的62%。而人类高中生在此基准上的得分为85.7%。


另外还有两张泄露的GPT-5基准测试如下。

比如,GPT-5的智商或逼近140。


在ARC-AGI 2的Benchmark上,GPT-5也是一骑绝尘。


与此同时,一些GPT-5的惊人实测,也已经提前放出了!

GPT-5的惊人示例

注意,无论是上图中的基准测试,还是下面的demo,都是通过Copilot得到的。

很多网友发现,在某些情况下,微软Copilot已经开始调用GPT-5。


在Copilot产品中出现的「智能模式」字样,都暗示着由GPT-5驱动的专门推理或自适应行为。


SVG机器人检查(通过Copilot上的GPT-5)

TestingCatalog通过某些使用场景(例如Robot SVG 测试)确认,Copilot在某些情况下已在GPT-5上悄悄运行。


Copilot的智能模式自称是GPT-5

而通过Copilot,已经有手快的网友给GPT-5测试来不同示例。

他的评价是:我怀疑这只是GPT-5的一个小版本,但仍然具有推理能力。这头猛兽的威力,会让你大吃一惊!

1. 「旋转六边形中的弹跳球」测试。


2. 制作一个GTA克隆版。

可以看出GPT-5表现很不错,它做出了地图和几辆NPC汽车,碰撞机制也做得很好。


3. 制作一个未来感十足的AI按钮。


4. 制作一个可运行的单文件俄罗斯方块游戏。


5. 用HTML/JS编写一个像素画编辑器。

用户可以设置网格大小、选择颜色,并可以将图片导出为PNG格式。


6. 在一个 HTML文件中制作一个可拖拽的看板(待办事项/进行中/已完成),所有代码均使用HTML/JS/CSS。


7. 制作一个神经网络可视化工具,结果令人惊呆。


8. 在一个HTML文件中制作一个康威生命游戏模拟器。

用户可以绘制单元格、播放/暂停、调整速度以及保存/加载模式。


9. 使用Three.js制作一个3D飞行模拟器。


10. 用纯HTML/JS创建一个横向卷轴平台游戏。

键盘控制、收集金币、胜负条件——一个文件,像素画风。


11. 在一个HTML/JS文件中编写一个交互式化学分子构建器——拖动原子、捕捉键、实时查看分子式更新。


12. 用一个HTML文件制作一个3D太阳系模拟器——包含行星轨道、点击查看详情、太阳动画以及时间加速/减速控制。

网友称,这是实测的所有示例中自己最喜欢的一个。


GPT-oss

基准测试+实测来了

而GPT-5还没发布,OpenAI就已经凭GPT-oss给全网整了个大的。

就在昨天,时隔数年后OpenAI终于对得起自己的名字了──

经过数月预告之后,他们发布了自2019年以来的首批开放权重的大语言模型:

➤ gpt-oss-120b:共1168亿个参数,其中活跃参数为51亿个。

➤ gpt-oss-20b:共209亿个参数,其中活跃参数为36亿个。

直接跻身HuggingFace模型榜单第一和第二。


就在刚刚,多项基准测试结果出炉,GPT-oss直接一举登顶开源王座。

智能体基准测试平台hud发推:

gpt-oss 120B(高配版)在GPQA Diamond、AIME 2024、AIME 2025和Codeforces等评测中,领先于主流开源模型(Deepseek R1、Qwen3、Llama 4、Kimi K2),斩获最高分。



有人发现,在Intelligence基准测试中,GPT-oss-120b在高推理设置下的得分为8.6%,仅略低于o3。

可以说,它是名副其实的SOTA开源模型。



「ArtificialAnalysis」也对OpenAI gpt-oss模型进行了独立的基准测试。


OpenAI的gpt-oss模型的独立基准测试显示:gpt-oss-120b超越了Meta的Llama模型,跻身全美开源权重模型No.1,其智能指数得分达到58。

在日新月异的AI领域,这已恍如隔世。要知道,ChatGPT本身发布至今还不到三年。


在智能上,这两种模型在大小和稀疏性方面都得分极高。可以看到,120B击败了o3-mini,但落后于o4-mini和o3。

注意,120B是可以在单个H100上运行的最智能的模型,而20B是可以在消费级GPU上运行的最智能的模型。在ArtificialAnalysis的大多数评估中,这两种模型的排名似乎相似,表明它们没有突出的弱点。

如果和其他开放权重模型pk的话,虽然GPT-oss-120b的得分没有超过DeepSeek R1 0528的59分或Qwen3 235B 2507的64分,但值得注意的是,它的总参数和活动参数都比这两个模型小得多。

DeepSeek R1的总参数为671B,活动参数为37B,并且以FP8精度原生发布,这使其总文件大小(和内存需求)比GPT-oss-120b大了10倍以上。

Epoch AI在测试后得出结论:尽管使用了相似的计算量,GPT-oss-20b在基准测试中的表现比GPT-3好得多。


GPT-oss-20b在MMLU上的得分比GPT -3高41.4pp,在GPQA diamond上的得分可能高出41.5pp以上。


在HealthBench上,GPT-oss-120b几乎与o3持平,超过了GPT-4o和o4-mini,使其成为OpenAI目前为止效率最高的模型。


实际测试:本地可跑

GPT-oss-120b轻松通过「旋转六边形中的弹跳球」测试:


而且还有人发现,AlphaXiv基于GPT OSS可以快速获取下上文、标准参考文献等,帮我们更快理解研究论文。

一个非常好用的功能是,我们可以针对论文的任何部分进行手动选择、进行针对性提问,还能艾特其他论文,快速进行比较。


关键是,这次在笔记本电脑上的确可以跑:

在MacBook M4 Max 上,gpt-oss 120b:

48 token/s 高性能模式

35 token/s 正常模式

23 token/s 低功耗模式

在NVIDIA RTX 5090上,gpt-oss-20b运行速度非常快,每秒能处理大约160到180个令牌。



但OpenAI为何重金豪赌开源模型?

卷死对手,豪赌未来

就在今天,外媒The Information发表了一篇深度分析:OpenAI为何愿意花巨大代价,重金豪赌开源模型?


微妙的是,这其中少不了中国开源大军的影响。

在智能方面,OpenAI的gpt-oss尚不及DeepSeek R1的59和Qwen3 235B的64──开源最强还是中国制造。

去年年底,DeepSeek凭借开放权重模型R 1异军突起,一鸣惊人。

而OpenAI再次拥抱开源AI,是一步妙棋。

首先,通过为开发者和美国政府提供能开放权重模型新选项,OpenAI可以赢得他们的好感,树立正面可靠的公共形象。

这更是一场高风险但明智的豪赌,赌的是这些模型能击垮竞争对手

具体而言,奥特曼正是向其对手扎克伯格学了一招,后者的Meta公司将Llama模型作为开放权重发布,目的就是让开发者不再愿意为Meta对手的模型付费。

颇具讽刺意味的是,现在Meta成了被OpenAI此番开放权重发布冲击最大的公司。Meta最新的Llama 4表现平平,令人失望。


Meta开启了一轮AI研究员的招聘,已经疯狂到如此地步:人工智能工程师Yangshun Tay透露,他在领英上晒出OpenAI的offer后,Meta在几小时内就主动联系了他。


然而,面临威胁的不仅是 Meta。由于新的开放权重模型性能极为出色,开发者很可能会因此放弃Anthropic、谷歌甚至OpenAI自家的商业模型。既然能用上免费的开放权重模型,谁还会为GPT-4o或o1买单呢?

不过,正如之前所指出的,尽管旧模型的成本在快速下降,但开发者似乎仍愿意为最顶尖的模型支付费用。因此,OpenAI可能在赌:

旧模型的收入占比已经足够小,就算为了在此过程中击败对手而牺牲掉这部分收入,也毫不足惜。

OpenAI敢于这么做,可能预示着其即将推出的GPT-5模型将非常强大。换言之,OpenAI必然相信,GPT-5的卓越性能足以让开发者心甘情愿地为其支付高昂的费用。

另外一些开发者告诉媒体记者,对于需要将AI模型运行在自己「本地部署」服务器上的大型企业而言,OpenAI的新模型不啻为一大福音。

一位创始人谈到,迄今为止,他们在本地部署性能稍逊的Llama和Mistral模型,然后再偶尔调用OpenAI、Anthropic 或谷歌提供的云端AI服务。而现在,他们将能够完全在本地环境使用OpenAI品牌的模型了。

参考资料:

https://x.com/theinformation/status/1953097373011329456

https://x.com/hunoematic/status/1953210897171874195

https://x.com/ArtificialAnlys/status/1952887733803991070

https://x.com/minchoi/status/1953100882028937266


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊能静真人又矮又胖,臀部好宽大

伊能静真人又矮又胖,臀部好宽大

TVB的四小花
2026-01-07 01:18:53
你在闲鱼都买过什么特别的东西?网友:原来这才是咸鱼的意义

你在闲鱼都买过什么特别的东西?网友:原来这才是咸鱼的意义

夜深爱杂谈
2026-01-07 22:00:31
周恩来的母亲万冬儿有多美?才华横溢眉目如画,30岁因肺结核去世

周恩来的母亲万冬儿有多美?才华横溢眉目如画,30岁因肺结核去世

芊芊子吟
2026-01-06 13:50:03
把玄戒O1念成“玄戒零一”,雷军认错:确实是讲错了

把玄戒O1念成“玄戒零一”,雷军认错:确实是讲错了

三言科技
2026-01-07 22:40:05
王力宏大概是全网最没有物质欲的明星,他是真的毫无偶像包袱

王力宏大概是全网最没有物质欲的明星,他是真的毫无偶像包袱

情感大头说说
2026-01-06 11:18:22
郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

郑丽文口气真大!大陆不安排见高层就不来?国台办回应很明确!

悦心知足
2026-01-08 03:03:00
疯了?利物浦 8700 万砸曼联旧将!萨拉赫接班人竟是这争议王

疯了?利物浦 8700 万砸曼联旧将!萨拉赫接班人竟是这争议王

澜归序
2026-01-08 06:53:53
痛心!湖南14岁男孩意外离世三名少年同遭不幸,母亲泣诉前夫失职

痛心!湖南14岁男孩意外离世三名少年同遭不幸,母亲泣诉前夫失职

行者聊官
2026-01-08 09:03:47
中国放出可能扣留售台武器的信号,美国回应来了,还是“双簧”

中国放出可能扣留售台武器的信号,美国回应来了,还是“双簧”

安安说
2026-01-06 14:46:44
跨年仅3天,具俊晔撕破汪小菲面子,马筱梅悲惨出局!

跨年仅3天,具俊晔撕破汪小菲面子,马筱梅悲惨出局!

瓜汁橘长Dr
2026-01-07 17:20:23
我国存款最安全的3大银行,永远都不会倒闭,你知道是哪3家吗?

我国存款最安全的3大银行,永远都不会倒闭,你知道是哪3家吗?

小熊侃史
2026-01-07 11:17:59
深圳信息职业技术大学正式成立

深圳信息职业技术大学正式成立

南方都市报
2026-01-08 13:01:48
海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

快科技
2026-01-06 10:10:07
直怼老马丁,里奇-保罗:说塔图姆回归会伤害绿军的都疯了

直怼老马丁,里奇-保罗:说塔图姆回归会伤害绿军的都疯了

懂球帝
2026-01-08 16:10:10
库里砍31分6板7助,成为历史上30+得分场次最多的控球后卫

库里砍31分6板7助,成为历史上30+得分场次最多的控球后卫

懂球帝
2026-01-08 14:39:02
国务院最新任命!成立2年多的国家局,领导班子有调整

国务院最新任命!成立2年多的国家局,领导班子有调整

上观新闻
2026-01-08 12:40:13
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
离岸人民币兑美元跌127.0个基点,报6.9935

离岸人民币兑美元跌127.0个基点,报6.9935

每日经济新闻
2026-01-08 06:16:03
“慰安妇”韦绍兰:忍辱生下日本兵后代,儿子:母亲去世就喝农药

“慰安妇”韦绍兰:忍辱生下日本兵后代,儿子:母亲去世就喝农药

何氽简史
2025-12-31 18:45:15
拆解三峡集团 2026 校招名单:这届毕业生想进国企,得卷到什么程度?

拆解三峡集团 2026 校招名单:这届毕业生想进国企,得卷到什么程度?

老满说高考
2026-01-07 20:56:46
2026-01-08 16:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14283文章数 66451关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

头条要闻

中方被指正考虑进一步收紧中重稀土出口 日本业界慌了

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

2026春节档将有六部电影强势上映

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

艺术
家居
数码
教育
时尚

艺术要闻

颐和园金光穿洞

家居要闻

理性主义 冷调自由居所

数码要闻

鹰角网络与八位堂联名推出Retro 87复古键盘新春套装,售价499元

教育要闻

中考数学,求阴影面积?

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

无障碍浏览 进入关怀版