网易首页 > 网易号 > 正文 申请入驻

GPT-5真身曝光,首测编程惊艳全网!一句话秒生游戏,OpenAI双雄备战AGI

0
分享至

新智元报道

编辑:桃子

【新智元导读】GPT-5更近了!今天,神秘模型Horizon Alpha火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI核心大脑专访坦言模型还有瓶颈,但坚信Scaling Law没有尽头。

GPT-5的发布前兆,愈发强烈了。

今早,一款神秘模型Horizon Alpha突然上线OpenRouter,各种榜单和测试席卷了全网。

Horizon Alpha模型的上下文为256K,响应极速,非常擅长创意写作。

它还具备了「推理」功能,不过,推理token的预算是o4-mini的两倍。

在编程方面,Horizon Alpha堪称无敌了。

它可以一句话生成「水果忍者」、「外星人抓奶牛」等各种游戏,能根据logo图直出广告,还能轻而易举地通过「六边形物理模拟」测试。

左右滑动查看

在写作EQ-Bench基准测试中,Horizon Alpha位列第一,远超o3、Gemini 2.5 Pro。

左右滑动查看

更令人惊叹的是,它竟能在30秒内,完成20位数与20位数的乘法运算。

此前被爆料的各种代号模型,比如lobster、zenith、summit等,在多项测试中惊艳了所有人。

种种迹象表明,GPT-5「全家桶」绝对是个地表最强模型。

谷歌收录GPT-5的OpenAI文档页面,目前404

关于Horizon Alpha的更多细节,全部浓缩在网友的实测中了。

神秘Horizon Alpha登场,编程强到逆天

目前,在OpenRouter平台上,即可开启对Horizon Alpha版本的测试。

传送门:https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l

在模型推理时,相较于Claude Sonnet 4(60-80 token/s),Horizon Alpha的吞吐量是最快的,达120个token/s。

吞吐量对比测试,Horizon Alpha是目前最快的。

物理模拟惊艳,秒搭网页

有网友让其创建一个功能完整的Windows 95复古桌面,效果令人惊喜且生成速度极快。

另一个让小球在多边形中,模拟物理的测试。

不论是六边形,还是三角形,即便小球可运动的区间缩小,也不会影响效果。

再上点难度,20个球在旋转的七边形内弹跳。网友惊讶地表示,「这是自己目前见过最出色的版本之一」。

Horizon Alpha能够在3分48秒中,创建一个展示一系列简单有趣的浏览器小游戏的网页。

给Horizon Alpha同一个提示,「创建一个视觉上有趣的着色器,可以在 twigl 应用中运行,让它看起来像暴风雨中的海洋」。

沃顿商学院CS教授Ethan Mollick惊叹道,这是迄今为止最好的,而且创建速度非常快。

当网友要求其「创建一个与遛狗的商业网站」,Horizon Alpha爱问一大堆需要提前确认的问题;Sonnet 4则会直接给出解决方案。

左:Horizon Alpha;右:Claude Sonnet 4

最终,从搭建的效果来看,Horizon Alpha输出的质量高且简洁。Sonnet 4输出的更长,内容更全面,也更具创意。

上:Horizon Alpha;下:Claude Sonnet 4

Horizon Alpha还会自主搭建一个银行网站。

设计一绝,审美感在线

AI大佬Matthew Berman亲自测试其SVG创建和UI设计功能,Horizon Alpha瞬间生成了一张专业设计美感的图。

此前,AI圈大神Simon Willison曾表示,从一张「骑自行车的鹈鹕」就可以看透AI进化史。

如今,用Horizon Alpha生成同款SVG测试,是所有模型当中最强的那个。

其他一些SVG优秀案例。

左右滑动查看

需要注意的是,虽然各种测试表现不凡,不过根据多方推测,Horizon Alpha可能只是一款小模型。

不管是GPT-5中的哪一款,接下来就坐等OpenAI发布了。

OpenAI「双雄」专访,奥特曼盛赞

就在GPT-5发布前夕,OpenAI双雄——首席科学家Jakub Pachocki和研究主管Mark Chen重磅采访同时放出了。

这对黄金搭档,可是研发GPT-5的「双巨头」。

这篇由MIT Technology Review做的独家专访,没想到深得奥特曼的心。

他对此大加赞赏,「我通常认为这类文章说不到点上,但这篇确实抓住了两人合作精髓」。

能够得到奥特曼的高度认可,究竟讲了什么?

OpenAI最佳拍档

熟悉OpenAI内部人员变动的人都知道,Jakub Pachocki和Mark Chen都是后起之秀。

他们风格迥异,却形成了完美的互补。

Mark Chen,曾经的华尔街量化交易员,着装考究,谈吐间挥洒自如,可以说与AI毫不搭界。

入职OpenAI后,他迅速成长为DALL·E和GPT-4多模态能力、Codex背后的关键推手,擅长将复杂的研究转化为人人可用的产品。

而Jakub Pachocki,一位低调的理论计算机科学家,接替了离职后的Ilya,痴迷于突破AI逻辑与创造力的极限。

关于内部的角色分工,Pachocki是这么说的,「Chen负责组建和管理研究团队,而我负责设定研究路线图,并确立我们长期的技术愿景」。

他们之间合作模式,可以说是「无缝切换」。

不论技术难题多么复杂,Pachocki和Mark总能非常默契,迅速分工合力攻克。

AGI标尺,自主时间

当前,外界对GPT-5的期待,是一款更强、更快、更全能的巨兽。

采访中,Mark Chen虽未直面GPT-5问题,却坦言「我们始终在努力理解深度学习的技术瓶颈,即便是当前最强推理模型,也无法有效将知识串联起来」。

Pachocki补充道,「我们仍处于推理范式最开端」。

如何让一款模型进行长期的学习和探索,并提出新颖的想法,才是至关重要。

同时,在他们看来,Scaling Law远未触及天花板,通过投入更多计算资源、数据,模型就会变得越来越好。

被问题如何看待AGI时,Mark Chen提出了一个指标——模型能更长时间地自主工作的能力,即「自主时间」。

这个概念简单却深刻,它代表着AI在面对复杂问题时,能持续取得进展,而无需人类干预的时间长度。

这个愿景,远远超出了当前模型的能力,自主时间仅限于几分钟到一小时,遇到陌生场景往往会「卡住」。

数学+编程,摘下AI圣杯?

前段时间,OpenAI模型在两项顶级竞赛中取得佳绩:

一是,在AtCoder世界巡回赛总决赛中获第二名;二是,在IMO 2025大赛中夺下金牌。

在AtCoder比赛中,Psyho的胜利展现了人类独有的创造性思维,类似AlphaGo当年击败李世石的围棋比赛。

Pachocki表示,「我们在这里谈论的是编程和数学,但它实际上关乎创造力,提出新颖的想法,将不同领域的想法联系起来」。

在他们二人看来,数学和编程是「通用智能」的基石。

参考资料:

https://x.com/karminski3/status/1950987896565182587 https://x.com/chetaslua/status/1950784759799718161

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楚钦谈抵制饭圈不良行为:特别赞同,深受其害

王楚钦谈抵制饭圈不良行为:特别赞同,深受其害

懂球帝
2026-03-11 15:44:09
他原本都打算淡出鲁能主力阵容,没想到本赛季还是首发,引发热议

他原本都打算淡出鲁能主力阵容,没想到本赛季还是首发,引发热议

篮球看比赛
2026-03-11 11:16:26
新欢上位成功?买超又曝喜当爹,新欢似是当年那个女大学生

新欢上位成功?买超又曝喜当爹,新欢似是当年那个女大学生

悦君兮君不知
2026-03-09 21:42:31
许利民:明显感觉麦基首秀中有些不适应,希望他成为队内领袖

许利民:明显感觉麦基首秀中有些不适应,希望他成为队内领袖

懂球帝
2026-03-11 21:45:19
黑木耳和它天生“犯冲”,千万别一起炒,很多人都犯过这个错!

黑木耳和它天生“犯冲”,千万别一起炒,很多人都犯过这个错!

江江食研社
2026-03-11 19:30:12
辽宁逆转深圳拒绝三杀:赵继伟17+6+9献关键得分 莫兰德21+13

辽宁逆转深圳拒绝三杀:赵继伟17+6+9献关键得分 莫兰德21+13

醉卧浮生
2026-03-11 21:27:35
塞尔比霍金斯退出世界公开赛,全位居下半区,赵心童夺冠更稳了?

塞尔比霍金斯退出世界公开赛,全位居下半区,赵心童夺冠更稳了?

余憁搞笑段子
2026-03-11 17:52:46
哈梅内伊次子,“带伤上任”

哈梅内伊次子,“带伤上任”

中国新闻周刊
2026-03-11 19:38:03
上海母女俩小区里祭祀遭碾压,快递小哥抬车救人腰椎骨折,想办理工伤必须要见义勇为认定书?相关部门:已申请!

上海母女俩小区里祭祀遭碾压,快递小哥抬车救人腰椎骨折,想办理工伤必须要见义勇为认定书?相关部门:已申请!

黄河新闻网吕梁
2026-03-11 11:38:43
破防了!重庆冠军赛:王曼昱赛后采访声音颤抖,感觉她压力很大

破防了!重庆冠军赛:王曼昱赛后采访声音颤抖,感觉她压力很大

宝哥精彩赛事
2026-03-11 13:30:06
京东有奖发票活动火了!有人中10万现金 有人连中4次最高奖

京东有奖发票活动火了!有人中10万现金 有人连中4次最高奖

快科技
2026-03-10 17:24:14
6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

6点吃晚饭是错误的?医生建议:过了70岁,晚饭尽量要做到这6点

医学科普汇
2026-03-09 21:50:06
52岁北京炒股冠军罕见发声:散户一直持仓不斩仓,主力会怎么做?

52岁北京炒股冠军罕见发声:散户一直持仓不斩仓,主力会怎么做?

股经纵横谈
2026-03-10 20:04:32
陪伴8位美国总统的中国女人,她到底是什么来头?

陪伴8位美国总统的中国女人,她到底是什么来头?

云景侃记
2026-03-09 22:06:20
老人在北京军博偷摸文物被制止,他却语出惊人:我背它走完的长征

老人在北京军博偷摸文物被制止,他却语出惊人:我背它走完的长征

云霄纪史观
2026-01-28 18:03:04
杭州企业上新本地版“龙虾”,年轻人排队安装,“养虾”真的适合所有人吗?

杭州企业上新本地版“龙虾”,年轻人排队安装,“养虾”真的适合所有人吗?

极目新闻
2026-03-11 19:51:59
伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

二疯说球
2026-03-11 08:11:58
超算互联网向每位OpenClaw用户免费发放1000万Tokens

超算互联网向每位OpenClaw用户免费发放1000万Tokens

界面新闻
2026-03-11 18:06:57
勇士加时惜败公牛:吉迪28次三双追平乔丹 布泽利斯41分生涯新高

勇士加时惜败公牛:吉迪28次三双追平乔丹 布泽利斯41分生涯新高

醉卧浮生
2026-03-11 12:43:53
突发:伊朗又出大事,小哈生死成谜!

突发:伊朗又出大事,小哈生死成谜!

仕道
2026-03-11 13:35:32
2026-03-11 22:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14696文章数 66682关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

头条要闻

一艘泰国货船在霍尔木兹海峡遭炮火袭击 伊朗强硬表态

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

本地
家居
时尚
房产
军事航空

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

家居要闻

中式风格 人间朝与暮

穿出巴黎女人的姿态,要几步?

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版