网易首页 > 网易号 > 正文 申请入驻

GPT-5真身曝光,首测编程惊艳全网!一句话秒生游戏,OpenAI双雄备战AGI

0
分享至


新智元报道

编辑:桃子

【新智元导读】GPT-5更近了!今天,神秘模型Horizon Alpha火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI核心大脑专访坦言模型还有瓶颈,但坚信Scaling Law没有尽头。

GPT-5的发布前兆,愈发强烈了。

今早,一款神秘模型Horizon Alpha突然上线OpenRouter,各种榜单和测试席卷了全网。


Horizon Alpha模型的上下文为256K,响应极速,非常擅长创意写作。

它还具备了「推理」功能,不过,推理token的预算是o4-mini的两倍。


在编程方面,Horizon Alpha堪称无敌了。

它可以一句话生成「水果忍者」、「外星人抓奶牛」等各种游戏,能根据logo图直出广告,还能轻而易举地通过「六边形物理模拟」测试。





左右滑动查看

在写作EQ-Bench基准测试中,Horizon Alpha位列第一,远超o3、Gemini 2.5 Pro。




左右滑动查看

更令人惊叹的是,它竟能在30秒内,完成20位数与20位数的乘法运算。


此前被爆料的各种代号模型,比如lobster、zenith、summit等,在多项测试中惊艳了所有人。

种种迹象表明,GPT-5「全家桶」绝对是个地表最强模型。


谷歌收录GPT-5的OpenAI文档页面,目前404

关于Horizon Alpha的更多细节,全部浓缩在网友的实测中了。

神秘Horizon Alpha登场,编程强到逆天

目前,在OpenRouter平台上,即可开启对Horizon Alpha版本的测试。


传送门:https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l

在模型推理时,相较于Claude Sonnet 4(60-80 token/s),Horizon Alpha的吞吐量是最快的,达120个token/s。

吞吐量对比测试,Horizon Alpha是目前最快的。


物理模拟惊艳,秒搭网页

有网友让其创建一个功能完整的Windows 95复古桌面,效果令人惊喜且生成速度极快。


另一个让小球在多边形中,模拟物理的测试。

不论是六边形,还是三角形,即便小球可运动的区间缩小,也不会影响效果。


再上点难度,20个球在旋转的七边形内弹跳。网友惊讶地表示,「这是自己目前见过最出色的版本之一」。


Horizon Alpha能够在3分48秒中,创建一个展示一系列简单有趣的浏览器小游戏的网页。

给Horizon Alpha同一个提示,「创建一个视觉上有趣的着色器,可以在 twigl 应用中运行,让它看起来像暴风雨中的海洋」。

沃顿商学院CS教授Ethan Mollick惊叹道,这是迄今为止最好的,而且创建速度非常快。



当网友要求其「创建一个与遛狗的商业网站」,Horizon Alpha爱问一大堆需要提前确认的问题;Sonnet 4则会直接给出解决方案。


左:Horizon Alpha;右:Claude Sonnet 4

最终,从搭建的效果来看,Horizon Alpha输出的质量高且简洁。Sonnet 4输出的更长,内容更全面,也更具创意。



上:Horizon Alpha;下:Claude Sonnet 4

Horizon Alpha还会自主搭建一个银行网站。


设计一绝,审美感在线

AI大佬Matthew Berman亲自测试其SVG创建和UI设计功能,Horizon Alpha瞬间生成了一张专业设计美感的图。



此前,AI圈大神Simon Willison曾表示,从一张「骑自行车的鹈鹕」就可以看透AI进化史。

如今,用Horizon Alpha生成同款SVG测试,是所有模型当中最强的那个。


其他一些SVG优秀案例。










左右滑动查看

需要注意的是,虽然各种测试表现不凡,不过根据多方推测,Horizon Alpha可能只是一款小模型。


不管是GPT-5中的哪一款,接下来就坐等OpenAI发布了。

OpenAI「双雄」专访,奥特曼盛赞

就在GPT-5发布前夕,OpenAI双雄——首席科学家Jakub Pachocki和研究主管Mark Chen重磅采访同时放出了。

这对黄金搭档,可是研发GPT-5的「双巨头」。

这篇由MIT Technology Review做的独家专访,没想到深得奥特曼的心。

他对此大加赞赏,「我通常认为这类文章说不到点上,但这篇确实抓住了两人合作精髓」。


能够得到奥特曼的高度认可,究竟讲了什么?

OpenAI最佳拍档

熟悉OpenAI内部人员变动的人都知道,Jakub Pachocki和Mark Chen都是后起之秀。

他们风格迥异,却形成了完美的互补。

Mark Chen,曾经的华尔街量化交易员,着装考究,谈吐间挥洒自如,可以说与AI毫不搭界。


入职OpenAI后,他迅速成长为DALL·E和GPT-4多模态能力、Codex背后的关键推手,擅长将复杂的研究转化为人人可用的产品。

而Jakub Pachocki,一位低调的理论计算机科学家,接替了离职后的Ilya,痴迷于突破AI逻辑与创造力的极限。


关于内部的角色分工,Pachocki是这么说的,「Chen负责组建和管理研究团队,而我负责设定研究路线图,并确立我们长期的技术愿景」。

他们之间合作模式,可以说是「无缝切换」。

不论技术难题多么复杂,Pachocki和Mark总能非常默契,迅速分工合力攻克。

AGI标尺,自主时间

当前,外界对GPT-5的期待,是一款更强、更快、更全能的巨兽。

采访中,Mark Chen虽未直面GPT-5问题,却坦言「我们始终在努力理解深度学习的技术瓶颈,即便是当前最强推理模型,也无法有效将知识串联起来」。


Pachocki补充道,「我们仍处于推理范式最开端」。

如何让一款模型进行长期的学习和探索,并提出新颖的想法,才是至关重要。

同时,在他们看来,Scaling Law远未触及天花板,通过投入更多计算资源、数据,模型就会变得越来越好。

被问题如何看待AGI时,Mark Chen提出了一个指标——模型能更长时间地自主工作的能力,即「自主时间」。

这个概念简单却深刻,它代表着AI在面对复杂问题时,能持续取得进展,而无需人类干预的时间长度。

这个愿景,远远超出了当前模型的能力,自主时间仅限于几分钟到一小时,遇到陌生场景往往会「卡住」。

数学+编程,摘下AI圣杯?

前段时间,OpenAI模型在两项顶级竞赛中取得佳绩:

一是,在AtCoder世界巡回赛总决赛中获第二名;二是,在IMO 2025大赛中夺下金牌。


在AtCoder比赛中,Psyho的胜利展现了人类独有的创造性思维,类似AlphaGo当年击败李世石的围棋比赛。

Pachocki表示,「我们在这里谈论的是编程和数学,但它实际上关乎创造力,提出新颖的想法,将不同领域的想法联系起来」。

在他们二人看来,数学和编程是「通用智能」的基石。

参考资料:

https://x.com/karminski3/status/1950987896565182587 https://x.com/chetaslua/status/1950784759799718161

https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开瑞新能源货车一年两次“趴窝”?货车司机:维修近一个月断了收入

开瑞新能源货车一年两次“趴窝”?货车司机:维修近一个月断了收入

福建第一帮帮团
2026-01-08 20:03:35
港媒:中国这来真的,日本无力招架,高市辞职才能化解危机!

港媒:中国这来真的,日本无力招架,高市辞职才能化解危机!

达文西看世界
2026-01-09 10:42:16
拍“素颜巴黎”火了的大爷再直播,坐在三门峡的湖边喂天鹅:欧洲行跟团费用一万多,自己不会说英语

拍“素颜巴黎”火了的大爷再直播,坐在三门峡的湖边喂天鹅:欧洲行跟团费用一万多,自己不会说英语

极目新闻
2026-01-08 18:37:44
小鹏太狂了!4 款新车齐发,价格降到 17 万,续航干到 1704km !

小鹏太狂了!4 款新车齐发,价格降到 17 万,续航干到 1704km !

科技狐
2026-01-08 23:21:14
乱套!16强全出炉:陈熠晋级,日乒主力出局,王曼昱赛后发言淡定

乱套!16强全出炉:陈熠晋级,日乒主力出局,王曼昱赛后发言淡定

郝小小看体育
2026-01-09 05:47:22
台海演习惊动全球!各国忙着表态:美国内部唱双簧,韩国可圈可点

台海演习惊动全球!各国忙着表态:美国内部唱双簧,韩国可圈可点

史海任我行
2026-01-07 13:51:57
为创收逼迫员工上门断网?上海移动回应:与事实严重不符,已报案

为创收逼迫员工上门断网?上海移动回应:与事实严重不符,已报案

澎湃新闻
2026-01-08 16:36:27
广东即将升温,广州重回20℃!新冷空气已“安排”

广东即将升温,广州重回20℃!新冷空气已“安排”

鲁中晨报
2026-01-09 07:09:23
天津市卫生健康委员会副主任邓全军接受审查调查

天津市卫生健康委员会副主任邓全军接受审查调查

界面新闻
2026-01-08 16:01:51
日本不留中国制裁,入日籍的北大叛徒石平,终于玩不转了!

日本不留中国制裁,入日籍的北大叛徒石平,终于玩不转了!

行走的知识库
2026-01-03 18:53:25
小马科斯送走杜特尔特,美国一动手他就慌了,菲律宾下一步怎么走

小马科斯送走杜特尔特,美国一动手他就慌了,菲律宾下一步怎么走

兴史兴谈
2026-01-08 09:55:48
研究生教人骑车两年赚27万,当事人:市场需求大

研究生教人骑车两年赚27万,当事人:市场需求大

南国今报
2026-01-08 22:11:08
重要赛事!1月9晚上19:30!中央5套CCTV5、CCTV5+直播节目表

重要赛事!1月9晚上19:30!中央5套CCTV5、CCTV5+直播节目表

皮皮观天下
2026-01-09 07:46:06
芝野虎丸逆转半目险胜 申真谞完胜中国名将 屠晓宇速胜韩名将

芝野虎丸逆转半目险胜 申真谞完胜中国名将 屠晓宇速胜韩名将

L76号
2026-01-09 07:24:52
宜家的问题已经挺严重了

宜家的问题已经挺严重了

蔚然未来消费
2026-01-08 08:34:50
值得珍藏:商业航天+国产算力+机器人+全球第一的企业+6G产业链等

值得珍藏:商业航天+国产算力+机器人+全球第一的企业+6G产业链等

Thurman在昆明
2026-01-08 10:06:36
广东3消息!朱芳雨上诉成功,杜锋捧杀辽篮,王少杰缺席辽粤大战

广东3消息!朱芳雨上诉成功,杜锋捧杀辽篮,王少杰缺席辽粤大战

多特体育说
2026-01-08 22:09:17
6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

6年了,郭麒麟的反击几乎断送了朱亚文的演艺生涯

小熊侃史
2025-12-25 11:24:12
史上第一富!4.7万亿!马斯克个人财富打破人类纪录

史上第一富!4.7万亿!马斯克个人财富打破人类纪录

牛牛叨史
2025-12-22 22:53:16
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
2026-01-09 11:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14290文章数 66451关注度
往期回顾 全部

科技要闻

17.68万起售!何小鹏一口气发了4款车

头条要闻

特朗普:我不需要国际法 只有我的道德观念能阻止我

头条要闻

特朗普:我不需要国际法 只有我的道德观念能阻止我

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

上汽大众首款“9系旗舰” ID. ERA 9X实车曝光

态度原创

游戏
数码
艺术
公开课
军事航空

避《GTA6》锋芒! 《漫威金刚狼》或将于26年9月发布

数码要闻

第三代英特尔酷睿Ultra凭什么征服各方?

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版