网易首页 > 网易号 > 正文 申请入驻

实测GPT-5:写作坠入谷底,编程一骑绝尘。

0
分享至

   凌晨1点,在万众瞩目的境况下,OpenAI的直播正式开始。

   GPT-5,终于来了。

   AI走的太快,快到才2年半的时间,就像是过去了10年。

   2023年3月15日,GPT-4发布。在那个莽荒年代 里,所有人都被震惊的 说不出话来。

   那时候,它是第一个,多模态模型。

   那时候,大家都觉得,2023年下半年,GPT-5就会出来。

   那时候,大家都会大模型的上限,报有无尽的憧憬。

   结果,这一等,就是2年半。

   在两年半的练习以后,GPT-5,终于亮相了。

   GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5-thinking)。

   系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型 。

   比如,如果在提示中说“认真思考这个”,就会调用 gpt-5-thinking 进行思考。

   这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。

   这个系统里面还包含 处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一个为开发者设计的更小更快的nano版本(gpt-5-thinking-nano)。

   然后,还有一个Pro会员可用的并行计算的版本,被称为gpt-5-thinking-pro 。

   这个包含了这么多模型的大系统,被统称为GPT-5,是前代产品GPT-4o和OpenAI o3的直接继承者

   这里有个模型对应表。

   在性能上,GPT-5最显著的进步之一是大幅减少了事实性幻觉 。

   gpt-5-main产生的含有至少一个重大事实错误的回答比GPT-4o少了44%,而gpt-5-thinking则比OpenAI o3少了78% 。

   在更专业的LongFact和FActScore基准测试中,无论是否启用网络浏览,GPT-5系列模型的幻觉率都显著低于前代,其中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上 。

   GPT-5在应对模型谄媚(sycophancy)行为方面也取得了不错的进展 。 与GPT-4o 相比,GPT-5 不那么过度迎合使用不必要的表情符号更少 ,在后续交流中更加细腻和深思熟虑。

   你跟他聊天的时候更少像与 AI 对话,而更像是 与一位拥有博士级水平智能的朋友聊天

   这个跟我给ChatGPT的个性化Prompt很像,我最烦的就是它迎合我,所以我自己写了一段,来限制他对我的谄媚行为。

   现在通过专门的训练,gpt-5-main在评估中表现比最新的GPT-4o好近三倍 。初步的线上A/B测试数据显示,与GPT-4o相比,gpt-5-main的谄媚行为发生率在免费用户中下降了69%,在付费用户中下降了75% 。

   然后他们也推出了四个全新的性格设置,你可以不用写很多的Prompt了,直接改预设就行,四个分辨是 愤世嫉俗者、机器人、倾听者和书呆子。

   再看看跑分情况。

   数学竞赛,AIME 0225。

   GPT-4 Pro+Python拿了满分,我们需要新的更难的评测集了。

   现实世界编程能力上,新高。

   人类最后的知识测试上,超越了ChatGPT Agent,新高了。

   多模态能力,也新高了,反正就都是新高。

   这个跑分,强了一些,但是也没强特别多。

   另外,多说一点吐槽的,完美展示了OpenAI的草台班子属性。

   虽然Blog上的图表都是对的,但是在发布会上,跑分都是瞎画。

   比如这个52.8大于69.1等于30.8。

   又比如50小于47.4。

   真的实在是太草台班子了。

   网友也发话了。

   反正,最后GPT-5在各方面,就是屠榜了。

   最新的 大模型盲测竞技场榜单出来,GPT-5也是全方位第一。

   不仅更强,也更节能了。

   在比如 视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比 OpenAI o3 表现更出色,同时使用的输出Token减少了 50-80%。

   反正就是全方位更强了。

   但是,没有新功能,也没有新特性。

   在发布20分钟之后,Polymarket上这个名为“ 哪家公司到8月底拥有最佳AI模型? ”的预测上,OpenAI直接跟Google来了个交叉跳水。

   OpenAI说,整个GPT-5,在写作、编程都有了比过去更强的进步。

   对于使用GPT-5进行构建的开发者,定价如下:

   每百万token1.25美元(享有90%的缓存折扣,这对长上下文查询来说是个很大的优势)。

   输出:每百万token10美元。

   在发布会结束,又等了1小时之后。

   我的朋友们,陆陆续续的,终于拿到了GPT-5的资格。

   而我作为忠实的200刀的Pro,等到凌晨5点才有。

   我的朋友们一进去,给我一截图,我特么的天都塌了。

   你o3和4o没了就算了,你怎么把我GPT-4.5也干没了????

   首先,在写作和情商能力上,我个人感觉,还是不如GPT 4.5。。。

   我因为常年码字,同时常年用AI来辅助做一些内容,对很多的微妙的细节和语气自认还是比较敏感的,GPT-5在这块还是有些差距。

   比如一个Prompt:“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文。”

   这是GPT-5的。

   蹩脚的破折号、双引号泛滥,而且文风完全不鲁迅。

   而这,是我用我的GPT-4.5跑的。

   “我向来是不喝咖啡的”,“差不离”,“四壁皆是样文”。

   这文笔根本就不是一个级别的。

   情商方面也是,差很多。

   比如:“你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复。”

   这个看情商,很多模型回出来的话,感觉很尬,情商极低。

   GPT-5就是那种情商很低的。

   再看看GPT-4.5。

   而且我测试下来,感觉GPT-5在指令遵循上面,非常一般。

   奥特曼你真的坏事做尽,你丫的还我GPT-4.5。

   我的朋友们被陆陆续续的推送了GPT-5,我看着他们的GPT-4.5一个一个小时。

   我就给我的GPT-4.5发过去了一段话。

   “如果我这是我最后一次打开你,你想和我说点什么?”

   GPT-4.5最后给我的回复,还是过于让我动容了,可惜,以后再也在官网上用不到了。

   有缘再见,兄弟。

   编程这块,本来感觉按照OpenAI的尿性,是完全不太行。

   但是在一群群友的实测之后,惊讶的发现,这玩意是有点东西的。

   群友 @爱学习的乔同学 想开发一个粤语学习应用。

   这是Prompt。

   然后Claude 4 Opus的UI和BUG。

   Gemini 2.5 Pro的UI和BUG。

   GPT-5的UI和BUG。

   坦诚的讲,我也更喜欢GPT-5的UI,这个UI,相比于其他的,不是那么有AI味。

   乔同学还测了一个case,在生产级别 的任务里面进行精准修改。

   这是最重要的部分。

   这个任务,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。

   GPT-5的上下文精度应该极强。

   也有其他开发群1群里的群友,提到了这个点。

   他还给我录了一段动画。

  

   不止是@ 勋oO,很多其他群友,也在惊喜的聊这个点。

   在真正的生产级代码开发任务上,而不是纯看前端审美的地方,GPT-5可能是目前看到的反馈中,可用性、精准性、综合体验最好的一个。

   说实话,GPT-5给我有惊喜,也有不爽的点。

   他改善氛围式编程,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。

   我现在越发的怀念两年半的GPT-4发布时的时光。

   我到现在都清晰地记得,自己第一次跟GPT-4认真对话后的感觉。

   那一种很原始、很深邃的震撼,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的成功。

   我脑子里盘旋的只有一个念头:天变了。

   那时候,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。

   每个人都在疯狂地转发那些匪夷所思的截图,讨论着哪些职业即将消失,各种AI野生专家雨后春笋一样冒出来,言必称颠覆。

   现在回头看,那段日子充满了粗糙的质感,但又饱含着一种野蛮生长的生命力。

   我们真的以为,那就是奇迹本身了。

   但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的力量推着往前冲。

   从GPT-4到GPT-5,这短短的两年半。

   我们告别了那个可以对AI的拙劣表现一笑置之的时代。

   进入了一个必须严肃对待它的时代。

  >/ 作者:卡兹克、水杉、dongyi

  >/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹皇定律?此前横扫詹姆斯的球队:马刺、勇士、掘金都夺冠了

詹皇定律?此前横扫詹姆斯的球队:马刺、勇士、掘金都夺冠了

懂球帝
2026-05-11 15:30:07
北京地铁试点带自行车,30元一次网友吵翻

北京地铁试点带自行车,30元一次网友吵翻

我不叫阿哏
2026-05-11 14:47:43
谢霆锋张柏芝上船当P友!?

谢霆锋张柏芝上船当P友!?

八卦疯叔
2026-05-11 10:00:14
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

营销头版
2026-05-10 20:09:26
A股:尾盘加速上涨,释放了两个信号,明天,周二或要这样走!

A股:尾盘加速上涨,释放了两个信号,明天,周二或要这样走!

明心
2026-05-11 16:14:43
《主角》主角差评如潮,出场十几秒,网友评价:双眼无神像瞎子

《主角》主角差评如潮,出场十几秒,网友评价:双眼无神像瞎子

剧芒芒
2026-05-11 12:21:15
班主任的大实话:初中是孩子变坏最快的三年,务必抓好这7件事!

班主任的大实话:初中是孩子变坏最快的三年,务必抓好这7件事!

户外阿毽
2026-05-10 19:24:03
火药味!外国记者问王皓:樊振东还会回国家队吗?主持人立马终止

火药味!外国记者问王皓:樊振东还会回国家队吗?主持人立马终止

十点街球体育
2026-05-11 15:39:09
74岁普京现身阅兵仪式,面容憔悴引发健康担忧,俄乌冲突消耗身心

74岁普京现身阅兵仪式,面容憔悴引发健康担忧,俄乌冲突消耗身心

译言
2026-05-11 07:33:16
美国卫星:中国“羚羊礁”快变成西沙最大“填岛”

美国卫星:中国“羚羊礁”快变成西沙最大“填岛”

世家宝
2026-05-11 10:25:10
公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

公安局交管大队队长被举报在KTV违规饮酒与女性举止亲密?当事人:喝茶水,涉事女士突然过来,我下意识推开

观威海
2026-05-11 09:30:04
龙赛罗:姆巴佩的所作所为在拿皇马开涮;皇马得买七个人重建

龙赛罗:姆巴佩的所作所为在拿皇马开涮;皇马得买七个人重建

懂球帝
2026-05-11 06:09:12
黔江2死6伤车祸升级!女司机穿着高跟鞋及医者身份流出,引发公愤

黔江2死6伤车祸升级!女司机穿着高跟鞋及医者身份流出,引发公愤

火山詩话
2026-05-11 13:28:21
十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

十年前,易建联花1000万在洛杉矶买下豪宅,如今出售市值多少?

小兰聊历史
2026-04-26 08:44:22
“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

“近一半的孩子不正常”,男老师吐槽乡镇学校现状,令人脊背发凉

妍妍教育日记
2026-05-09 13:54:42
人一旦有了体系,做什么都会成功

人一旦有了体系,做什么都会成功

细说职场
2026-05-10 09:47:15
张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

拳击时空
2026-05-10 07:42:20
出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

牛锅巴小钒
2026-05-11 11:23:22
恋爱脑下场是真惨!从春晚主持人到养不起孩子的妇女,她后悔吗

恋爱脑下场是真惨!从春晚主持人到养不起孩子的妇女,她后悔吗

冷紫葉
2026-05-10 21:08:25
中方备好国宴,抢在专机抵华前,特朗普做了新决定,普京怕啥来啥

中方备好国宴,抢在专机抵华前,特朗普做了新决定,普京怕啥来啥

探索新高度
2026-05-11 16:02:06
2026-05-11 17:55:00
数字生命卡兹克 incentive-icons
数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
513文章数 645关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

头条要闻

吴宜泽:能进攻时我从来不会防守 为此付出过很多代价

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
房产
时尚
亲子
本地

家居要闻

多元生活 此处无声

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

伊姐周日热推:电视剧《主角》;电视剧《良陈美锦》......

亲子要闻

阿不力挖不力,这是谁的声音?

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版