网易首页 > 网易号 > 正文 申请入驻

GPT-5很强,但也很无趣。

0
分享至


千呼万唤始出来,奥特曼终于端出来了全世界网友都心心念念的GPT-5。

不到一天的时间,OpenAI的发布推文就获得了300万阅读,3万点赞;世超的朋友圈、群聊,也全是被GPT-5刷屏的。


虽然大家伙都喊着OpenAI越来越拉了,再也不用了,但每次他们发布新模型,AI圈都得震一下,关不关注AI的都会来聊上一嘴。

果然,大家还是忘不了ChatGPT。。

所以,GPT5到底咋样?用奥特曼的话来说,这是他们做过的最智能的模型,还说在任何领域,GPT-5都达到了博士级别的水平。


但从网友的反应看,不少人都在对这个船新版本GPT发出锐评,抱怨这玩意根本就不是GPT-5,还不如grok。


Polymarket上还发起了一个叫“哪家公司在八月末拥有最顶级的AI模型”的竞猜,结果就在发布会刚开完时,谷歌和OpenAI的赔率来了个两极反转。


最搞的是,在发布会的时候,OpenAI放了张柱状图,在比较大模型写代码的准确度时,52.8%画得比69.1%还高,小学生都画不出来,这一波黑子白子都洗不了了。。


但我觉得吧,网友反应这么大,主要还是奥特曼吹得太狠了,还没发布的时候,AI圈还没震,自己就开始震上了。


该说不说,GPT-5的跑分是挺强的,在大模型竞技场LMArena上夺得了大满贯,全方位第一。


但到底好不好用,只有用户亲身体验过才知道。在体验了一圈GPT-5后,世超得出的结论是:没那么惊艳,不如叫GPT4.6。

首先,让大家最称赞的,还是GPT-5的编程能力。咱就和竞技场榜二Gemini 2.5 pro掰头一下。

首先我让它模拟了下我们高中就学过的弹性碰撞。


提示词:我是一名高中生,通过物理模拟让我理解弹性碰撞。


这家伙确实做得不错,不仅在球上把速度方向标注出来了,还能在碰撞中丝滑改变球的大小。

Gemini做得也还行,但总体感觉丝滑度上不如GPT,我一改变大小,球就卡住了,让我们强迫症非常不适。


接着,我掏出了我最爱的多米诺骨牌,这玩意我试过很多AI,基本都很难做出来。。

首先是GPT-5,这牌做得还真有点东西,非常的有动感。。


提示词:模拟多米诺骨牌的物理过程,左键放牌,右键倒牌。


Gemini这边呢,就理解得不是很好了,虽然也能倒吧,就是给哥们把牌挂到天上去了。。


当然这只是几个好的案例,也有比较搞笑的时候。。

我简单描述了下需求,让它生成了一个开飞船的游戏,没别的,主要是想开飞机。


它写出来的,只能说很一般,尾焰和动力根本不是一个方向,我直接出门即坠机。。


除了这些,其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的,完全不同于之前GPT3.5到4那样飞跃式的更新。

根据 OpenAI 官方博客的介绍,GPT-5 在思考和输出上都更加高效。它在保证准确率的同时,思考时间更短,输出的 Token 数量也减少了 50% 到 80%。

而且,GPT-5 对困扰大伙已久的幻觉问题也出了狠手,它的事实错误率比 GPT-4o 低了 45%,思考时的事实错误率更是比 GPT-4o 低了约 80%。


也就是说,GPT-5 变得更加诚实了。它清楚自己的能力边界,遇到不会的问题会直接说“不会”,做不到的事情会直说“做不到”,而不是像以前一样一本正经地胡说八道。

当然,对于俺们编辑来说,模型最重要的应该是写文章的能力,毕竟能帮我们上班(当然不是)。

但我体验了一圈下来,GPT-5给我的感觉,就像一个靠灵性吃饭的诗人,突然间失去了灵感。。

它在逻辑、推理、数学、编程这些需要严密思维的领域,达到了前所未有的高度,但文本创作这块,它却显得有些力不从心。

我先让GPT-5,撰写了一段夸自己的文字,说是得有生活气息,不能太尬。

结果我看了下,给我写了首诗,略微肉麻。。


接着,我们来看看Gemini怎么夸自己。(因为我让Gemini夸GPT5,它拒绝了)


虽然说文无第一,但我还是感觉Gemini写的,AI味道更淡一些。

如果要量化的话,你数一下两段话破折号和引号的数量,你就懂了。

虽然发布会上说,GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全,那种信手拈来的奇妙比喻,那种让人拍案叫绝的独特视角,好像少了一些

此外,网上有很多人控诉,在发布GPT-5的同时,OpenAI还强行删除了5之前的其他模型。。

现在,你打开GPT的界面,在模型选择的下拉菜单里,你基本只能看到GPT-5选项。


只能说,这操作确实有点离谱。毕竟国内的模型都能让我们决定是否“深度思考”,有时候需要又快又准,有时候也需要多而广,现在OpenAI却直接替用户做主,把所有选择权都收回去了。

当然也有些人说好,毕竟有些人是选择困难症,就喜欢别人帮他做决定,这就仁者见仁了。

但世超发现,ChatGPT的Pro会员还是能使用之前的旧模型的,属于是有点区别对待了。。(如果你希望用回 GPT-4o/4.5,在头像-设置里勾选显示传统模型,就可以切回传统模型了)


不仅如此,官方的偷偷降智行为,也不是很厚道。。

就那个奥特曼在发布会上展示的做音乐的例子,如果你的GPT-5被降智了,你是复刻不出来的,感兴趣的差友可以去试试。。



总的来说,比起基础能力的巨大提升,这次 OpenAI 的更新更值得关注的是其“实用第一”的策略。

一方面,这可能意味着大模型在基座性能升级上遇到了一定的瓶颈。另一方面,这种方向的调整确实有意义。毕竟,在过去几年里,大模型为了追求性能的狂野升级,导致幻觉、成本等 AI 常见问题一直被放在次要位置。

如今,随着 OpenAI 的周活跃用户已经达到 7 亿,在性能升级有限的情况下,是时候好好打磨一下产品体验了。

但大伙还是需要一些期待的,毕竟很久没有过一个开天辟地的新模型了。

所以下一个被寄予厚望的模型是谁呢?

就决定是你们了,DeepSeek R2 和 Gemini 3.0!

撰文:不咕

编辑:江江&面线

美编:焕妍

图片、资料来源

OpenAI、X、部分图源网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全明星首次世界队vs美国队:东契奇约基奇字母哥领衔 大战詹杜库

全明星首次世界队vs美国队:东契奇约基奇字母哥领衔 大战詹杜库

醉卧浮生
2026-02-02 07:51:45
你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

你家领导说过最炸裂的话是啥?网友:这个社会德不配位的人太多了

带你感受人间冷暖
2026-02-01 06:11:49
全球只有5位领导人被永久保留遗体,他们都是谁

全球只有5位领导人被永久保留遗体,他们都是谁

扶苏聊历史
2026-01-29 16:13:42
金价急跌之下,银行密集提示风险,部分实物金全线售罄

金价急跌之下,银行密集提示风险,部分实物金全线售罄

第一财经资讯
2026-02-01 20:36:14
北京协和医学院大动作!新学院揭牌成立

北京协和医学院大动作!新学院揭牌成立

梅斯医学
2026-02-01 07:53:22
5648万!莱巴金娜赢下总决赛澳网冠军,孙颖莎一年奖金只有300万

5648万!莱巴金娜赢下总决赛澳网冠军,孙颖莎一年奖金只有300万

曹说体育
2026-02-01 12:03:07
世界排名更新!特鲁姆普断层第一,赵心童中国最高斯佳辉保住前16

世界排名更新!特鲁姆普断层第一,赵心童中国最高斯佳辉保住前16

世界体坛观察家
2026-02-02 05:41:52
豪购 英超两豪门报价9500万欧疯抢巴西巨星 税后年薪高达2200万欧

豪购 英超两豪门报价9500万欧疯抢巴西巨星 税后年薪高达2200万欧

零度眼看球
2026-02-02 09:12:18
爱泼斯坦案文件细节曝光:马斯克拒绝上岛邀约 班农与爱泼斯坦互发数百条短信

爱泼斯坦案文件细节曝光:马斯克拒绝上岛邀约 班农与爱泼斯坦互发数百条短信

上游新闻
2026-02-01 14:17:05
李嘉诚亏190亿!巴拿马撕30年合同港口易主,胡锡进怒斥不能接受

李嘉诚亏190亿!巴拿马撕30年合同港口易主,胡锡进怒斥不能接受

眼光很亮
2026-02-01 17:56:18
当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

看尽人间百态
2025-12-24 01:28:42
1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

1949年傅作义任水利部长遭闲置,主席当面质问,周恩来听闻当即发火

磊子讲史
2026-01-14 10:12:21
癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

医学原创故事会
2026-01-25 22:54:04
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

利物浦球员穿上了新赞助商的服装,球迷调侃萨拉赫像火车司机

懂球帝
2026-02-01 12:37:35
90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

90多岁日本奶奶连续在一家公司干了快70年!会长甚至还当她“小弟”?

日本通
2026-01-30 10:33:54
阿卡3-1德约实现全满贯创举仅1夜,ATP最新排名:前10大洗牌!

阿卡3-1德约实现全满贯创举仅1夜,ATP最新排名:前10大洗牌!

大秦壁虎白话体育
2026-02-02 08:11:50
詹俊:罗德里不在状态,但瓜帅的换人调整太慢了

詹俊:罗德里不在状态,但瓜帅的换人调整太慢了

懂球帝
2026-02-02 03:18:47
这个中国人的惊天叛逃,99.99%概率是死,但他却成了那0.01%

这个中国人的惊天叛逃,99.99%概率是死,但他却成了那0.01%

深度报
2026-01-31 16:59:47
后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

火山诗话
2026-01-30 15:13:24
2026-02-02 09:47:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10215文章数 489431关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

头条要闻

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

家居
艺术
房产
时尚
公开课

家居要闻

蓝调空舍 自由与个性

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版