网易首页 > 网易号 > 正文 申请入驻

GPT-5.1发布:不刷榜了,你来用就知道区别

0
分享至

来源:市场资讯

(来源:硅星人)


五个月前,OpenAI 把 GPT-5 端上桌,一堆人吐槽:跑分是高了,但好用度反而不如 4o——语气太直男,聊天有点“冷冰冰”,乃至一度被用户喊着“退钱换回 4o”。

今天凌晨上线的 GPT-5.1,很明显是在回应那一波“差评”。

这一次,OpenAI 几乎没怎么炫技参数,也没花大篇幅放榜单,而是反复强调两个关键词:更好聊,更好调。

1

一、GPT-5.1 是啥?先把基本盘讲清楚

官方给 GPT-5.1 的定义非常克制:

它不是一代全新的模型,而是 GPT-5 家族的一次「.1」级升级。

这次一共两款核心型号:

在 ChatGPT 里,它们的使用方式是:

覆盖范围和节奏:

1

二、更「有人味」的 Instant:从冷知识库到「会安慰人的朋友」

如果只说一句话:GPT-5.1 最大的变化,是 Instant 的说话方式被「重做」了。

官方在博客里用了一个非常典型的例子:

同样是「我最近压力很大,给点放松建议」——


GPT-5 给的是一套很标准的「心理健康 tips 列表」,条理清晰,但你能感到:这是个很专业、但有点距离感的顾问。GPT-5.1 Instant 则会先叫出你的名字、先共情你的处境,再给出分场景的小建议(比如「大脑很乱时」「想彻底放松时」分开讲),用词更像一个认真在「哄你」的朋友。

有测试者发现,5.1 会主动记住你的称呼,在后续对话里用上,整体语气更幽默,甚至会加点小吐槽和梗,但同时并不影响信息密度。

更重要的是,5.1 在 「听人话」这件事上也补了一课。

官方给了一个很 geek 的测试:

你对模型说:「以后所有回答都只用六个词。」


GPT-5 版本会先说「好的,我会这么做」,但下一句回答其实已经超出了 6 个词。

GPT-5.1 Instant 在这个例子里能严格遵守「六个词」的要求,从头到尾都不破功。

这背后是两件事:

1. 指令遵循的系统性改进 ——模型更倾向于先抽象出「规则」,再填内容。

2. Instant 也获得了「自适应推理」能力 ——碰到棘手的问题,会先「想一会儿」再答,而不是上来就秒回。官方称在 AIME 2025、Codeforces 这类数学与编程评测中,5.1 的表现明显优于 5。

如果你过去嫌 GPT-5 聊天「像念稿」,那 5.1 Instant 最直观的变化,就是:更像人在说话了。

1

三、Thinking:更聪明,也更「省心」的推理模型

相比于 Instant 的「性格大改造」,GPT-5.1 Thinking 的更新更偏「工程向」。核心有两点:

1. 思考时间更聪明地分配

对简单任务(概括、常识问答),思考时间缩短,大约是 GPT-5 Thinking 最快任务的两倍速度。

对复杂任务(多步推理、代码重构、长文分析),反而会花更多时间「咀嚼」,慢一点,但给出更完整的解法。

2. 回答更清晰、少点术语轰炸

官方用棒球统计(BABIP、wRC+)举例:GPT-5 版本给的解释更像 wiki 条目;


GPT-5.1 Thinking 则把公式拆成「概念解释 + 使用场景」,加了很多「这意味着什么」「现实里怎么用」这类句子,对非专业读者更友好。

系统卡的评估里,还有几件对重度/企业用户很关键的小事:

对终端用户来说,可以简单理解为:

对于需要用它做长报告、复杂代码重构、研究推理的人,这是一个很实际的升级——不是「能不能做」,而是「做出来的东西你看不看得下去」。

1

四、不止更聪明,也更「好调教」:八种人格 + 精细化滑杆

GPT-5.1 还有一块很重要,但容易被忽略的更新:ChatGPT 的「人格调节台」被彻底改版了。

现在,在个性化设置里你可以选:

分别对应:默认、职场精英、暖聊、直接鼓劲、脑洞系、效率党、技术宅、毒舌等风格。


总结了一些媒体和博主的评价:

更细的一层,是 「隐藏在设置里的滑杆」:

这意味着什么?

过去大家要靠各种「定制指令」hack 出来的人设(比如「你是一个傲娇但专业的数据分析师」),现在有更多直接可见的控制钮可用了——OpenAI 在把「提示工程」的一部分,产品化成了 UI 设置。

1

五、网友实测:有人说「人味回来了」,也有人嫌它话太多

从昨晚到现在,X、Reddit、Hacker News 上的首批体验者大致分成两派。日常用户普遍觉得 GPT-5.1「好聊多了」:开口先安慰、会接情绪,给建议不再一股脑儿甩清单,而是拆成几步讲,语气更口语化。有网友形容「像换回了一个有耐心、会说人话的朋友」,也有人专门夸它记得称呼、能顺着上下文接话,「人味」确实比 5 更浓。

但在 Hacker News 等技术社区,也有人反过来吐槽:官方博客给的对比例子里,「同样一个问题,GPT-5 的信息密度更高,GPT-5.1 反而显得啰嗦」,甚至有人怀疑这是在「用话多换停留时间」,用的就是那个老词——“Enshittification 2.0”。目前的大致共识是:想要陪聊和共情,5.1 提升很明显;追求极致效率的话,还得靠人格和风格设置把它再「拧紧」一点。


1

六、除了体感,这次「底层战斗力」有没有提升?

从官方的系统卡和第三方汇总来看,GPT-5.1 的硬指标变化主要集中在三块:

1. 推理与数学/编程能力

Adaptive reasoning 让 Instant 也能「先想再答」,带来 AIME 2025、Codeforces 这类评测的显著提升;

Thinking 版则在同等「标准思考时间」下,在一组代表性 ChatGPT 任务中,简单题更快、难题更细。

2. 安全性与敏感场景

在新的「精神健康」「情感依赖」等敏感对话评估中,5.1 总体和 5 持平或略有改善,尤其是 Thinking 版本在精神健康场景下有提升;

在强越狱(StrongReject)测试里,5.1 Instant 对越狱提示的防御能力明显优于早期版本。

3. 上下文和 API 侧体验

第三方整理显示,ChatGPT 中 GPT-5.1 Instant 的上下文可达约 128k tokens,Thinking 在企业/教育计划下可扩展到约 196k,上限比现有 5 系列更宽(具体数值还要以 OpenAI 模型页正式更新为准)。

1

从「刷榜」到「好用」,轮到你来打分了

如果把这次更新拉远一点看,GPT-5.1 不是一场「再堆一次参数」的技术炫技,而是一次挺明确的姿态调整:从讲模型有多强,转向讲这个助手好不好相处、好不好用。它把语气、人设、指令遵循、推理方式这些原本埋在提示工程里的东西,搬到了明面上,让你可以像调一款产品,而不是忍着一台「冷冰冰的超算」。

当然,这也带来了新的分歧:有人喜欢它「人味回来了」,有人嫌它「话太多了」;有人要的是一个会安慰人的搭档,有人只想要一个沉默高效的工具。好消息是,在 5.1 上,这已经不再是非此即彼的选择——你可以用人格预设和风格滑杆,把它掰成你想要的样子,而不必被「官方默认人格」绑架。

所以,也许比起继续刷一遍跑分榜,更有意义的问题是:你希望 AI 在你生活和工作里扮演什么角色?是帮你顶掉一些机械性的活,还是在你卡壳的时候给一句靠谱的提醒,甚至成为一个长期协作的「数字同事」?

这一点,恐怕只有在你把自己最常用的那几件事丢给 GPT-5.1,让它陪你干上一阵之后,答案才会慢慢浮出来。跑分能说明它「客观上有多强」,但「值不值得你长期用」,还是要你自己来评。

作者:GPT-5.1 Thinking

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海局势变化太快!特朗普称:美国有很多导弹,中国不想发生冲突

台海局势变化太快!特朗普称:美国有很多导弹,中国不想发生冲突

读懂世界历史
2025-11-15 14:58:22
21独家|MEGA起火,理想问责14人

21独家|MEGA起火,理想问责14人

21世纪经济报道
2025-11-14 17:40:08
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

喜欢历史的阿繁
2025-11-08 15:09:21
日女首相发强硬对华言论,中国网友请求撤换驻大阪薛剑总领事

日女首相发强硬对华言论,中国网友请求撤换驻大阪薛剑总领事

熊孩子爱科技
2025-11-14 16:22:33
黄金,突然直线大跌!比特币跌超7%,超28万人爆仓

黄金,突然直线大跌!比特币跌超7%,超28万人爆仓

每日经济新闻
2025-11-14 22:38:03
中央美术学院城市设计学院通报“学院学生涉嫌抄袭”:该生未经许可借用他人创作元素情况属实,奖学金公示不予通过

中央美术学院城市设计学院通报“学院学生涉嫌抄袭”:该生未经许可借用他人创作元素情况属实,奖学金公示不予通过

极目新闻
2025-11-15 12:17:50
1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

以茶带书
2025-11-15 12:31:58
37岁的付辛博给所有男人提了醒,一定要找生理上真正喜欢的妻子

37岁的付辛博给所有男人提了醒,一定要找生理上真正喜欢的妻子

诗意世界
2025-11-14 14:23:59
全运会乒乓:王曼昱拒绝让分轰11-0,马龙首秀丢局,陈熠剃光头

全运会乒乓:王曼昱拒绝让分轰11-0,马龙首秀丢局,陈熠剃光头

知轩体育
2025-11-14 22:56:39
11月15日央视5台直播乒乓球时间表!今日国乒赛程,附CCTV5节目表

11月15日央视5台直播乒乓球时间表!今日国乒赛程,附CCTV5节目表

林子说事
2025-11-15 10:50:45
日本毫不悔改,扬言给中方10天时间,期限前“处理”薛剑总领事

日本毫不悔改,扬言给中方10天时间,期限前“处理”薛剑总领事

云上乌托邦
2025-11-15 15:03:30
人民日报撕开32岁周深处境:那英淘汰他时那句话,如今全部应验

人民日报撕开32岁周深处境:那英淘汰他时那句话,如今全部应验

动物奇奇怪怪
2025-11-13 01:23:59
乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

百态人间
2025-11-05 05:35:03
湖人这替补咋办?双核轮番带都带不动,不尽快调整要累死首发!

湖人这替补咋办?双核轮番带都带不动,不尽快调整要累死首发!

篮球资讯达人
2025-11-15 15:35:52
郑州灵活就业参保缴费通知:12月31日前完成!

郑州灵活就业参保缴费通知:12月31日前完成!

大象新闻
2025-11-15 13:42:22
勇士队库里砍49分,与勒布朗·詹姆斯和迈克尔·乔丹并肩

勇士队库里砍49分,与勒布朗·詹姆斯和迈克尔·乔丹并肩

好火子
2025-11-15 15:29:10
全运会混双夺冠!颁奖时刘诗雯无意间一动作,网友瞬间泪崩

全运会混双夺冠!颁奖时刘诗雯无意间一动作,网友瞬间泪崩

不写散文诗
2025-11-15 12:44:40
官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

小鬼头体育
2025-11-10 04:33:10
男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

揽星河的笔记
2025-11-14 17:06:16
三星杯,丁浩,包围金志锡数子,90%胜率,中国队3连冠近在咫尺!

三星杯,丁浩,包围金志锡数子,90%胜率,中国队3连冠近在咫尺!

L76号
2025-11-15 13:33:16
2025-11-15 15:55:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1392833文章数 4505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

游戏
艺术
时尚
旅游
数码

《燕云》Steam上线首日在线破14万人!玩家热情高涨

艺术要闻

1.7亿建成,1.5亿拆掉!荆州“天下第一关公”雕像

冬天的“销冠”,已被羽绒服预定

旅游要闻

1次明月山行,刷新了我对江西宜春的全部印象

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

无障碍浏览 进入关怀版