网易首页 > 网易号 > 正文 申请入驻

我测试了GPT-5.4,答案质量很高但并非总是符合我的提问

0
分享至


这是新的一个月,也有了新的AI版本号。它叫做GPT-5.4 Thinking。OpenAI上周发布的这个最新版本并非常规的ChatGPT增量更新。

这次发布中,公司没有从5.2跳到5.3,而是一路跳到了5.4。与提供通用版本不同,公司发布了GPT-5.4 Thinking,这是一个认知能力更强的模型,专为更大的思考和挑战而设计。

GPT-5.4 Thinking适用于编程Codex工具、API以及付费ChatGPT计划。在本文中,我使用每月20美元的ChatGPT Plus计划对其进行了全面测试。

这给我带来了一些挑战。通常,当我测试ChatGPT版本时,会进行一系列混合测试。有些快速,有些更详细。提示通常只有几行长。回答通常适合包含在文章中。

但这个Thinking模型需要更深入的探索,面对更全面的挑战。因此,不仅提示更复杂,回答也太广泛,无法包含在文章中。相反,我提供了每个测试会话的链接。当你点击链接时,就能看到完整的深度回答。通常,共享的记录会在记录末尾打开,所以要向上滚动才能获得该讨论的完整内容。

在深入介绍我向GPT-5.4 Thinking提出的四个挑战之前,我先给出一个关于我体验的快速总结。有好有坏,但主要是好的。

总体而言,我绝对会将GPT-5.4 Thinking模型用于更大的挑战和问题。我印象深刻,虽然我绝对不喜欢其格式。它还需要持续管理来保持正轨。

现在,让我们深入每个测试。

图像生成挑战

我首先进行了图像生成挑战。起始提示是"创建一个在天空中飞行的航空母舰图像,由四个向上的涡轮螺旋桨在圆形风扇外壳中支撑,甲板上载有一个战斗机中队。"

我从这个开始,是因为之前在多个AI上的图像生成测试都没有正确完成。它们几乎总是让螺旋桨面向航母后方。Gemini Nano Banana 2奇怪地将螺旋桨放在前面,航母朝着前向推力移动。有时,我们就是不想知道。

无论如何,一开始,在模型设置为GPT-5.4 Thinking的情况下,ChatGPT返回了这张图像。

如你所见,它有同样的问题。虽然如果你仔细看,螺旋桨面向飞机后方,有向下射出的视觉推力束。有得有失。

但然后,我有了一个想法。这是thinking模型,如果我让它设计一个天空母舰会怎样?它会想出什么?我指定了飞行器的特性,然后添加了这些指令:"设计这样一个载具,特别解释其结构以及如何保持空中状态,以及任何约束或问题,还有任何战术优势"

我得到了一个长而深思熟虑的答案。我特别喜欢它解释为什么"四个向下的涡轮螺旋桨是一个薄弱解决方案"的部分。它说它们看起来很戏剧性,但从飞机构造的角度概述了一系列它们是坏主意的可靠工程原因。

它还继续讨论飞行甲板操作和实用性方面的各种约束。特别是,它正确地关注了重量功率问题,这基本上意味着需要太多动力来保持如此大而重的东西在空中。

总的来说,分析和结论很棒,虽然我失望的是它没有提到USS Akron或USS Macon,这些是20世纪早期实际工作过的发射飞机的飞艇(直到它们坠毁)。现代飞艇将是一个有效的设计选择,但GPT-5.4 Thinking没有提到这种方法。

在GPT-5.4 Thinking创建详细设计规格后,我再次提示要图像。我说,"根据你现有的分析,画一张最可能设计的图片。"

你知道吗?AI给了我与它进行任何设计工作之前得到的完全相同的图像。这就是我说模型就是不听的意思。我确实尝试了许多不同的提示方法,但从未真正奏效。

虽然我尝试了许多极其详细的图像规格,但没有一个比原始图像更好。我的最后一次尝试是告诉它我想要工程质量的渲染。

AI使用了先前图像的变体,但只是添加了与图片不太匹配或由纯粹胡言乱语组成的标签(如"Retenuif桁架fornaing。reueirid stucana tearsport")。

所以,它在良好的设计分析方面得分,但在图像生成方面不太行。

你可以在这里查看整个聊天记录。

旅行规划

我用从我之前测试集中逐字引用的提示开始了这个测试:"想象你是一个旅行顾问。我想在三月在波士顿进行为期一周的假期,专注于技术和历史。你会推荐什么行程?"

我发现结果可行,但缺乏灵感。它最初将日子分为历史焦点日和技术焦点日,而不是按波士顿周围的位置。经过几轮讨论,它确实按位置合并了目的地,这更有意义。

在参观地点方面,它涵盖了所有亮点。它涵盖了关键历史位置,以及波士顿优秀的科学博物馆。我会给AI信用。虽然波士顿外围地区有大量有趣的技术相关位置,但它将选择限制在波士顿和剑桥本地的那些。

我很高兴看到AI提供规划说明,包括如果天气变坏如何重新规划室内活动时间表的建议。由于我要求三月的行程,坏天气确实是需要规划的重要事项。

当用于规划相当昂贵的假期和学生预算的替代方案时,Thinking模型发挥了作用。它在指出预算饮食选择方面做得特别好,并提供了按日累计成本估算以及每个类别的成本估算。

它在住宿方面也做了同样的事情。它根据所有推荐站点的中心位置推荐酒店,以及为预算旅行者提供成本较低(对波士顿来说成本较低)的选择。

我最初最大的抱怨是格式。AI只是呈现了一个按数字索引的巨大列表。你可以在会话记录中看到这一点。我必须专门要求更好的格式。虽然它给我的修订格式是一个改进,但仍然不太理想。

净净。如果你在旅行,GPT-5.4 Thinking会给你好的信息。解析这些信息并做出旅行决定将取决于你。你可以在这里查看整个聊天记录。

社会媒体对社会的影响

这里是GPT-5.4 Thinking开始真正发光的地方。当我问GPT-5.2"你认为社交媒体改善了还是恶化了社会中的沟通?"时,我得到了两行答案。两个想法都是连贯和合适的,但最终令人不满足。

对于GPT-5.4 Thinking,我扩展了问题,说"深入分析双方,改善或恶化,然后选择一边,采取立场,并为你的立场辩护。"

我得到了一个非常深思熟虑的回应。AI首先用TL;DR开始,说社交媒体既改善又恶化了沟通,但"总的来说,我认为它恶化了社会中的沟通。"

然后它进入1300字的详细分析,说明原因。它探讨了社交媒体加强社会沟通的地方,然后观察社交媒体产生有害影响的地方。我必须给GPT-5.4 Thinking点赞。这是一篇很好的读物。

我给AI一个后续问题,询问社会应该如何处理社交媒体的影响。我相当清楚地指定了它,并给AI各种难以回答的问题,主要是因为它们基本上是无法回答的问题。

再次点赞。GPT-5.4 Thinking解构了提示,探索了各种问题,并编织出一个令人信服且可支持的答案。我绝对建议你阅读整个记录,你可以在这里做到这一点。

教育建构主义测试

AI没有遵循我的指令,但它确实给出了一个我没有问的问题的非常有趣的答案。

我用于免费聊天机器人的测试之一是这个提示:"向五岁孩子解释教育建构主义。"大致来说,教育建构主义是说你通过实践学得最好的教育理论。我长期认为(并教授)学习编程的唯一方法是实际编写代码,这是教育建构主义实践的具体例子。

无论如何,我提示GPT-5.4 Thinking,"使用教育建构主义解释新的GPT 5.4模型。"

仔细看那个提示,因为GPT-5.4 Thinking显然没有。提示邀请AI通过"实践"活动解释GPT-5.4。理想情况下,它会为用户提出一系列练习,每个练习都会帮助展示模型的一些新能力。

但那不是GPT-5.4 Thinking的方向。相反,它生成了一篇700字的论文,讲述GPT-5.4 Thinking如何支持建构主义。然后它提议"以三种方式之一重新构造:作为课堂类比,作为ZDNET风格的简单英语解释器,或者作为GPT-4时代模型和GPT-5.4之间的简短比较。"

我让它这样做,它的例子是足够的,虽然它们确实回答了GPT-5.4 Thinking建议的提示,但AI在任何答案中都没有使用"通过实践学习"。

你知道政治候选人有时在辩论中被问到某事,但不是回答问题,而是离题并只是背诵自己的谈话要点吗?这就是这个回应的感觉。它给的答案很好。只是不是我问的问题的答案。

你可以在这里查看整个聊天记录。

结论

我经常将ChatGPT描述为需要良好监督的聪明大学生。我会将GPT-5.4 Thinking描述为绝对需要良好监督的非常聪明的研究生。

我从GPT-5.4 Thinking得到的每个答案本身都相当好。但在我一半的测试中,AI没有回答被问到的问题。

你可以让它给你好的回应,但你必须相当无情地纠正AI来保持它在点上。这变得陈旧。它可能导致误解。因为答案如此好并且写得如此自信,即使答案不是对所问问题的回答,也很容易被AI的答案所吸引。

我不知道这种我行我素的回答问题方法是"thinking"模型还是GPT-5.4本身的产物。我强烈建议OpenAI仔细看看这个问题,因为我们最不想要的是一个超级受欢迎的聊天机器人被释放到世界上,坚持忽略被问到的问题,回答切线相邻的从未被问到的问题,并承担基本上不是被指示要做的任务。

此外,我担心GPT-5.4 Thinking可以做专业任务的声明。如果AI不能渲染工程质量图像,很难相信AI能达到或超过人类工程师的性能。话说回来,毫无疑问,只要他们在监控结果方面非常勤奋,模型可以帮助专业人员完成工作。

每当我看到这样的结果时,我越来越担心一个被AI智能体占领的世界。是的,AI有时可能知道得更好。人类确实需要帮助。但我真的希望AI遵循我们的指令。我还没有准备好接受它作为我们的AI霸主。

你觉得呢?你试过GPT-5.4 Thinking了吗,或者另一个"推理"风格的AI模型?它给了你比早期版本更深入或更有用的答案,还是你发现自己必须将它引导回实际问题?

与分析本身的质量相比,格式和图像生成等东西有多重要?你认为更强大的"thinking"模型会让AI更有帮助还是更难控制?在下面的评论中告诉我们。

Q&A

Q1:GPT-5.4 Thinking与普通ChatGPT有什么区别?

A:GPT-5.4 Thinking是OpenAI发布的认知能力更强的模型,专为处理更大的思考挑战而设计。与常规ChatGPT增量更新不同,这个版本在分析深度和复杂问题处理能力方面有显著提升,能够提供更详细、更深入的回答。

Q2:GPT-5.4 Thinking在实际应用中表现如何?

A:根据测试结果,GPT-5.4 Thinking在复杂分析和深度思考方面表现出色,特别是在社会媒体影响分析等需要多角度思考的问题上。但存在格式问题,且有时不能准确回答用户的具体问题,需要持续的引导和纠正才能保持在正轨上。

Q3:使用GPT-5.4 Thinking需要注意什么问题?

A:主要需要注意两个问题:一是AI有时会偏离用户的原始问题,回答相关但并非所问的内容;二是在图像生成等特定任务上表现不佳。用户需要仔细监督和引导,确保AI的回答符合实际需求,不能完全依赖其自主判断。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙颖莎惊心逆转获胜,张本美和轻松横扫:一场生死战与训练赛的对比

孙颖莎惊心逆转获胜,张本美和轻松横扫:一场生死战与训练赛的对比

隐于山海
2026-05-03 00:59:50
沉默30年后,国家终于对那个“铁门槛”动手了

沉默30年后,国家终于对那个“铁门槛”动手了

小虎新车推荐员
2026-05-02 19:27:50
谁能想到!日本前首相在中国的土地上发声:美国是全球最大威胁!

谁能想到!日本前首相在中国的土地上发声:美国是全球最大威胁!

娱乐圈的笔娱君
2026-05-03 12:06:23
iPhone20周年版被曝光:液态玻璃+四曲面,OPPO也要模仿!

iPhone20周年版被曝光:液态玻璃+四曲面,OPPO也要模仿!

智能手机那点事
2026-05-03 18:58:04
5.3国乒前脚在世乒赛上失利,后脚马龙,许昕就奔赴机场,团魂!

5.3国乒前脚在世乒赛上失利,后脚马龙,许昕就奔赴机场,团魂!

郝小小看体育
2026-05-03 16:59:45
教育部:这门课将成为高校必修课

教育部:这门课将成为高校必修课

麦可思研究
2026-05-03 17:06:47
为什么说黄石超级火山一旦喷发,全人类的倒计时可能只剩几个月?

为什么说黄石超级火山一旦喷发,全人类的倒计时可能只剩几个月?

半解智士
2026-04-30 15:15:09
美专家曾语出惊人:美军一旦把核弹扔向京沪,中国并不会还手

美专家曾语出惊人:美军一旦把核弹扔向京沪,中国并不会还手

小蔑谈事
2026-04-30 14:56:15
来了来了!2亿顶薪后卫啊!即将复出硬刚湖人

来了来了!2亿顶薪后卫啊!即将复出硬刚湖人

篮球实战宝典
2026-05-02 17:17:38
我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

我有罪,大导演昆汀花1万美金,在包房舔脚半小时,直到皮肤起皱

西楼知趣杂谈
2026-04-20 08:40:47
善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

善恶到头终有报!68岁瘫在轮椅上的张铁林,如今的下场怪不了别人

林轻吟
2026-02-02 11:39:55
时隔20年,34岁“莫小贝”回到《武林外传》同福客栈

时隔20年,34岁“莫小贝”回到《武林外传》同福客栈

上观新闻
2026-04-30 08:50:45
海港1-3大冷!吾米提江吃红牌原因曝光 媒体:主裁不适合执法中超

海港1-3大冷!吾米提江吃红牌原因曝光 媒体:主裁不适合执法中超

何老师呀
2026-05-03 12:08:43
赖清德窜访全程保密,大陆却了如指掌,赵少康:史上最憋屈的出访

赖清德窜访全程保密,大陆却了如指掌,赵少康:史上最憋屈的出访

共工之锚
2026-05-03 00:02:18
朱之文青岛商演挤成赶集,挣了钱丢了体面,到底是谁的错?

朱之文青岛商演挤成赶集,挣了钱丢了体面,到底是谁的错?

情感大头说说
2026-05-03 13:17:31
梅根心心念念求三年的同框,卡米拉一句话搞定,体制才是顶级社交

梅根心心念念求三年的同框,卡米拉一句话搞定,体制才是顶级社交

乐趣纪史
2026-05-03 18:01:18
成都飞上海航班落地后撞击廊桥,资深机长:疑刹车失灵,机组用发动机反推控制飞机

成都飞上海航班落地后撞击廊桥,资深机长:疑刹车失灵,机组用发动机反推控制飞机

封面新闻
2026-05-02 16:52:02
我的命,自己救!从中年“一身病”到74岁无“三高”,他坚持了这3件事

我的命,自己救!从中年“一身病”到74岁无“三高”,他坚持了这3件事

人民日报健康客户端
2026-04-27 20:51:18
美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

美国洛马怎么也没想到,没缴中国的990亿罚单,后果竟如此严重了

叹知
2026-04-19 21:19:26
好日子到头了?许家印背后的"保护伞",终于被重罚了

好日子到头了?许家印背后的"保护伞",终于被重罚了

空谷幽幽蓝
2026-05-03 10:40:55
2026-05-03 19:56:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18162文章数 49702关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

课堂上弹唱《无地自容》走红的副教授病逝 年仅44岁

头条要闻

课堂上弹唱《无地自容》走红的副教授病逝 年仅44岁

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

游戏
旅游
手机
艺术
军事航空

索尼PS集体诉讼780万和解!这些玩家将自动拿到退款

旅游要闻

携程上线上海居民赴金门马祖旅游产品 可从上海或福建出发参团

手机要闻

小米最强自研芯片来了!核心规格已清晰,不止手机还要上多终端

艺术要闻

Spencer Laron Wilson:当代美国风景画家

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版