网易首页 > 网易号 > 正文 申请入驻

刚刚,GPT-5.3 新模型撞车 Gemini,OpenClaw:谢谢你们

0
分享至

在 AI 模型的命名玄学里,「Instant」和「Lite」这两个后缀,长期以来都带着一股说不清道不明的廉价感。

不是没有原因。过去这类模型给人留下的印象,基本就是:速度快、脑子慢,做做文本总结勉强够用,一旦碰上稍微复杂的推理任务,就开始一本正经地胡说八道。

久而久之,轻量模型几乎成了「将就用」的代名词。


就在刚刚,OpenAI 和 Google 又一次撞车,发布了各自的轻量模型,并试图用硬实力来扭转这个刻板印象。省流版如下:

GPT-5.3 Instant: 更具「人味儿」的智能助理,大幅降低幻觉率、减少「AI 腔」以及强化细节写作能力,沟通更自然精准,适合对内容质量要求高的场景(写作、专业问答、高风险领域)

Gemini 3.1 Flash-Lite:便宜、快、不拖泥带水,还支持「思考等级」调节功能,在保持高吞吐量的基础上兼顾了深层逻辑推理,适合大规模、高实时性的批量任务(内容审核、UI 生成、NPC 对话)

GPT-5.3 Instant:终于学会像个正常人一样聊天了

经常用 ChatGPT 的人,大概都有过这种无奈:你只是随口问个小问题,它非要先给你端上一段「作为一个人工智能,我需要提醒你……」的长篇大论。

这种总想教人做事的「AI 腔」,确实挺招人烦的。好在,OpenAI 这次是真的听进去了。

新上线的 GPT-5.3 Instant 花了很大的力气来解决这个「毛病」。它学会了直接给出答案,不再啰里啰嗦地铺垫。


除了不爱说废话,它也变得更靠谱了。旧版本搜完网页之后,容易把一堆链接和不相关信息堆到你面前。

得益于搜索能力的提升,GPT-5.3 Instant 会主动把网页内容和自身的背景知识结合起来,先想清楚你真正想问什么,再给出有重点的回答,而不是把搜索引擎的工作原封不动地转包给你。


OpenAI 公布的内部评测显示,在联网状态下幻觉率降低了 26.8%,仅靠内部知识时也降低了 19.7%。官方特别提到医疗、法律、金融等高风险领域,新模型在这些场景下的谨慎程度和准确性都有明显改善。

最令人惊喜的,其实是它在写作上的变化。

OpenAI 用一首诗的对比做了说明:同样写一个费城邮递员退休最后一天,旧版本倾向于堆砌「把这座城市背在邮袋里」这类抒情句,新版本则会写那根「掉漆的蓝色栏杆」、那扇「总有狗在门口等着的栅门」。情绪不靠凹,就这样自然而然流露出来。


语气上的调整也是此次更新的核心目标之一。

「停下。深呼吸。」这类会打断对话节奏的句式被刻意减少,整体风格更直接,少了一种不必要的「AI 腔」。用户仍可在设置里自定义回复的温暖程度与热情度,调出自己习惯的交互风格。


GPT-5.3 Instant 即日起向所有 ChatGPT 用户开放,API 名称为「gpt-5.3-chat-latest」。付费用户还可以在旧版模型里继续用 GPT-5.2 Instant,但它将在今年 6 月 3 日正式退役。


彩蛋时间

Gemini 3.1 Flash-Lite:便宜、反应快,还挺聪明

相比于 GPT-5.3 Instant 的好好说话,Gemini 3.1 Flash-Lite 走的是纯粹的务实风,目标非常明确:就是要快,就是要便宜。


价格方面,Gemini 3.1 Flash-Lite 的输入价格是 0.25 美元每百万 tokens,输出价格是 1.50 美元每百万 tokens。

这是什么概念?如果你是一个开发者,这意味着你大概花不到 2 块钱人民币,就能让 AI 阅读相当于 5 本《哈利·波特》全集的文字量。

觉得便宜没好货?格局小了。

根据 Artificial Analysis 的基准测试,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字响应时间(TTFT)快了 2.5 倍,整体输出速度提升了 45%。对于需要实时响应的产品来说,这个延迟差距在用户体验上会有肉眼可见的感受。


这意味着,当你还在眨眼的时候,它的回答可能已经生成了一半。对于那些需要实时反馈的应用——比如即时翻译、游戏内的 NPC 对话、即时 UI 生成——这种低延迟是决定性的。

除此之外,Gemini 3.1 Flash-Lite 还具备「思考」能力。

在 AI Studio 和 Vertex AI 中,Google 为这款 Lite 模型配备了「思考等级(Thinking Levels)」的选项。开发者可以根据任务的复杂程度,自主调节模型「想多深」。


简单的高吞吐量任务,比如批量内容翻译和内容审核,可以用最轻的配置快速跑完;遇到需要严格遵循指令的界面生成或仿真创建任务,则可以让模型多花一点时间推理,把结果做扎实。

这种「既要又要」的能力,也因此收获了相当不错的成绩单。在 Arena.ai 的排行榜中,它的 Elo 分数达到了 1432,在 GPQA Diamond(研究生级别的问答)测试中拿到了 86.9% 的准确率。

在学术评测 GPQA Diamond 上得分 86.9%,多模态理解 MMMU Pro 上达到 76.8%。这两个数字不只是「在同档位里还不错」,而是直接超过了体量更大的 Gemini 2.5 Flash。


注意,这里对比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,显然鸡贼的 Google 对这款模型也并未抱有多大的信心。


目前,3.1 Flash-Lite 以预览版形式通过 Google AI Studio 和 Gemini API 向开发者开放,企业用户可通过 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作伙伴已在生产环境中完成测试,普遍认可它在大规模调用下的稳定性和指令遵循能力。

把这两个模型放在一起看,你会发现「Instant」和「Lite」,或许正在找到自己最合适的位置。

以最近大火的 OpenClaw 为例,其核心场景是帮用户处理邮件、管理日程,本质上是一个需要自主执行任务的 Agent。

这类产品对模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聪明,它需要模型说人话、不出错、还得扛得住高频调用。


GPT-5.3 Instant 显著降低幻觉率,意味着 Agent 在自主执行任务时少犯错;「AI 腔」的消退,意味着生成的邮件、文档读起来更贴合真人的阅读习惯。

Gemini 3.1 Flash-Lite 则更符合最为关键的第三个需求。Agent 在后台狂奔时,往往需要并行处理海量的子任务,对响应速度和 API 成本极度敏感。

Flash-Lite 极快的响应速度和白菜价的成本,加上能灵活调配算力的「思考等级」,这种极具弹性的架构对高并发的自动化任务而言,无疑是久旱逢甘霖。

即便两款模型的长期稳定性仍需观察,但大方向已经很明确:一个负责让交互更像人,一个死磕更快更省钱。在未来人手一只「龙虾」的情况下,轻量模型将成为更 自然、务实的选择。


附上参考地址:

https://openai.com/index/gpt-5-3-instant/

https://gemini.google.com/u/4/app/e0bea96b8f62bd1f

我们正在招募伙伴

简历投递邮箱 hr@ifanr.com

✉️ 邮件标题 「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾有个很流行的日本谣言:质量好的留在日本,等外品的垃圾卖中国

曾有个很流行的日本谣言:质量好的留在日本,等外品的垃圾卖中国

章哥说买房
2026-03-05 12:17:42
麦当劳CEO试吃大拱门翻车,网友:汉堡只受了点皮外伤。

麦当劳CEO试吃大拱门翻车,网友:汉堡只受了点皮外伤。

LOGO研究所
2026-03-06 11:24:57
这三国向全球发出警告:谁动我兄弟就灭谁!如今却把枪口对准中国

这三国向全球发出警告:谁动我兄弟就灭谁!如今却把枪口对准中国

青田花姑娘
2025-12-16 17:50:51
越来越多孩子“脑腐”了,玩手机排第二,排第一竟然是……

越来越多孩子“脑腐”了,玩手机排第二,排第一竟然是……

新东方家庭教育
2026-03-03 14:49:40
不被任何人拿捏的顶级思维:不要回答别人的问题,要回答别人的目的

不被任何人拿捏的顶级思维:不要回答别人的问题,要回答别人的目的

古代经典
2026-02-25 15:40:12
包养四个男人,嫁给70岁富翁?央视女主持私生活谣言有多离谱?

包养四个男人,嫁给70岁富翁?央视女主持私生活谣言有多离谱?

观察者小海风
2026-03-07 03:51:50
笑死!李雨桐直接爆薛之谦手机号!男方隐私社交账号随之曝光

笑死!李雨桐直接爆薛之谦手机号!男方隐私社交账号随之曝光

魔都囡
2026-03-05 10:20:00
血债血偿,中国出兵巴基斯坦,用重装合成营教俾路支解放军做人

血债血偿,中国出兵巴基斯坦,用重装合成营教俾路支解放军做人

干史人
2024-12-13 18:00:03
嚷嚷了小半年、讲了3个小时,二代刀片电池+闪充,连电都充不满?

嚷嚷了小半年、讲了3个小时,二代刀片电池+闪充,连电都充不满?

小李车评李建红
2026-03-06 08:08:45
全国人大代表、广西壮族自治区党委书记陈刚:今天就“亮亮家丑”

全国人大代表、广西壮族自治区党委书记陈刚:今天就“亮亮家丑”

极目新闻
2026-03-06 14:14:14
赖斯:我真的很享受这个赛季的这种踢法,现在我更像B2B中场

赖斯:我真的很享受这个赛季的这种踢法,现在我更像B2B中场

懂球帝
2026-03-07 04:09:08
故事:25岁台湾小伙偷偷瞒家里跑出,首次来大陆,刚下飞机看到一幕哭了

故事:25岁台湾小伙偷偷瞒家里跑出,首次来大陆,刚下飞机看到一幕哭了

奶茶麦子
2026-03-07 01:04:43
和一个体制内亲戚聊天,他说单位混的好的领导都把子女送到国外了

和一个体制内亲戚聊天,他说单位混的好的领导都把子女送到国外了

新国学文化
2026-01-28 14:04:47
神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

老马拉车莫少装
2026-03-01 17:23:52
乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

乌军重新打回红军城,以色列对伊朗新当选精神领袖发出诛杀令

史政先锋
2026-03-04 19:54:52
2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

猫叔东山再起
2026-02-02 11:00:09
玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

青苹果sht
2026-02-27 06:28:52
全国人大代表,成都市委副书记、市长陈书平:推动“成渝CP”再创发展新高度|两会开放日

全国人大代表,成都市委副书记、市长陈书平:推动“成渝CP”再创发展新高度|两会开放日

封面新闻
2026-03-06 19:25:02
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
郭艾伦社媒确认左膝前交叉韧带断裂,康复周期或达一年之久,发文称:电视里演的有的不对,人在最难过绝望的时候不是一直哭,哭完是会笑的

郭艾伦社媒确认左膝前交叉韧带断裂,康复周期或达一年之久,发文称:电视里演的有的不对,人在最难过绝望的时候不是一直哭,哭完是会笑的

极目新闻
2026-03-06 09:05:23
2026-03-07 05:52:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6159文章数 26791关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

艺术
本地
亲子
公开课
军事航空

艺术要闻

陈独秀写给青年毛泽东的对联,一语双关,陈氏书法“天花板”!

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

亲子要闻

儿童鼻出血的常见问题,儿科医生解答

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:使用无人机击中美军"林肯"号航母

无障碍浏览 进入关怀版