网易首页 > 网易号 > 正文 申请入驻

马斯克的Grok 4.3悄悄上线,跑分评测出炉

0
分享至


新智元报道

编辑:艾伦

【新智元导读】Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。

xAI 发布 Grok 4.3,没有把声量拉到最大,马斯克甚至没单独发推,看起来只是个过渡版本。


https://x.com/elonmusk/status/2045590599206875216

它更像一次安静的产品换挡:把模型放进 API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版 Grok 迁移过来。

没有 AGI 宏大叙事,也少了马斯克式的「即将改变一切」。这反而让 Grok 4.3 看起来更真实。

对普通消费者来说,Grok 4.3 最重要的变化并非某个榜单分数涨了几分,而是 AI 助手正在变得更便宜、更快,也更像一个能替人完成文件、表格、演示文稿的合格助手。

然而,Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性价比很强的新模型,也是一款仍有明显天花板的模型。

消费者真正需要关心的,是它在哪些场景能省钱省时间,在哪些场景会因为判断不准、想太久或说太多,反而增加成本。

它确实变强了

尤其像一个更会干活的助手

Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超过 Claude Sonnet 4.6 和 Muse Spark。


这个提升不算小,尤其在 xAI 自家模型线里,Grok 4.3 已经是目前最强的一档。

更值得看的是代理任务表现。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。


这个榜单更接近日常「让 AI 做事」的场景,比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。

让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT,Grok 4.3 的体验会比前代更完整。

Grok 可以创建演示文稿、文档和电子表格,可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。

对不懂代码的用户来说,这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作,可能会被压缩成一句指令。

这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完,把一份旅行计划排清楚,把一封语气得体的邮件写好。

Grok 4.3 在这部分的进步,是真进步。

更便宜

是这次最直接的产品卖点

Grok 4.3 的价格很有侵略性。

它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元,相比 Grok 4.20 输入价格低约 40%,输出价格低约 60%。


Artificial Analysis 测算,运行整套 Intelligence Index 评测成本约为 395 美元,比 Grok 4.20 0309 v2 低约 20%。


这会影响消费者,只是方式没那么直观。

大多数普通人不会直接调用 API,但他们会用到基于 API 构建的产品。

AI 写作工具、客服机器人、语音助理、教育应用、办公插件,背后都要为模型调用付费。

当底层模型价格下降,应用厂商有空间降低订阅费,或者在同样价格下提供更多次数、更长上下文、更复杂任务。

Grok 4.3 还有一个优势是速度。

Artificial Analysis 的 xAI 模型页显示,它是 xAI 当前输出速度最快的模型之一,约 196 Tokens/s,属于很快的一档。


对语音聊天、实时客服、长文生成和批量内容处理来说,等待时间会直接影响体验。

但速度有一个细节容易被忽略:Grok 4.3 的首 Token 延迟并不低。

它会先「想一会儿」,然后快速输出。

长答案里,这种速度优势明显;短对话里,用户可能先感受到停顿,再感受到快。

用于客服、语音助手、移动端聊天时,这个差异会被放大。

它更会说人话

这是 Grok 的隐藏优势

Grok 一直有一个微妙优势:语气更像真人。

Hacker News 上有人提到,一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。

有人拿它和 ChatGPT、Claude 比,认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。


https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平台海量口语化表达训练。

它更容易捕捉社交网络里的语气、节奏、松弛感等;它也可能因此继承社交网络的噪音、偏见和表达习惯。

对 C 端用户来说,这种「更自然」的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。

它未必最聪明,但可能更像一个愿意按你的语气说话的助手。

Yes, BUT...

它比不过 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的问题,是它看起来已经进入第一梯队边缘,却还没站到最前面。

Grok 4.3 的 Intelligence Index 为 53,GPT-5.5 为 60,Claude Opus 4.7 为 57。

这个差距不只是排行榜上的几分。

对普通消费者来说,它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。

在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按标准 Elo 公式,面对 GPT-5.5 的预期胜率约 17%。

它在幻觉控制上也有代价。

Grok 4.3 的 AA-Omniscience Accuracy(准确率)提升 8 分,但 Non-Hallucination Rate(非幻觉率)下降 8 分。


这里的准确率和非幻觉率是不同的,准确率只看你答对了多少,而非幻觉率是看你没答出来的问题里面,有多少是模型老实承认自己不会的——不会但振振有词,就是所谓的「幻觉」。

换言之,Grok 4.3 的知识覆盖率变高了,但也更容易出现幻觉了。

而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事,结果关键事实错了。

人类已经很擅长自信地犯错,机器不必急着加入这个传统项目。

这意味着,在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3 仍需要谨慎使用。

它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作;涉及最终判断,GPT-5.5 和 Claude Opus 4.7 仍更稳。

长上下文和工具能力很好

但消费者买账的是结果

Grok 4.3 提供 100 万 Token 上下文窗口,这对长文档、代码库、合同、报告和资料库很有吸引力。


用户可以丢进去更多材料,让模型在更完整的信息环境里工作。

对研究、办公和创作来说,这是一种实用能力。

它还支持文本和图像输入,输出文本,并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。

xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品,把 Grok 的边界从文字扩展到语音。

对普通用户来说,未来的 Grok 可能不只是一个聊天框,而是一个能读文件、查网页、写表格、说话、听话的多模态助手。

问题在于,功能多不等于体验好。

消费级 AI 的竞争,最后会回到三个朴素标准:少等、少错、少折腾。

Grok 4.3 在「少等」和「少花钱」上明显前进,在「少错」上还没给出足够强的答案。

Grok 4.3 的准确定位:

性价比模型,不是最强模型

Grok 4.3 最适合的定位,是一款高性价比的工作型模型。

它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。

它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。

很多消费者并不需要每次都调用最强模型,就像不应该只是为了买菜开超跑,除非另有所图。

但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断,Grok 4.3 还不该成为第一选择。

GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。

这次 xAI 的策略很清楚:先把模型做得足够强,再把价格打下来,用速度和工具能力扩大可用场景。

它没有赢下「最聪明模型」的头衔,但可能会赢走一部分真实使用量。

因为市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。

Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商,往更务实的 API 和消费级工具竞争者方向推进了一步。

它看起来很好,确实很好;只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。

消费者可以期待它降价、提速、让更多 AI 应用变得便宜。

也该记住,在需要真正聪明和可靠的地方,Grok 4.3 仍然只是备选项。

参考资料:

https://artificialanalysis.ai/models/grok-4-3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
忍无可忍,无需再忍!中国国民党终于对赵少康予以犀利回击!

忍无可忍,无需再忍!中国国民党终于对赵少康予以犀利回击!

有态度的何总
2026-05-02 11:03:29
印尼将拥有航母,三大意味!

印尼将拥有航母,三大意味!

新民周刊
2026-05-02 09:34:25
五一期间!天津山姆惊现震撼一幕……

五一期间!天津山姆惊现震撼一幕……

天津生活通
2026-05-02 19:10:02
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
四川8名干部任新职

四川8名干部任新职

人民资讯
2026-05-02 17:57:14
重磅医学突破,2型糖尿病有望断根,无需常年打针吃药

重磅医学突破,2型糖尿病有望断根,无需常年打针吃药

荷兰豆爱健康
2026-05-02 18:48:06
黑八!黑八没了!末节8分!史上最荒唐季后赛

黑八!黑八没了!末节8分!史上最荒唐季后赛

篮球实战宝典
2026-05-02 10:04:33
一个75岁退休老头在德云社干了216场,年收入曝光后网友沉默了

一个75岁退休老头在德云社干了216场,年收入曝光后网友沉默了

小娱乐悠悠
2026-05-02 10:47:26
快讯!巴拿马总统穆利诺表态了!

快讯!巴拿马总统穆利诺表态了!

生活在农村的涛友
2026-05-02 17:11:29
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
曝火箭队内氛围从没好过!今夏或再引进超级球星 与杜兰特组双核

曝火箭队内氛围从没好过!今夏或再引进超级球星 与杜兰特组双核

罗说NBA
2026-05-02 18:15:50
过分了!2次被李祥波打爆,还对萨林杰摊手 粤迷怒斥:没职业道德

过分了!2次被李祥波打爆,还对萨林杰摊手 粤迷怒斥:没职业道德

后仰大风车
2026-05-02 09:05:25
吉利“库里南”一炮而红,13分钟进账超54亿,李书福豪车梦实现了

吉利“库里南”一炮而红,13分钟进账超54亿,李书福豪车梦实现了

小陆搞笑日常
2026-05-02 18:43:23
3亿美元!央视疑似不买世界杯的转播权,球迷一边倒的支持

3亿美元!央视疑似不买世界杯的转播权,球迷一边倒的支持

魔都姐姐杂谈
2026-05-02 08:44:52
北交所欺诈发行财务造假被重罚1.5亿!强制退市!

北交所欺诈发行财务造假被重罚1.5亿!强制退市!

新浪财经
2026-05-02 10:54:13
王楠夫妇深夜发声:对于陈梦他们不再大方,金牌归属再次引起热议

王楠夫妇深夜发声:对于陈梦他们不再大方,金牌归属再次引起热议

拳击时空
2026-05-02 07:58:08
申花官方:盖伊左脚跟腱断裂,需要尽快进行手术治疗

申花官方:盖伊左脚跟腱断裂,需要尽快进行手术治疗

懂球帝
2026-05-02 10:34:06
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

趣文说娱
2026-04-17 21:37:03
每个月要交公粮28次,丈夫受不了,妻子却说:每月2次都无法满足

每个月要交公粮28次,丈夫受不了,妻子却说:每月2次都无法满足

胖胖侃咖
2025-04-03 08:00:11
老板娘问我她身材好不好?我该怎么回答?

老板娘问我她身材好不好?我该怎么回答?

太急张三疯
2026-05-02 11:47:18
2026-05-02 20:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15116文章数 66829关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

美国制裁5家中企 商务部发禁令阻断

头条要闻

美国制裁5家中企 商务部发禁令阻断

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

本地
旅游
游戏
健康
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

五一假期次日:广东百个乡村和历史古村落接待游客超40万

LPL第二阶段:九连败史诗成就达成!JDG三局战胜WE

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版