网易首页 > 网易号 > 正文 申请入驻

刚刚,马斯克发布 Grok3,推理能力远超 o3 mini(high) 和 DeepSeek-R1

0
分享至

在试图以 974 亿美元收购 OpenAI 的提议被拒绝后, 世界首富马斯克又搞了一个大动作 ——

刚刚,他发布了 号称“地球最聪明的 AI” ,Grok3,其由一个包含约 20 万个 GPU 的数据中心训练,计算能力是上一代模型 Grok 2 的“10 倍”,且使用了扩大的训练数据集。

据此前介绍,Grok 3 是在合成数据的基础上进行训练的,它能够通过重读数据来反思所犯的错误,从而达到逻辑上的一致性。

评测结果方面 ,Grok3 在 AIME'24(美国数学竞赛)、GPQA(研究生水平科学知识问答能力的基准测试)等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。

尤其在推理方面 ,Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势,最高分达到 96 分,超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。

甚至, 在最新的 AIME 2025 评测中 ,Grok3 推理系列模型更是达到了 90 及以上的分数,稍微领先 o3 mini(high) 的 87 分。

基于 Grok3 推理模型,Grok app 上线了 DeepSearch 功能,DeepSearch 可以表达其理解查询的过程以及计划响应的方式,会扫描互联网和 X,分析信息,并针对问题提供摘要。据现场演示 ,DeepSearch 包括研究、头脑风暴和数据分析等选项。

此外,在 Chatbot Arena 评估中,Grok-3 的得分达到了 1400 分,同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。

此外,马斯克在直播中透露,未来——最快一周后——Grok 应用程序将具备“语音模式”,这将为 Grok 模型提供合成语音。几个月后,xAI 将开源上一代模型 Grok 2。“我们的一般做法是,当下一个版本完全推出时,我们将开源上一个版本(Grok)。”

马斯克曾多次警告说,人工智能会给人类文明带来风险,但他仍在极力推动加大对这一领域的投资。

xAI 于 12 月表示,它在新一轮融资中筹集了 60 亿美元,投资者包括美国风险资本家、芯片制造商英伟达和 AMD,以及沙特阿拉伯和卡塔尔的投资基金等。去年 5 月,该公司首次融资便获得了高达 60 亿美元的资金。

作者:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

一箱油可横跨北美 本田新型小飞机卖爆:购买意向达产能10倍

快科技
2026-02-24 08:21:03
伊朗外长:希望在最短时间内与美国达成公平协议

伊朗外长:希望在最短时间内与美国达成公平协议

财联社
2026-02-25 02:57:21
新加坡大满贯25日赛程:国乒对阵、时间、转播一览

新加坡大满贯25日赛程:国乒对阵、时间、转播一览

小哆说体育
2026-02-24 23:46:43
这是谁的部将,竟然如此清纯可爱?

这是谁的部将,竟然如此清纯可爱?

贵圈真乱
2025-12-05 13:00:35
汪小菲晒出刚出生的儿子正脸,网友称:大大方方的自己晒多好啊

汪小菲晒出刚出生的儿子正脸,网友称:大大方方的自己晒多好啊

草莓解说体育
2026-02-25 02:15:54
1-2!欧冠一夜3强+大黑马晋级:国米无缘16强,意甲或0队进淘汰赛

1-2!欧冠一夜3强+大黑马晋级:国米无缘16强,意甲或0队进淘汰赛

体育知多少
2026-02-25 06:56:58
2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

2014年,北京女博士李香蓉因接受不了新郎身份,在车内将其几刀刺死

红豆讲堂
2024-10-14 15:30:03
通车不到半年,吉林红旗大桥人行道地砖大面积碎裂,建设单位:受融雪剂影响导致,已修复完毕

通车不到半年,吉林红旗大桥人行道地砖大面积碎裂,建设单位:受融雪剂影响导致,已修复完毕

极目新闻
2026-02-24 18:14:46
波兰正式宣布:禁止中国制造的汽车进入本国所有军事设施!

波兰正式宣布:禁止中国制造的汽车进入本国所有军事设施!

达文西看世界
2026-02-22 10:23:58
婆婆想把老家16个亲戚带我家住,我笑着说:妈,我昨天刚把房子卖了

婆婆想把老家16个亲戚带我家住,我笑着说:妈,我昨天刚把房子卖了

夜阑故事集
2025-11-30 11:45:03
婚变风波48小时后,刘强东不再沉默!坦言“在老婆面前没了自信”

婚变风波48小时后,刘强东不再沉默!坦言“在老婆面前没了自信”

东方不败然多多
2026-02-25 02:48:01
从阿森纳挖来的瑰宝!曼联小将狂轰4球,青训主帅直言潜力未触顶

从阿森纳挖来的瑰宝!曼联小将狂轰4球,青训主帅直言潜力未触顶

夜白侃球
2026-02-24 18:59:48
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
一段高铁“高逼格带娃”视频,引来9.2w人嘲笑,教育不是做做样子

一段高铁“高逼格带娃”视频,引来9.2w人嘲笑,教育不是做做样子

墨印斋
2026-02-23 22:24:27
上海富人家保姆狂偷户主奢侈品,监控流出评论区吓傻了

上海富人家保姆狂偷户主奢侈品,监控流出评论区吓傻了

不二表姐
2026-02-24 22:17:15
复工第一天,领导就将我辞退,当晚却接到十多个电话

复工第一天,领导就将我辞退,当晚却接到十多个电话

船长与船1
2026-02-24 12:22:21
阿森纳队长彻底凉了?阿尔特塔摊牌,27 岁核心连替补都难立足

阿森纳队长彻底凉了?阿尔特塔摊牌,27 岁核心连替补都难立足

澜归序
2026-02-25 05:35:20
丰韵:一种关于存在的浓度美学

丰韵:一种关于存在的浓度美学

疾跑的小蜗牛
2026-02-24 22:58:28
安史之乱八年里,叛军为何死战不降?不是安禄山想反,他也很无奈

安史之乱八年里,叛军为何死战不降?不是安禄山想反,他也很无奈

今日养生之道
2026-02-22 16:18:50
2026-02-25 07:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

宇树科技发布四足机器人Unitree As2

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

本地
亲子
时尚
教育
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

坑弟弟,我是一把好手

阔腿裤失宠了?这4条裤子承包你整个春天的时髦!

教育要闻

旧高考地理题对新高考地理考生警示(以2022年旧高考题为例)

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版