网易首页 > 网易科技 > 网易科技 > 正文

马斯克发布Grok-3:性能更强了,但真有新突破?

0
分享至

2月19日消息,美国时间周一,埃隆·马斯克(Elon Musk)旗下的人工智能初创公司xAI发布了其最新大模型Grok-3。该公司不仅演示了新模型的强大性能,还展示了由20万块GPU组成的计算集群,预示着更大的野心。

在发布会上,马斯克及其团队重点强调了Grok-3强大的计算能力、基准测试表现以及即将推出的功能,尽管多数演示内容与竞争对手已实现的功能高度相似。

xAI发布会初段的焦点并非人工智能本身,而是名为“巨像”(Colossus)的超级计算集群,该集群由20万块GPU组成,为Grok-3的训练提供算力支撑。该系统分两个阶段完成:首先在10万颗GPU上进行了122天的同步训练,随后又用了92天逐步扩展到20万颗GPU上。xAI团队坦言,构建这一基础设施比开发人工智能模型本身更具挑战性。

xAI已经计划打造一个更强大的GPU集群,马斯克表示他们的目标是当前容量的五倍,这将使其成为世界上最强大的GPU集群。

在性能方面,Grok-3在标准AI基准测试中表现出色。基础模型(未嵌入思维链与推理模块的标准版)稳居数学(AIME)、科学(GPOA)与编程(LCB)测试榜首,其盲测表现同样亮眼。

xAI证实,此前代号为“Chocolate”的神秘模型实为Grok-3的早期测试版,该版本曾被上传至LLM Arena平台。在这些测试中,它在所有大语言模型中获得了最高的ELO评分,这意味着用户更喜欢Grok-3的回答,而非其他人工智能模型生成的答案。此评估方式的独特价值在于:模型无法通过针对性训练在基准测试中“作弊”,其结果完全基于数千匿名用户的盲测偏好。

Grok-3的"推理测试版"(Reasoning Beta)通过内置思维链处理模块与测试阶段额外算力投入,将数学成绩提升至新高度——在AIME 2025基准测试中得到93分,而其他表现最佳的模型得分均低于87分。

值得注意的是,Grok-3 Mini推理测试版虽规模较小,却因更长的训练时长在部分场景下反超标准版。换句话说,完整版的Grok-3在获得更多训练后仍有提升空间,考虑到其更大的参数量,这似乎很有潜力。

不过当进入现场演示环节时,Grok-3的表现更像是技术追赶而非突破创新。xAI团队展示了模型解决物理问题和从头编写游戏代码的能力,但ChatGPT、Claude和谷歌的Gemini等竞品早在数月前就已实现。

新工具,旧范式

xAI同步推出深度搜索(DeepSearch)研究代理系统。该工具运作机制与OpenAI及谷歌服务类似,可实现全网信息抓取并生成多维度主题分析报告。

X Premium Plus订阅用户现已开放Grok-3基础版访问权限,但高阶版本与迭代更新将独家部署于独立app或Grok.com平台。

未来几周内,xAI将推出类似于OpenAI“高级语音模式”的语音交互功能。马斯克特别强调此非传统文本转语音(TTS)技术,而是一个真正的AI语音模型,能够实现自然、富有表现力的语音交互。

开发者将在未来几周内获得API访问权限以及音频转录功能,这将使Grok-3成为第三方AI驱动应用程序的强大工具。

值得关注的是,在演示Grok-3生成《俄罗斯方块》游戏代码后,xAI还透露计划成立一个AI游戏工作室,让开发者能够利用Grok-3构建游戏。

目前,Grok-3模型正在逐步推出。一些爱好者已经抢先体验,并对结果表示满意。

计算机科学家莱克斯·弗里德曼(Lex Fridman)是人工智能领域最具影响力的人物之一,他对Grok-3的能力给予了高度评价。他写道:“我开始大量使用Grok 3(早期)。我惊呆了,这个模型给人留下了非常深刻的印象。祝贺马斯克及其团队将它变为现实。”

其他人则将Grok-3与市场上的领先竞争对手进行了比较。OpenAI前联合创始人安德烈·卡帕西(Andrej Karpathy)在社交媒体上发帖称:“Grok 3 + Thinking的表现接近OpenAI最强模型(o1-pro,200美元/月)的顶尖水平,略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。我要向xAI团队表示热烈祝贺,他们显然拥有巨大的发展速度和势头。”

X用户Penny2x分享了一个由Grok-3从头构建的游戏——一个类似于《超级马里奥兄弟》的2D平台游戏。他对Grok理解指令并通过多次迭代改进的能力印象深刻。该游戏可以在Thank Doge平台上进行测试。

Penny2x在帖子中写道:“我只需要不断提出调整要求,它就会生成一个独立的游戏文件,我可以直接放在桌面上运行。这简直太不可思议了。我们生活在未来,现在每个人都可以成为开发者。”

xAI还证实,计划在Grok-3完全成熟并稳定运行后几个月后,将Grok-2开源。此前,xAI已在Grok-2之后开源了其初代模型,延续了通过发布旧版本激发创新的趋势,尽管Grok-2的性能仍落后于顶级模型。

目前,Grok-3似乎已经能够做到顶级人工智能模型所能做到的事情。真正的考验将在未来几周内到来,届时xAI将推出其承诺的语音功能、游戏工具和API访问权限。现在,压力来到了OpenAI这边,该公司即将发布GPT-4.5。(小小)

延伸阅读
相关推荐
热点推荐
眉骨缝了三针!徐杰更新社媒报平安:“新赛季 为广东而战”

眉骨缝了三针!徐杰更新社媒报平安:“新赛季 为广东而战”

狼叔评论
2025-12-15 01:10:11
罕见!东莞一棵荔枝树在12月结果

罕见!东莞一棵荔枝树在12月结果

新快报新闻
2025-12-13 22:23:15
石家庄精英中学,出事了?

石家庄精英中学,出事了?

周一叨
2025-12-14 17:18:30
女教师新婚当天从7楼坠亡 老家村干部:她可能有抑郁症,双方家庭都很悲伤内疚

女教师新婚当天从7楼坠亡 老家村干部:她可能有抑郁症,双方家庭都很悲伤内疚

红星新闻
2025-12-14 19:33:05
“短剧女王”郭宇欣真实颜值曝光,方脸龅牙大粗腿,26岁模样成熟

“短剧女王”郭宇欣真实颜值曝光,方脸龅牙大粗腿,26岁模样成熟

小娱乐悠悠
2025-12-13 14:13:53
全面反华开始?特朗普不当老二,9国在白宫签字,要废中国王牌

全面反华开始?特朗普不当老二,9国在白宫签字,要废中国王牌

现代小青青慕慕
2025-12-14 12:31:05
徐萌这身材绝了,难怪八旬范大师沦陷,换谁也扛不住

徐萌这身材绝了,难怪八旬范大师沦陷,换谁也扛不住

西门老爹
2025-12-12 20:18:17
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

袁世凯坐龙椅的真实老照片,接受群臣朝拜,“妃子们”也非常漂亮

文史微鉴
2025-12-13 22:13:15
621年李世民之子降生,袁天罡看了一眼婴儿长叹:此子其父是真龙

621年李世民之子降生,袁天罡看了一眼婴儿长叹:此子其父是真龙

如烟若梦
2025-12-05 18:15:03
“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

“指纹锁”正在退出中国家庭?开锁师傅说出实情,让我恍然大悟!

空间设计
2025-11-26 12:32:03
乾隆出上联:此木为柴山山出,6岁稚童巧对下联,还破了一桩悬案

乾隆出上联:此木为柴山山出,6岁稚童巧对下联,还破了一桩悬案

凯裕说故事
2025-08-19 17:16:08
被对手大外援抢爆篮板!杜锋内涵焦柏乔不是年轻球员该有精神面貌

被对手大外援抢爆篮板!杜锋内涵焦柏乔不是年轻球员该有精神面貌

狼叔评论
2025-12-14 22:46:07
两腿一蹬,一切成空!湖南富豪瓷砖大佬猝然离世,年仅44岁!

两腿一蹬,一切成空!湖南富豪瓷砖大佬猝然离世,年仅44岁!

今朝牛马
2025-12-06 12:14:51
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
香港总决赛落幕!诞生5个赢家+3个输家,王曼昱 张本智和位列其中

香港总决赛落幕!诞生5个赢家+3个输家,王曼昱 张本智和位列其中

侃球熊弟
2025-12-14 22:11:29
今年三九天,“十年不遇”,今年冬天到底冷不冷,答案来了

今年三九天,“十年不遇”,今年冬天到底冷不冷,答案来了

三农雷哥
2025-12-11 09:07:38
驻日美军“炮轰”中方,污蔑辽宁舰挑衅日本,要替高市主持公道

驻日美军“炮轰”中方,污蔑辽宁舰挑衅日本,要替高市主持公道

第一军情
2025-12-14 17:05:03
报了名的张水华在医院上班,没跑“家门口的”福州马拉松;护士长:是正常排班,没有特殊照顾也不会针对她;白岩松评张水华事件

报了名的张水华在医院上班,没跑“家门口的”福州马拉松;护士长:是正常排班,没有特殊照顾也不会针对她;白岩松评张水华事件

每日经济新闻
2025-12-15 00:41:39
广东男篮为何赢得那么难?赛后主帅杜锋给出了答案,徐杰伤情曝光

广东男篮为何赢得那么难?赛后主帅杜锋给出了答案,徐杰伤情曝光

萌兰聊个球
2025-12-14 23:07:38
2025-12-15 04:48:49

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

本地
家居
旅游
数码
公开课

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

家居要闻

温润质感 打造干净空间

旅游要闻

冬天去哪玩?尔滨 120 万㎡冰雪王国等你来打卡

数码要闻

Beats携手IShowSpeed合作短片 《速稳风云》全球上线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×