网易首页 > 网易号 > 正文 申请入驻

全球华人决战AI之巅!马斯克Grok 3险胜DeepSeek,疯狂启动钞能力,压力给到OpenAI

0
分享至

智东西2月18日报道,刚刚,基于20万块的GPU集群训练,马斯克口中地球上最聪明的AI Grok-3终于亮相!

此次直播伊隆·马斯克(Elon Musk)主要负责听,两位华人研究员坐在C位撑场,分别是曾就职于谷歌的研发小组N2Formal的吴宇怀(Yuhuai “Tony” Wu),以及多伦多大学计算机科学助理教授Jimmy Ba,他是“深度学习三巨头之一”、图灵奖得主辛顿的学生,曾在Meta担任研究员。

▲Jimmy Ba(左二)、吴宇怀(左三)、伊隆·马斯克(最右)

此次,xAI发布了Grok-3、Grok-3 mini,两个推理模型Grok-3 ReasoningGrok-3 mini Reasoning,首个AI智能体DeepSearch。Grok-3在基准测试中击败了Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。社交平台X的Premium Plus订阅用户在Grok的应用程序和网页端可以体验推理、编程,以及DeepSearch的搜索能力

此外,xAI还开启了单独的会员订阅计划SuperGrok,SuperGrok的价格为每月30美元(折合约218人民币)每年300美元(折合约2184人民币),可解锁额外的推理DeepSearch查询,以及无限的图像生成功能

OpenAI联合创始人、前特斯拉AI总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西(Andrej Karpathy)在推特发文评价Grok-3:“Grok-3+Thinking感觉与OpenAI最强大的模型o1-pro(每月200 美元)相当,略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。”

▲AI大神卡帕西评价Grok-3的部分截图(图源:X,经谷歌翻译为中文)

万众期待的语音功能此次并未展示,马斯克透露,最快一周后Grok将获得“语音模式”。几周后,xAI将在企业API中提供Grok-3模型与DeepSearch功能。几个月后,xAI将开源Grok-2。

直播最后放出了Grok用马斯克声音对话的彩蛋~

//oss.zhidx.com/uploads/2025/02/67b423ef8997c_67b423ef847f1_67b423ef847b6_705_1739858846.mp4

一、Grok-3现场思考卡壳,水平与本科毕业生相当,2年内要上火箭

现场演示环节中,Grok被考验了两个任务,一是现场设计了一条往返地球与火星间的合理路径,并用动画呈现,二是设计一款类似俄罗斯方块的消消乐游戏。在演示中Grok“思考卡壳”,因为显示“Thinking Hard”后很长一段时间没有反应,等待几秒后演示人员关闭了页面开启下一话题。

之后演示人员又回到思考页面,分析了Grok的生成结果。

首先是其现场设计的一条往返地球与火星间的合理路径。提示词是“制作从地球降落在火星,然后在下一个发射窗口返回地球的发射动画三维图表并生成代码”。不过,测试人员在Grok-3 mini解决问题的过程中打断了它,并切换到了能力更强大的满血版Grok-3。

114秒后,Grok-3解决了这一问题,具有航空航天经验的马斯克现场评价道,Grok给出的解决方案基本正确,他还煞有介事宣称,2年内Grok将会接入SpaceX的火箭。在场的员工马上调侃,说马斯克“预言什么都是两年内”。

在设计一款类似俄罗斯方块的消消乐游戏时,Grok生成的代码在复制后即可运行。其提示词是“制作一个结合了俄罗斯方块和宝石的游戏,代码可能很长,将其输出为一个文件,让它变得非常棒”。最后游戏的运行机制比较合理。马斯克同时宣布,xAI将成立一个游戏工作室,使用AI进行游戏的开发工作。

Agent能力目前已经是各家大模型企业都在押注的方向,xAI也不例外。他们给模型配备了更多的工具,本次Grok-3已经具有Deep Search功能,xAI称其为初级Agent能力。

演示中,测试人员开启DeepSearch功能,让Grok-3预测SpaceX下一次火箭发射的时间。回答问题时,Grok-3既会给出思维链内容的总结,也会将完整思维链提供给用户。它的搜索范围十分广泛,从X平台上的内容到百科网站,再到美国政府的相关文件。

进行DeepSearch时,Grok-3还会充分考虑用户问题背后的意图、需求和目的,也会对信息来源进行交叉检验,从而给出更为准确的回答。

已经有抢先体验的用户在X发布了100%由Grok-3生成的游戏,用户只需要告诉它我想要什么,并将代码放在正确的位置,就可以得到一个完整的游戏。

//oss.zhidx.com/uploads/2025/02/67b42a4a9f56c_67b42a4a99504_67b42a4a994db_esvEg1EEGJbc-zUH.mp4

在内部,研究人员发现Grok已经可以解决许多复杂的工程问题,节省大量时间,水平大致相当于一名本科毕业生。而17个月前,Grok还很难解决高中数学问题。

二、20万块GPU力大砖飞,性能击败o3-mini high、DeepSeek-R1

直播演示中提到,Grok-3所涉及的训练量是Grok 2的10倍,这都建立在xAI孟菲斯的AI超级计算机集群之上。该集群建造的第一阶段,xAI在122天内建成了拥有10万块NVIDIA H100 GPU的超级计算集群,第二阶段拓展到20万块GPU集群仅用了92天。

基准测试结果显示,Grok-3在评估模型在数学问题样本上性能的AIME和使用博士水平的物理、生物学和化学问题测试模型GPQA、LCB Oct-Feb中击败Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。

Grok-3的早期版本在Chatbot Arena中获得1400分,排名第一。Chatbot Arena是一项众包测试,让不同的AI模型相互竞争,并让用户对他们喜欢的回答进行投票。Grok-3也是有史以来第一个突破1400分的模型。

xAI发布的推理模型早期版本Grok-3 Reasoning Beta,在最新的数学基准测试AIME 2025中达到93分,在GPQA上达到85分,这超过了o3-mini的最佳版本o3-mini high以及DeepSeek-R1。

此外,用户还可以打开“Big Brain”模式让Grok进行额外、更仔细的推理。xAI将该模式描述为最适合数学、科学和代码相关问题的功能。马斯克还提到,他们隐藏了一些推理过程,以防止蒸馏。

对于开源,几个月后xAI将开源Grok-2。马斯克说:“我们的方法是当下一个版本完全发布时,将开源Grok的上一个版本,也就是当Grok-3成熟稳定时,我们将开源Grok-2。”

xAI认为预训练模型远远不够,真正的AI需要具备反思、第一性原理检验等能力。他们通过强化学习让Grok-3学会了上述能力,实现了训练和推理时的两种Scaling Law。

Grok团队成员还透露,Grok-3的语音交互功能是通过原生语音交互模型实现的,模型将能够直接理解用户语音,然后生成对应的语音回复,是一个端到端的过程,无需语音转文字、文字转语音作为中间环节。

马斯克称,未来他们将会进一步加大数据中心的建设力度,xAI的下一个计算集群会成为世界上最强大的集群,能耗达到1.2GW,相当于数十万户家庭1年的用电量。

三、基于合成数据训练,计划筹集约100亿美元资金

值得一提的是,这次直播马斯克又姗姗来迟,推迟18分钟开始,但最后X上xAI官方账号中的直播观看人数已经超过286万人次。刚下直播马斯克就马不停蹄转发、点赞科技播客顶流Lex Fridman、AI大神卡帕西等对Grok-3的赞美。

在Grok-3发布之前,马斯克就按耐不住在X上让Grok-3秀技能。

他让Grok仿照电影《指环王》中“戒指之诗”做了工程师版诗歌:“以lor’s ring诗句的风格介绍戒指的起源,指派工程师进行高级大模型搜索、代理、记忆、幽默的工作,使其接近原作”。

Grok生成的诗歌最后还有对专有名词的注释,与原著如何对应等。

法新社此前报道,Grok-3是在合成数据上接受训练的,并且能通过检查数据来反映它所犯的错误以达到逻辑一致性。

融资方面,上周,据媒体援引消息人士报道,xAI还正在接洽潜在投资者,计划筹集约100亿美元资金,此轮融资可能使该公司估值达到约750亿美元。去年12月,xAI宣布完成C轮融资,筹集了60亿美元。xAI总融资额已经达到120亿美元(约合人民币876亿元)。

结语:马斯克继续押注大算力AI

本次发布的Grok 3无论是在训练集群规模、用电量上都是首屈一指的,这也在一定程度上转化为了Grok 3在多个基准测试上的SOTA表现。根据马斯克在采访中的言论,未来xAI可能还会继续押注大算力AI这条发展路径。

不过,也有海外网友犀利的评价道,自DeepSeek-R1之后,我们只应考虑效率更高的进步,而不仅仅那些规模更大、且比竞争对手耗能更多的进步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
苏超赞助太“散装”了:街边卤菜店与5万亿规模银行同场竞技

苏超赞助太“散装”了:街边卤菜店与5万亿规模银行同场竞技

中新经纬
2026-04-11 13:34:13
嫁富二代明星后,她住进北京豪宅,开劳斯莱斯,如今40岁又怀3胎

嫁富二代明星后,她住进北京豪宅,开劳斯莱斯,如今40岁又怀3胎

不似少年游
2026-04-10 22:23:54
逼走樊振东?打压陈梦?排挤张继科?8年了,刘国梁终于迎来正名

逼走樊振东?打压陈梦?排挤张继科?8年了,刘国梁终于迎来正名

阿斚田侃故事
2026-03-15 06:16:26
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
海蒂·克鲁姆晒裸照:53岁超模把Gucci浴巾当道具,评论区炸了

海蒂·克鲁姆晒裸照:53岁超模把Gucci浴巾当道具,评论区炸了

码上闲叙
2026-04-08 15:57:01
李亚鹏不忍了!出手替陈光标出了口“恶气”,原来张雪当初没说谎

李亚鹏不忍了!出手替陈光标出了口“恶气”,原来张雪当初没说谎

社会日日鲜
2026-04-11 09:40:17
盐水洗蓝莓等于吃虫卵!老果农教一招,虫子跑光营养全保

盐水洗蓝莓等于吃虫卵!老果农教一招,虫子跑光营养全保

开心美食白科
2026-04-09 09:44:59
演员赵达官宣结婚,新娘年轻漂亮,周也送祝福!戏红人不红实力派

演员赵达官宣结婚,新娘年轻漂亮,周也送祝福!戏红人不红实力派

露珠聊影视
2026-04-11 13:32:58
《冰湖重生》夏梦、李沁、李梦饰演疯批公主一对比,演技高下立判

《冰湖重生》夏梦、李沁、李梦饰演疯批公主一对比,演技高下立判

亦暖追剧随笔
2026-04-10 14:43:29
李想朋友圈炮轰:遭遇“最恶劣内卷”,东风日产高管回应:尊重每一家同行,包括理想汽车

李想朋友圈炮轰:遭遇“最恶劣内卷”,东风日产高管回应:尊重每一家同行,包括理想汽车

鲁中晨报
2026-04-11 19:48:04
惊雷!4000亿市值蒸发,迈瑞医疗年报爆冷,股民遭闷杀

惊雷!4000亿市值蒸发,迈瑞医疗年报爆冷,股民遭闷杀

慧眼看世界哈哈
2026-04-11 19:21:11
兰州擒获杀人恶魔:八名特警破门而入,搏斗十分钟,情节堪比武侠剧

兰州擒获杀人恶魔:八名特警破门而入,搏斗十分钟,情节堪比武侠剧

陇史荟王文元
2026-04-11 07:34:39
哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

哈萨克斯坦2000万吨稀土转卖美日,签完协议发现,还是绕不开中国

蔡蔡说史
2026-04-11 04:25:53
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
争议?姆巴佩被打脸+流血!主裁拒判点球 皇马官方:西甲暗箱操作

争议?姆巴佩被打脸+流血!主裁拒判点球 皇马官方:西甲暗箱操作

我爱英超
2026-04-11 06:15:26
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
全红婵遭网暴案嫌疑人被拘,央媒:把网络霸凌的“水花”彻底打下去

全红婵遭网暴案嫌疑人被拘,央媒:把网络霸凌的“水花”彻底打下去

澎湃新闻
2026-04-11 07:52:12
扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

扫墓才知道家里有长辈是饿死的!网友:原来荒诞的从来都只是人生

夜深爱杂谈
2026-04-08 17:04:46
绿营将“追杀”郑丽文,爆料称高层交代不放过一人:直到把她逼死

绿营将“追杀”郑丽文,爆料称高层交代不放过一人:直到把她逼死

影孖看世界
2026-04-10 15:30:58
2026-04-12 02:00:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11556文章数 117027关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

头条要闻

霍尔木兹海峡突传大消息 特朗普最新发声

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

旅游
游戏
艺术
亲子
军事航空

旅游要闻

[视频]多元业态融合 打造文旅消费新热点

排面拉满!《影之刃零》入选国家级艺术杂志

艺术要闻

你绝对想不到,这个国家美女竟如此多!

亲子要闻

孩子出现这些行为,不是早恋那么简单!

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版