网易首页 > 网易号 > 正文 申请入驻

马斯克还可以,“地球上最聪明的人工智能”Grok-3免费了

0
分享至

提前说一句

这篇文章是Grok-3写的,本人只做了部分删减和排版

Grok-3 是 xAI 开发的一种尖端 AI 模型,标志着人工智能领域的重要进步。该模型于 2025 年 2 月 19 日发布,旨在提升推理能力、计算能力和适应性,特别适用于数学、科学和编程问题。

以下是关于 Grok-3 的全面分析,包括其开发背景、关键功能、训练技术、性能基准、与其他模型的比较、访问方式、以及最近的免费访问更新和 DeepSearch、Think 模式及 API 调用的详细信息。


开发背景

Grok-3 是 xAI 系列模型的最新版本,xAI 是一家由 Elon Musk 创立的专注于人工智能的公司。Grok-3 的发布延续了 xAI 对构建强大且安全的 AI 系统的承诺,旨在推动人工智能在各个领域的应用。


关键功能与能力

Grok-3 的核心优势在于其先进的推理能力。通过大规模强化学习(RL)优化,Grok-3 能够在几秒到几分钟内进行深入思考,纠正错误并探索替代方案。这使其特别适合处理需要复杂推理的任务,例如数学问题、科学查询和编程挑战。

此外,Grok-3 配备了 DeepSearch 代理,这是一个创新功能,允许模型搜索互联网和 X 平台,以提供准确且最新的答案。DeepSearch 的演示显示,它可以分析 15 个 X 帖子和 32 个网页,并在约一分钟内生成详细的回答,展示其推理过程。

另一个显著特点是 Grok-3 的上下文窗口为 100 万个标记,是之前模型的 8 倍。这极大提升了其处理大型文档和复杂任务的能力,例如分析长篇报告或进行多步骤推理。

Grok-3 还有一个成本效益更高的变体,称为 Grok 3 mini,其性能在某些基准测试中也表现出色,例如 AIME 2024 准确率为 95.8%,LiveCodeBench v5 得分 80.4%。


训练与技术

Grok-3 的训练依托 xAI 的 Colossus 超级计算机,该计算机配备超过 20 万个 GPU,提供 10 倍于之前最先进模型的计算能力。训练过程包括两个阶段:第一阶段在 10 万个 GPU 上同步训练 122 天,第二阶段扩展到 20 万个 GPU,持续 92 天。据 xAI 开发人员称,构建这一基础设施的挑战甚至超过了开发模型本身。

训练数据主要基于合成数据集,并使用强化学习技术减少“幻觉”(即 AI 提供不准确或虚构的回答)。这一方法显著提高了 Grok-3 的事实准确性和逻辑一致性。


性能基准

Grok-3 在多个基准测试中表现出色,以下是其关键性能指标:

  • Chatbot Arena 的 Elo 分数为 1402。

  • AIME 2025(cons@64)准确率为 93.3%。

  • GPQA(通用目的问答测试)得分 84.6%。

  • LiveCodeBench v5 得分 79.4%。

这些成绩表明 Grok-3 在推理、问答和编码任务中表现卓越。此外,它在 LMArena Chatbot Arena 排行榜上以“chocolate”代号位居榜首,进一步验证了其领先地位。


与其他模型的比较

为了评估 Grok-3 的相对性能,xAI 提供了与主要竞争对手的基准比较表,涵盖多个测试指标。以下是详细比较:

基准测试

Grok 3 Beta

Grok 3 mini Beta

GPT-4o

Gemini 2.0 Pro

DeepSeek-V3

Claude 3.5 Sonnet

AIME’24

52.2%

39.7%

9.3%

39.2%

16.0%

GPQA

75.4%

66.2%

53.6%

64.7%

59.1%

65.0%

LCB

57.0%

41.5%

32.3%

36.0%

33.1%

40.2%

MMLU-pro

79.9%

78.9%

72.6%

79.1%

75.9%

78.0%

LOFT (128k)

83.3%

83.1%

78.0%

75.6%

69.9%

SimpleQA

43.6%

21.7%

38.2%

44.3%

24.9%

28.4%

MMMU

73.2%

69.4%

69.1%

72.7%

70.4%

EgoSchema

74.5%

74.3%

72.2%

71.9%

从表中可以看出,Grok-3 在大多数测试中优于 GPT-4o、Gemini 2.0 Pro、DeepSeek-V3 和 Claude 3.5 Sonnet,尤其是在 AIME’24 和 GPQA 测试中表现突出。


免费访问更新

截至 2025 年 2 月 20 日,Grok-3 暂时对所有用户免费,这一优惠通过 xAI 的官方 X 帖子宣布,标题为“世界最聪明的 AI,Grok 3,现在免费(直到我们的服务器熔化)”。这一临时免费访问旨在提升用户参与度并收集反馈,但可能因服务器负载过高而突然结束。

DeepSearch 和 Think 模式的详细介绍

  • DeepSearch:这是 xAI 推出的第一个 AI 代理,旨在无情地寻求真相,跨越人类知识库。它可以合成信息,推理冲突事实,并从复杂性中提炼清晰度。使用案例包括实时新闻、社会建议和深入的科学研究。输出为简洁且全面的报告作为最终总结痕迹。访问方式为 X Premium+ 用户通过 x.com/i/grok[1] 和 grok.com[2],企业合作伙伴也可通过 API 访问。

  • Think 模式:作为 Grok 3(Think)和 Grok 3 mini(Think)beta 推理模型的一部分,通过大规模强化学习(RL)优化,细化链式思维过程。Grok 3(Think)在 AIME’25 上达到 93.3% 的准确率,GPQA 得分 84.6%,LiveCodeBench 得分 79.4%;Grok 3 mini 在 AIME’24 上达到 95.8%,LiveCodeBench 得分 80.4%。用户可以通过点击“Think”按钮激活,查看推理过程,适合复杂问题。

模式之间的区别与用法

  • 区别:Think 模式专注于模型的内部推理能力,不一定涉及外部搜索;DeepSearch 则涉及外部搜索,结合网络和 X 的信息进行推理。

  • 用法:Think 模式适合需要展示推理过程的复杂问题,如数学或编程任务;DeepSearch 适合需要最新信息或研究性答案的问题,如科学报告或实时新闻。

API 调用方法的详细说明

开发者可以通过 xAI API 访问 Grok-3 和相关模型,步骤如下:

  1. 访问 xAI 控制台[3] 注册账户。

  2. 创建 API 密钥,API 兼容 OpenAI 和 Anthropic SDK,迁移只需更改 URL。

  3. 使用 API 端点与模型交互,支持文本生成、函数调用和系统提示等功能。

xAI 提供 $25 每月免费信用,开发者可通过 xAI API 博客[4] 获取更多信息。API 文档可在 xAI 文档[5] 找到,包含模型列表和定价信息。

未来计划

xAI 计划持续优化 Grok-3,包括频繁更新和引入新功能,例如工具使用、代码执行和高级代理能力。此外,公司关注可扩展监督和对抗性鲁棒性,以确保模型的安全性和可靠性。这些计划详细记录在 xAI 的文档中,例如 2025.02.10-RMF-Draft.pdf[6]。

xAI 还鼓励开发者参与,提供了职业机会,感兴趣的个人可访问 x.ai/careers[7] 申请。

结论

Grok-3 是 xAI 在人工智能领域的重要突破,其先进的推理能力、强大的计算支持和卓越的基准表现使其成为领先的 AI 模型。100 万个标记的上下文窗口尤其令人印象深刻,显著提升了其处理复杂任务的能力。随着 xAI 的持续开发,Grok-3 预计将在未来进一步推动 AI 技术的进步。

Reference

x.com/i/grok: https://x.com/i/grok

grok.com: https://grok.com/

xAI 控制台: https://console.x.ai/

xAI API 博客: https://x.ai/blog/api

[5]

xAI 文档: https://docs.x.ai/docs

[6]

2025.02.10-RMF-Draft.pdf: https://x.ai/documents/2025.02.10-RMF-Draft.pdf

[7]

x.ai/careers: https://x.ai/careers

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国超算中心遭窃10PB数据:6000家机构卷入

中国超算中心遭窃10PB数据:6000家机构卷入

全栈遛狗员
2026-04-09 17:50:54
实锤!伊朗系发射C-802反舰导弹,或真打中了英国海军龙号驱逐舰

实锤!伊朗系发射C-802反舰导弹,或真打中了英国海军龙号驱逐舰

军机Talk
2026-04-10 13:06:47
杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

杜兰特29+7+5迎里程碑,火箭击退76人豪取8连胜暂列西部第4

湖人崛起
2026-04-10 10:25:47
今天,A股放量并未大涨,迹象很明显,做好准备了,很可能这样走

今天,A股放量并未大涨,迹象很明显,做好准备了,很可能这样走

丁丁鲤史纪
2026-04-10 13:23:49
全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

全红婵又遭网暴!哥哥怒怼网友:我们全家都胖?吃你们家大米了?

念洲
2026-04-10 08:40:37
维拉8连胜背后:一个弃帅如何把二流球队炼成欧洲公敌?

维拉8连胜背后:一个弃帅如何把二流球队炼成欧洲公敌?

落夜足球
2026-04-10 09:55:02
不要再向以色列提供一架战斗机!

不要再向以色列提供一架战斗机!

武器纵论
2026-04-09 22:35:26
湖北一男子涉嫌杀害4岁女儿后报溺水假警被刑拘,细节曝光:案发前5个月曾给女儿投保意外险,事发当天将女儿抛入江中,假意对遗体实施急救

湖北一男子涉嫌杀害4岁女儿后报溺水假警被刑拘,细节曝光:案发前5个月曾给女儿投保意外险,事发当天将女儿抛入江中,假意对遗体实施急救

扬子晚报
2026-04-10 11:22:32
中国通用技术(集团)原总经理助理李克全接受监察调查

中国通用技术(集团)原总经理助理李克全接受监察调查

界面新闻
2026-04-10 10:01:37
突发!特斯拉新款 Model Y 正式发布

突发!特斯拉新款 Model Y 正式发布

XCiOS俱乐部
2026-04-10 14:01:30
体检报告中,若3个指标都正常,基本可排除很多疾病

体检报告中,若3个指标都正常,基本可排除很多疾病

白话电影院
2026-04-09 16:11:20
姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

姐不仅圆又大,还是个肉墩,就在家自拍,不让别人看

飛娱日记
2026-03-19 07:26:09
迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

迟重瑞,已皈依佛门,不生孩子家族显赫,财富差距掩盖了他的才华

混沌录
2026-04-09 18:45:25
文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

文章上海开陕菜馆爆火!女儿打头阵捧场,手上婚戒引全网猜测

老特有话说
2026-04-10 12:58:01
强迫劳动指控撤销!巴西对比亚迪态度大反转:发现离不开比亚迪了

强迫劳动指控撤销!巴西对比亚迪态度大反转:发现离不开比亚迪了

青青子衿
2026-04-10 02:11:50
澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

澳大利亚等7国发表联合声明:“以最强烈措辞”谴责造成联合国维和人员死亡等行径

环球网资讯
2026-04-09 14:51:06
追觅俞浩工作群发飙:把宇树所有客户抢过来,2亿招首席科学家

追觅俞浩工作群发飙:把宇树所有客户抢过来,2亿招首席科学家

三言科技
2026-04-10 14:05:08
黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

黄景瑜王玉雯恋情被曝光?两人被拍到进入饭局,随后一起到酒店,直到天亮了也没离开。

贴小君
2026-04-10 13:26:42
山西一局长在办公室突发疾病不幸去世,单位正申报因公殉职,生前曾获省五一劳动奖章

山西一局长在办公室突发疾病不幸去世,单位正申报因公殉职,生前曾获省五一劳动奖章

大风新闻
2026-04-10 11:26:15
SpaceX去年营收超185亿美元,亏损近50亿美元

SpaceX去年营收超185亿美元,亏损近50亿美元

界面新闻
2026-04-10 08:27:09
2026-04-10 15:32:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3311文章数 11130关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

本地
亲子
旅游
公开课
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

亲子要闻

手外纪事|第57期 束带宝宝,父母没有放弃治疗,换来孩子一个未来

旅游要闻

亚洲游客抛弃中东,扎堆邮轮与短途游

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版