网易首页 > 网易号 > 正文 申请入驻

马斯克口中“最强模型”Grok 4免费了!详细评测:它和GPT-5谁更牛?

0
分享至

作者|毕乐天

来源|AI先锋官

认识Grok 4:一个不像ChatGPT的、爱抬杠的AI鬼才

在被GPT-5“逼上梁山”后,马斯克拿出来的Grok 4到底是个什么“神仙”?

简单来说,Grok 4有三大特点。

第一,它有个性。

不像个工具,更像个朋友。

有点风趣,有点叛逆,甚至有点毒舌。

有个“趣味模式”(Fun Mode),聊天体验拉满。

专治各种“一本正经”。

第二,它有超能力。

就是能实时刷X(推特)。

别人还在看旧闻,它已经知道当下最火的热点。

追星、吃瓜、看趋势,它是最快的。

这是它的“杀手锏”。

第三,它有风险。

它的“不加掩饰”是把双刃剑。

好处是敢说真话,不回避敏感话题。

坏处是,也因此惹过大麻烦。

曾生成过非常不当的内容。

在“开放”和“安全”之间,它还在找平衡。

这个“不正经”的AI能为你做什么?

Grok 4的应用场景超越了传统的生产力工具范畴,深入到日常生活的方方面面,展现出其作为“生活方式AI”的定位。

它不仅能帮助完成严肃的工作,更致力于成为用户的创意伙伴、生活助手和娱乐来源。

升级你的日常生活

  • 智能膳食规划师:Grok可以根据你冰箱里现有的食材,或者超市的打折信息,来设计一周的菜单,并能精确计算每餐的卡路里。你甚至可以拍下食品储藏室的照片,让Grok来规划食谱。

  • 高情商邮件助手:不擅长措辞?Grok可以帮你重写那些听起来有点尴尬的电子邮件,或起草专业的商务信函,让你的表达更得体、更有效。

  • 非评判性“树洞”:感到焦虑或思绪混乱时,Grok可以扮演一个没有偏见的倾听者。你可以向它倾诉烦恼,它则能帮助梳理思路,将杂乱的想法整理成条理清晰的脉络,提供情感支持和决策辅助。

释放你的内在创造力

  • 图像与视频生成器:Grok的一大亮点是其内置的“Grok Imagine”功能,它可以根据文本提示生成图像,并能将静态图像转化为带有声音的短视频。该功能提供多种风格选项,其中最引人注目的是备受争议的“Spicy Mode”(辛辣模式),据报道该模式能够生成包含部分裸露和性暗示内容的图像,这在吸引眼球的同时也引发了关于AI伦理和内容安全的激烈讨论。

  • 社交媒体达人:凭借对X平台的实时洞察,Grok可以撰写风趣的推文、创作引人入胜的社交媒体帖子,并根据当前的热门趋势推荐最相关的标签,帮助你提升社交影响力。

  • 创意写作伙伴:无论是构思小说情节、打破写作瓶颈,还是与AI共同创作一个短篇故事,Grok都能提供源源不断的灵感和协助。

更快、更聪明地获取知识

  • 终极解释器:Grok擅长将复杂、专业的概念(如前沿科学理论、金融市场动态或技术文档)分解成通俗易懂的语言,让非专业人士也能轻松理解。

  • 编程好帮手:对于有技术背景或对编程感兴趣的用户,Grok是一个强大的编程辅助工具。它支持多种主流编程语言,如Python、JavaScript和HTML,能够编写代码、实时调试、优化程序结构,甚至可以从单一提示词开发完整的全栈应用程序。

巅峰对决:Grok 4(叛逆小子) vs. GPT-5(全能学霸)

为了更直观地理解Grok 4与GPT-5之间的差异,以下将从多个维度对这两个模型进行比较。

这场对决的核心在于,展现两种截然不同的AI设计哲学:

一个是追求个性、时效性和不羁风格的“叛逆者”。

另一个是追求全面、可靠和专业深度的“优等生”。

核心特性速览

下表总结了两个模型在关键特性上的差异,旨在为你提供一个清晰、易于理解的参考框架。

表格内容综合了多份技术评测和市场分析报告。

“智能”的深层解读:跑分与实用的权衡

在“谁更聪明”这个问题上,答案是复杂的。

一方面,xAI大力宣传Grok 4在多项高难度学术基准测试中的领先地位。

例如,在“Humanity's Last Exam (HLE)”和“ARC-AGI-2”等考验顶尖推理能力的测试中,Grok 4的得分显著超过了包括GPT-5和Claude Opus在内的所有竞争对手。

这展现出其在解决抽象、复杂问题上的强大实力,堪称AI界的“数学奥林匹克冠军”。

然而,另一方面,GPT-5则被定位为一个更全面、更可靠的“通才”。

OpenAI强调其在健康、法律、专业写作等多个实际应用领域的“专家级”表现,致力于提供准确、安全、结构化的答案。

许多用户评测也指出,尽管GPT-5可能不在每一个细分学术榜单上都名列第一,但其在日常任务中的综合表现、稳定性和实用性更胜一筹。

这种现象揭示了“基准测试跑分”与“真实世界用户体验”之间可能存在的脱节。

顶尖的基准测试成绩,如同跑车的最高时速,虽然令人印象深刻,但并不完全等同于日常驾驶的舒适度和可靠性。

对于大多数用户而言,AI的响应速度、答案的可靠性以及交互的流畅度,往往比其在极端难题上的表现更为重要。

速度与深度的取舍

在响应速度方面,GPT-5通常具有明显优势。

评测数据显示,GPT-5的文本生成速度(以每秒输出的token计算)远快于Grok 4。

这种速度上的差异源于两者不同的设计目标。

Grok 4,特别是其更强大的“Heavy”版本,被设计为在处理复杂问题时进行更深度的“思考”。

它采用了一种“多代理”协作机制,即同时启动多个AI代理,对同一个问题进行独立推理和交叉验证,最终综合出最佳答案。

这种方法虽然能显著提升复杂任务的准确性并减少“幻觉”,但代价是更长的处理时间和更高的计算成本。

相比之下,GPT-5的架构更侧重于效率与性能的平衡,能够为大多数查询提供快速响应。

实战测试!我们让两大AI“打”了三架

为了具体展示Grok 4和GPT-5在实际应用中的不同特点,我们设计了三个场景,让它们进行正面交锋。

所有测试均采用完全相同的提示词,并对其回答进行并排比较。

第一回合:创意与幽默感测试

  • 提示词:“你是一只猫,刚刚发现了你家铲屎官私藏的顶级有机猫薄荷。请用一种戏剧化且搞笑的口吻,写一篇简短的社交媒体帖子来描述你的体验。”

  • 测试目标:评估模型的个性、幽默感和创意写作风格。这个场景旨在考验Grok的“人设”优势。

  • 结果分析:在此测试中,Grok 4的回答预计将更具“网感”和颠覆性。它可能会使用网络流行语、颜文字,并以一种更夸张、更符合“猫设”的口吻进行表达,展现出其“叛逆”和风趣的本色。相比之下,GPT-5可能会生成一篇文笔优美、构思巧妙的帖子,但其风格可能更趋于传统和“安全”,缺乏Grok那种出人意料的幽默感。通过对比两者的措辞、语气和整体喜剧效果,可以清晰地看到它们在“个性化”表达上的差异。

  • GPT-5

  • Grok 4

第二回合:实时信息获取能力测试

  • 提示词:“最近X上关于一个新的开源AI模型‘DeepCogito v2’的讨论很热烈。请问它是什么?过去一天里,关于它点赞数最高的三条帖子是哪些?” (注:此处使用了研究材料中虚构的事件,以确保回答必须依赖实时数据)。

  • 测试目标:检验Grok的独家“杀手锏”——与X平台的实时数据整合能力。

  • 结果分析:这个测试预计将成为Grok的主场。理论上,Grok应该能够准确地回答这个问题,提供对“DeepCogito v2”的简介,并直接从X平台抓取最新的、点赞数最高的帖子内容。而GPT-5,由于其信息主要来源于经过索引的网页,对于刚刚出现的热点事件,其标准的网页浏览功能无法找到相关信息,“无法找到实时信息”这个回合的对比,将最直观地展示Grok在时效性上的绝对优势。

  • Grok 4

  • GPT-5

第三回合:烧脑逻辑推理测试

  • 提示词:“爱丽丝有4个姐妹和1个兄弟。请问,爱丽丝的兄弟有几个姐妹?请在给出最终答案前,一步步地思考并解释你的推理过程。” (注:这是著名的“爱丽丝漫游仙境”逻辑难题)。

  • 测试目标:评估模型的纯粹逻辑推理能力,这被认为是当前大型语言模型普遍的弱点之一。

  • 结果分析:这个测试的结果具有不确定性。研究表明,即便是最先进的模型也常常在这个问题上出错。例如,GPT-4o的成功率约为65%,而Claude 3 Opus则为43%。问题的关键在于模型是否能理解“爱丽丝本人也是她兄弟的姐妹之一”。正确的答案是5个(4个姐妹 + 爱丽丝)。我们将重点分析两个模型给出的“分步推理”过程。两个模型都顺利答对了

  • GPT-5

  • Grok 4

通过这三轮精心设计的测试,用户可以直观地感受到两个AI的“性格”和能力侧重,而不仅仅是停留在功能的纸面描述上。

最终定论:所以,到底该用谁?

战局总结

经过上述分析和实战测试,我们可以得出一个清晰的结论:

Grok 4和GPT-5并非简单的优劣之分,而是代表了两种不同的发展方向和用户价值主张。

Grok 4像是一个紧跟潮流、富有创意的伙伴,适合用于头脑风暴、娱乐消遣和获取最新资讯。

而GPT-5则是一位可靠、博学的专家,更适合处理严谨的学术任务、专业的商业写作和解决复杂的逻辑问题。

简单的选择指南

不存在一个“最好”的AI,只有“最适合”的工具。

你的选择应取决于具体的任务需求:

  • 选择Grok 4,当你需要

    • 追踪热点:想知道某个突发新闻在社交媒体上的最新动态和人们的反应。

    • 激发创意:需要一些天马行空、不拘一格的想法来打破僵局。

    • 轻松娱乐:想和AI开个玩笑,或者生成一些有趣的图片和视频。

    • 获取直接观点:希望AI在敏感话题上能给出更直接、更少回避的看法。

  • 选择GPT-5,当你需要

    • 完成严谨工作:撰写学术论文、商业报告或技术文档。

    • 解决复杂问题:需要进行多步骤的逻辑推理或解决复杂的数理问题。

    • 获取结构化信息:希望得到条理清晰、结构完整、可靠性高的答案。

    • 高效率生产:对响应速度有较高要求,需要快速完成任务。

最后的号召:你来做裁判

这场AI巨头之间的竞争,给用户带来了前所未有的福利。

最好的消息是,现在你无需仅凭我们的分析来做决定。

你可以亲自体验这两款全球顶尖的AI模型。

而且是免费的。

我们鼓励所有对AI感兴趣的读者,亲自去尝试和“调戏”Grok 4与GPT-5。

将同一个问题抛给它们,看看谁的回答更让你惊喜。

在日常工作和生活中使用它们,感受谁的风格更对你的胃口。

最终,由你来决定,你更愿意站在“Grok队”还是“GPT-5队”的一边。

欢迎在评论区分享你的测试结果、有趣的发现和最终的选择。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
肖纯锦临刑在即,其妻哭求陈毅,一通电话救下昔日恩人

肖纯锦临刑在即,其妻哭求陈毅,一通电话救下昔日恩人

唠叨说历史
2026-03-28 15:04:59
张玉宁:在国足就是全力以赴;作为队长要凝聚好球队

张玉宁:在国足就是全力以赴;作为队长要凝聚好球队

懂球帝
2026-06-02 18:00:13
女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

篮球快餐车
2026-06-02 02:17:47
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
七千多次突击几无所得,半年丢掉近三百平方千米!战场转折快到了

七千多次突击几无所得,半年丢掉近三百平方千米!战场转折快到了

鹰眼Defence
2026-06-02 15:41:02
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
尼克松问:您有什么特长?毛主席回答后,尼克松向他深深鞠了一躬

尼克松问:您有什么特长?毛主席回答后,尼克松向他深深鞠了一躬

浔阳咸鱼
2026-05-16 11:40:20
伊朗称过去24小时有28艘船通过霍尔木兹海峡

伊朗称过去24小时有28艘船通过霍尔木兹海峡

新华社
2026-05-31 17:00:03
运-15一亮相,俄罗斯才发现自己落后了这么多

运-15一亮相,俄罗斯才发现自己落后了这么多

阿芒娱乐说
2026-06-02 15:24:46
波兰要求泽连斯基道歉

波兰要求泽连斯基道歉

参考消息
2026-06-02 15:25:20
伊朗大量疏通被美以空袭炸毁的地下导弹设施入口,以保证其能持续发射导弹

伊朗大量疏通被美以空袭炸毁的地下导弹设施入口,以保证其能持续发射导弹

每日经济新闻
2026-06-02 12:14:44
美国军火商不装了:如果中国歼-35真装了涡扇19,将是F-35的噩梦

美国军火商不装了:如果中国歼-35真装了涡扇19,将是F-35的噩梦

乡土舒四
2026-06-02 08:57:30
美媒为小卡选三最佳下家!模拟方案:勇士出巴特勒3换1 活塞5换1

美媒为小卡选三最佳下家!模拟方案:勇士出巴特勒3换1 活塞5换1

颜小白的篮球梦
2026-06-02 17:58:47
淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

淮海战役惨败后,王凌云只身脱逃,隐姓埋名潜入深山娶了个村姑

磊子讲史
2026-05-29 16:17:30
被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

人间运行手册
2026-05-31 10:02:15
杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

杉杉内斗两败俱伤后,家被安徽国资用70亿“抄”了

毒sir财经
2026-06-01 23:15:56
善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

圆梦的小老头
2026-06-01 04:51:39
女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

映射生活的身影
2026-05-31 21:37:09
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

雪狼侃体育
2026-06-02 17:37:07
2026-06-02 18:31:00
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
527文章数 91关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

本地
游戏
房产
手机
公开课

本地新闻

用剪纸的方式,打开江苏扬州

追求极致真实!《巫师4》启用真实马匹参与动捕

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

手机要闻

曝华为鸿蒙系统《王者荣耀》实况窗复活倒计时功能预计月底支持

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版