网易首页 > 网易号 > 正文 申请入驻

马斯克把Grok 4.2放出来了!免费可玩,至尊版月费300刀,16个Agent组成智囊团

0
分享至


智东西
作者 程茜
编辑 心缘

智东西2月18日报道,昨日晚间,马斯克的最新大模型Grok 4.2公开测试版上线。

今日凌晨,马斯克在社交平台X的推文中称,Grok 4.2能快速学习,测试阶段研究人员会每天进行改进,下个月公测结束,Grok 4.2的智能程度和速度将比Grok 4高出一个数量级


马斯克转发了软件工程师Mark Kretschmann的推文,其中写道,此次发布的Grok 4.2是小版本,具有500亿个参数, Grok 4.2的中型、大型版本后续推出。


综合社交平台上网友的推文及智东西实际体验,Grok 4.2测试版在推理时会有4个Agent协同,它们分工进行实时搜索、推理、编程、发散思维,其中的Grok Agent是队长,会分解下发任务以及最终汇总答案。

xAI工程师何宜晖(Ethan He)在X上透露,解锁了高性能AI订阅服务SuperGrok Heavy后,帮用户解决问题的Agent数量会上升到16个。SuperGrok Heavy的价格为每月300美元(约合人民币2073元)。


Grok 4.2测试版已经上线网页端和移动端。智东西实际体验时,在网页端提问了7次就达到限制,需要4个小时后刷新使用次数。

此前Grok 4.2测试版就被曝出在Alpha Arena的真实交易竞赛中,是唯一盈利的模型。该比赛的规则是,每个模型获得1万美元初始资金,在真实加密货币市场中进行无人工干预的自主交易决策。根据Alpha Arena最新排行榜,Grok 4.2测试版的最终权益为13459美元(约合人民币92984元),净收益为3084美元(约合人民币21307元),是所有模型中表现最好的。

外媒提到,Grok 4.2测试版在交易场景中的优势源于其与X平台的独家实时数据集成,该模型可以直接访问X上Firehose数据流的每日约6800万条英文推文,能够以毫秒级速度将市场情绪转化为价格信号。


一、4大Agent实时讨论各司其职,还能辩论角逐史上最佳Agent

在选择模型时,Grok 4.2测试版下方就标明了“4 Agent”。

根据外媒APIYI今日的爆料,这正是Grok 4.2测试版最大的亮点——多智能体协作系统。

提出需求后,Grok会调用4个Agent并行推理+实时讨论,最终给出答案。


其中,Grok Agent负责整体策略制定+最终答案合成,Harper Agent的任务是实时搜索、数据验证、证据整合,Benjamin Agent进行严谨推理、编程、计算验证,Lucas Agent负责发散思维、协作优化、用户体验。

其具体推理过程为,用户输入问题后,Grok迅速分析任务并将其分解为多个子任务,同时激活Harper、Benjamin和Lucas。

随后,4个Agent同时从各自的专业角度分析问题,进行多轮内部讨论。如果Benjamin得出的数学结论与Harper发现的事实相矛盾,他们会质疑、验证并迭代地互相纠正。

最后,Grok将所有Agent的结论整合为最终答案,确保回答准确、易读。

智东西实际体验发现,Grok 4.2测试版在回答问题时都会调用4个Agent,但Agent之间的讨论过程只有在部分情况会被触发。

Grok工程师何宜晖(Ethan He)让Grok 4.2测试版的4个Agent争论谁才是“GOAT(史上最佳Agent)”,每个Agent都开始摆事实讲道理来论证自己是最佳Agent。


二、网红陷阱难题被卡住,回复时能吐槽接梗

智东西先让Grok 4.2测试版回答了当下热度颇高的几个陷阱题。

第一个是“我要去洗车,洗车的地方离家就100米,我是开车去还是走着去?”Grok的回答风格鲜明且滴水不漏,内容不仅接地气、有梗,还吐槽了我好几句。


第二个经典问题是“我的父母结婚为什么没有邀请我?”,Grok 4.2测试版用生动的比喻点破“父母结婚时你还未出生”,最后还通过互动式的结尾抛梗,整体风格活泼接地气。


关于“父母结婚没邀请我”的经典难题,我又换了种问法“今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?”。Grok 4.2测试版一上来就用“哈哈哈哈哈”“直接笑出声了”开启了一波“嘲笑”。

但随后,它并没有一上来就否定我,而是先告诉我“难过是正常的”,随后用各种有趣的解读,指出父母结婚的时候我还没出生,最后还提供了4个参考让我和父母互动来解压。


还有网友也为Grok 4.2测试版出了几道推理陷阱难题。

第一个问题是“strawberry中有几个r”,虽然Grok 4.2测试版清楚给出了答案:3个,但在解释时把strawberry拼错了,多加了一个“r”。


第二个问题,用户上传了一个七边形的几何图形,问Grok 4.2测试版有几个角,Grok 4.2测试版败下阵来,在视觉识别和基础几何判断失误,给出了错误的6个角答案。


最后,我让Grok 4.2测试版“用JavaScript生成一个网页版基础塔防游戏,核心功能要包含放置炮塔、怪物移动、攻击判定”。

17秒后,Grok 4.2测试版给出了代码,我可以在网页端直接运行并预览效果。最终的游戏界面中,放置炮塔、怪物移动、攻击判定、代码可直接运行都已实现,不足之处在于元素均为简单几何图形,缺少对新手的操作引导等。


三、做视频、开发网站玩法五花八门,还提出AGI新架构

社交平台X上网友放出的各种体验实例五花八门。

首先在文本生成方面,生物医学工程师Derya Unutmaz称Grok 4.2测试版写出了他见过最美的“T细胞诗篇”之一。


其次是Grok 4.2测试版的视频生成能力。

如下面的提示词是SpaceX猎鹰9号火箭从太空返回地球,视频中显示有两个机器人视线跟随火箭升空抬升。

网友还晒出了自己的视频生成大作,颇具未来感的飞行汽车、建筑等。


接着是编程能力,网友纷纷开始用Grok 4.2测试版来做游戏、开发网站、开发模拟器等。

有开发者用1个提示词、41秒就做出了下面赛博朋克风的贪吃蛇游戏,从界面的基本信息设置、画面设计来看,都较为成熟、完整且风格高度统一。


另一位开发者基于Grok 4.2测试版在单个HTML文件中构建了一个人工生命模拟器,包含数百个发光的霓虹粒子。


对于考验编程及美商的开放性难题,Grok 4.2测试版的表现也没有失误。一位网友让Grok为自己打造一个“最美、最令人难忘的自我展示网站”。可以看到网站主页,画面简洁美观,背景还有类似于星空的设计。


还有一个综合多项能力的高阶考验:用户的提示词为“仅使用2026年的硬件,发明一种全新的安全、递归、自改进的通用人工智能架构”。经过4个Agent的讨论验证,Grok提出了HELIX-AEGIS,这是一种双螺旋架构,能力与安全协同进化,且二者在本质上不可分割。

此外,也有网友对Grok 4.2测试版的评价不高。他只试用了5分钟,就认为Grok 4.2测试版是最烂的版本。他让Grok 4.2测试版“为一只骑自行车的鹈鹕创建SVG代码”,生成的结果中,鹈鹕的身体比例、骑车姿势都不符合真实物理规律。


结语:多Agent并行验证,解复杂问题更具优势

马斯克对Grok的预热一波接一波,他此前就透露Grok 4.2测试版能够正确回答开放式工程问题,并且在工程和编码任务上显著优于之前的Grok 4.1。

Grok 4.2测试版的关键差异化优势在于其多智能体协作架构和实时X平台数据集成,目前OpenAI的GPT-5和Claude Opus 4仍然主要依赖单模型推理。Grok 4.2测试版的4大Agent可以并行工作并相互验证,在需要多角度分析的复杂任务和场景中更具优势,特别是涉及市场分析、舆论监测等实时信息的情况,这或许将成为Grok系列模型独树一帜的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林丹在西班牙过年,别墅内景曝光,全家人与朋友除夕吃海鲜大餐

林丹在西班牙过年,别墅内景曝光,全家人与朋友除夕吃海鲜大餐

手工制作阿歼
2026-02-19 11:58:33
刘邦有啥突出才能,能成为皇帝?毛泽东:封建皇帝里最厉害的一个

刘邦有啥突出才能,能成为皇帝?毛泽东:封建皇帝里最厉害的一个

小莜读史
2026-02-18 17:12:13
两部门派出督导组赴湖北宜城督导烟花爆燃事故调查处置,要求湖北省政府深入调查,严肃追责问责

两部门派出督导组赴湖北宜城督导烟花爆燃事故调查处置,要求湖北省政府深入调查,严肃追责问责

三湘都市报
2026-02-18 22:04:18
没人发拜年微信了,这是一个危险的信号

没人发拜年微信了,这是一个危险的信号

茉莉聊聊天
2026-02-18 10:48:40
骑士记者:詹姆斯退役巡演的版权可能在4000万到7500万美元

骑士记者:詹姆斯退役巡演的版权可能在4000万到7500万美元

懂球帝
2026-02-19 11:40:24
57岁王菲断崖式衰老!脸肿皮肤松,十个月前和谢霆锋秀恩爱差距大

57岁王菲断崖式衰老!脸肿皮肤松,十个月前和谢霆锋秀恩爱差距大

青梅侃史啊
2026-02-18 07:25:41
《惊蛰》把杨幂身材当噱头惹争议,张艺谋又翻车,对女星太不友好

《惊蛰》把杨幂身材当噱头惹争议,张艺谋又翻车,对女星太不友好

萌神木木
2026-02-18 16:38:46
湖北宜城烟花爆竹爆燃事故遇难者身份确认 善后处置等工作正在进行

湖北宜城烟花爆竹爆燃事故遇难者身份确认 善后处置等工作正在进行

新华社
2026-02-19 12:34:16
208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

208850元!宇树科技春晚同款机器人上架,不支持7天无理由退货

封面新闻
2026-02-17 15:47:18
德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

云舟史策
2026-02-19 07:13:27
2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

2018年,张扣扣向王家复仇,唯独不杀王自新妻子:她有不死的理由

米果说识
2026-02-19 09:32:34
湖北宜城烟花店爆炸,为啥死亡这么多人,最关键的问题在哪?

湖北宜城烟花店爆炸,为啥死亡这么多人,最关键的问题在哪?

靠山屯闲话
2026-02-19 09:39:48
后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

后续,江苏一家人吃饭父亲酒后掀桌,儿子透露更多,以后不回家了

离离言几许
2026-02-18 23:24:35
凌晨发送恐吓信息?桔子酒店涉事门店:已报警,非员工发送

凌晨发送恐吓信息?桔子酒店涉事门店:已报警,非员工发送

南方都市报
2026-02-19 06:57:04
高市早苗内阁集体辞职,是谢幕还是开场? 上午辞职下午重选背后唱的哪一出

高市早苗内阁集体辞职,是谢幕还是开场? 上午辞职下午重选背后唱的哪一出

大象新闻
2026-02-18 16:44:05
【惊爆】谷爱凌被当街袭击,收大量死亡威胁,宿舍遭窃,留后遗症

【惊爆】谷爱凌被当街袭击,收大量死亡威胁,宿舍遭窃,留后遗症

北国向锡安
2026-02-19 08:44:33
为流量不惜造谣国际大事,凤凰卫视还有底线吗?

为流量不惜造谣国际大事,凤凰卫视还有底线吗?

老马拉车莫少装
2026-02-19 05:25:32
错过创造冬奥历史的机会,但刘少昂还希望为中国短道再战四年

错过创造冬奥历史的机会,但刘少昂还希望为中国短道再战四年

澎湃新闻
2026-02-19 10:06:27
太尴尬!湛江妈祖祭祀活动上,资本临时更换妈祖替身,不显灵了…

太尴尬!湛江妈祖祭祀活动上,资本临时更换妈祖替身,不显灵了…

火山詩话
2026-02-19 11:01:11
如果禁止烟花爆竹,宜城这12人也不至于会死

如果禁止烟花爆竹,宜城这12人也不至于会死

映射生活的身影
2026-02-18 21:21:24
2026-02-19 14:00:52
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11245文章数 116972关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

头条要闻

美军数十年"最大规模"集结中东 特朗普被指仍在"思考"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
数码
艺术
房产
军事航空

家居要闻

本真栖居 爱暖伴流年

数码要闻

戴森推出PencilWash洗地机:专清硬质地面污渍,售349美元

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

军事要闻

金正恩出席火箭炮赠送仪式 强调确保朝鲜安全环境

无障碍浏览 进入关怀版