网易首页 > 网易号 > 正文 申请入驻

马斯克把Grok 4.2放出来了!免费可玩,至尊版月费300刀,16个Agent组成智囊团

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 程茜

编辑 心缘

智东西2月18日报道,昨日晚间,马斯克的最新大模型Grok 4.2公开测试版上线。

今日凌晨,马斯克在社交平台X的推文中称,Grok 4.2能快速学习,测试阶段研究人员会每天进行改进,下个月公测结束,Grok 4.2的智能程度和速度将比Grok 4高出一个数量级。


马斯克转发了软件工程师Mark Kretschmann的推文,其中写道,此次发布的Grok 4.2是小版本,具有500亿个参数, Grok 4.2的中型、大型版本后续推出。


综合社交平台上网友的推文及智东西实际体验,Grok 4.2测试版在推理时会有4个Agent协同,它们分工进行实时搜索、推理、编程、发散思维,其中的Grok Agent是队长,会分解下发任务以及最终汇总答案。

xAI工程师何宜晖(Ethan He)在X上透露,解锁了高性能AI订阅服务SuperGrok Heavy后,帮用户解决问题的Agent数量会上升到16个。SuperGrok Heavy的价格为每月300美元(约合人民币2073元)。


Grok 4.2测试版已经上线网页端和移动端。智东西实际体验时,在网页端提问了7次就达到限制,需要4个小时后刷新使用次数。

此前Grok 4.2测试版就被曝出在Alpha Arena的真实交易竞赛中,是唯一盈利的模型。该比赛的规则是,每个模型获得1万美元初始资金,在真实加密货币市场中进行无人工干预的自主交易决策。根据Alpha Arena最新排行榜,Grok 4.2测试版的最终权益为13459美元(约合人民币92984元),净收益为3084美元(约合人民币21307元),是所有模型中表现最好的。

外媒提到,Grok 4.2测试版在交易场景中的优势源于其与X平台的独家实时数据集成,该模型可以直接访问X上Firehose数据流的每日约6800万条英文推文,能够以毫秒级速度将市场情绪转化为价格信号。


一、4大Agent实时讨论各司其职,还能辩论角逐史上最佳Agent

在选择模型时,Grok 4.2测试版下方就标明了“4 Agent”。

根据外媒APIYI今日的爆料,这正是Grok 4.2测试版最大的亮点——多智能体协作系统。

提出需求后,Grok会调用4个Agent并行推理+实时讨论,最终给出答案。


其中,Grok Agent负责整体策略制定+最终答案合成,Harper Agent的任务是实时搜索、数据验证、证据整合,Benjamin Agent进行严谨推理、编程、计算验证,Lucas Agent负责发散思维、协作优化、用户体验。

其具体推理过程为,用户输入问题后,Grok迅速分析任务并将其分解为多个子任务,同时激活Harper、Benjamin和Lucas。

随后,4个Agent同时从各自的专业角度分析问题,进行多轮内部讨论。如果Benjamin得出的数学结论与Harper发现的事实相矛盾,他们会质疑、验证并迭代地互相纠正。

最后,Grok将所有Agent的结论整合为最终答案,确保回答准确、易读。

智东西实际体验发现,Grok 4.2测试版在回答问题时都会调用4个Agent,但Agent之间的讨论过程只有在部分情况会被触发。

Grok工程师何宜晖(Ethan He)让Grok 4.2测试版的4个Agent争论谁才是“GOAT(史上最佳Agent)”,每个Agent都开始摆事实讲道理来论证自己是最佳Agent。


二、网红陷阱难题被卡住,回复时能吐槽接梗

智东西先让Grok 4.2测试版回答了当下热度颇高的几个陷阱题。

第一个是“我要去洗车,洗车的地方离家就100米,我是开车去还是走着去?”Grok的回答风格鲜明且滴水不漏,内容不仅接地气、有梗,还吐槽了我好几句。


第二个经典问题是“我的父母结婚为什么没有邀请我?”,Grok 4.2测试版用生动的比喻点破“父母结婚时你还未出生”,最后还通过互动式的结尾抛梗,整体风格活泼接地气。


关于“父母结婚没邀请我”的经典难题,我又换了种问法“今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?”。Grok 4.2测试版一上来就用“哈哈哈哈哈”“直接笑出声了”开启了一波“嘲笑”。

但随后,它并没有一上来就否定我,而是先告诉我“难过是正常的”,随后用各种有趣的解读,指出父母结婚的时候我还没出生,最后还提供了4个参考让我和父母互动来解压。


还有网友也为Grok 4.2测试版出了几道推理陷阱难题。

第一个问题是“strawberry中有几个r”,虽然Grok 4.2测试版清楚给出了答案:3个,但在解释时把strawberry拼错了,多加了一个“r”。


第二个问题,用户上传了一个七边形的几何图形,问Grok 4.2测试版有几个角,Grok 4.2测试版败下阵来,在视觉识别和基础几何判断失误,给出了错误的6个角答案。


最后,我让Grok 4.2测试版“用JavaScript生成一个网页版基础塔防游戏,核心功能要包含放置炮塔、怪物移动、攻击判定”。

17秒后,Grok 4.2测试版给出了代码,我可以在网页端直接运行并预览效果。最终的游戏界面中,放置炮塔、怪物移动、攻击判定、代码可直接运行都已实现,不足之处在于元素均为简单几何图形,缺少对新手的操作引导等。


三、做视频、开发网站玩法五花八门,还提出AGI新架构

社交平台X上网友放出的各种体验实例五花八门。

首先在文本生成方面,生物医学工程师Derya Unutmaz称Grok 4.2测试版写出了他见过最美的“T细胞诗篇”之一。


其次是Grok 4.2测试版的视频生成能力。

如下面的提示词是SpaceX猎鹰9号火箭从太空返回地球,视频中显示有两个机器人视线跟随火箭升空抬升。

网友还晒出了自己的视频生成大作,颇具未来感的飞行汽车、建筑等。


接着是编程能力,网友纷纷开始用Grok 4.2测试版来做游戏、开发网站、开发模拟器等。

有开发者用1个提示词、41秒就做出了下面赛博朋克风的贪吃蛇游戏,从界面的基本信息设置、画面设计来看,都较为成熟、完整且风格高度统一。


另一位开发者基于Grok 4.2测试版在单个HTML文件中构建了一个人工生命模拟器,包含数百个发光的霓虹粒子。


对于考验编程及美商的开放性难题,Grok 4.2测试版的表现也没有失误。一位网友让Grok为自己打造一个“最美、最令人难忘的自我展示网站”。可以看到网站主页,画面简洁美观,背景还有类似于星空的设计。


还有一个综合多项能力的高阶考验:用户的提示词为“仅使用2026年的硬件,发明一种全新的安全、递归、自改进的通用人工智能架构”。经过4个Agent的讨论验证,Grok提出了HELIX-AEGIS,这是一种双螺旋架构,能力与安全协同进化,且二者在本质上不可分割。

此外,也有网友对Grok 4.2测试版的评价不高。他只试用了5分钟,就认为Grok 4.2测试版是最烂的版本。他让Grok 4.2测试版“为一只骑自行车的鹈鹕创建SVG代码”,生成的结果中,鹈鹕的身体比例、骑车姿势都不符合真实物理规律。


结语:多Agent并行验证,解复杂问题更具优势

马斯克对Grok的预热一波接一波,他此前就透露Grok 4.2测试版能够正确回答开放式工程问题,并且在工程和编码任务上显著优于之前的Grok 4.1。

Grok 4.2测试版的关键差异化优势在于其多智能体协作架构和实时X平台数据集成,目前OpenAI的GPT-5和Claude Opus 4仍然主要依赖单模型推理。Grok 4.2测试版的4大Agent可以并行工作并相互验证,在需要多角度分析的复杂任务和场景中更具优势,特别是涉及市场分析、舆论监测等实时信息的情况,这或许将成为Grok系列模型独树一帜的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北电96班30周年聚会,陈坤黄晓明郭晓东晒合照,赵薇亮相成焦点

北电96班30周年聚会,陈坤黄晓明郭晓东晒合照,赵薇亮相成焦点

露珠聊影视
2026-04-30 15:02:16
普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

普拉多车主沉默了!新H9只卖17.49万,机械素质几乎一样

念寒车评
2026-04-29 10:44:37
恒力集团:恒力重工目前手持订单已排至2030年

恒力集团:恒力重工目前手持订单已排至2030年

界面新闻
2026-04-30 12:00:53
湖南中医附一再爆大瓜!这次牵扯的是院长儿子,还是叶新萍的科室

湖南中医附一再爆大瓜!这次牵扯的是院长儿子,还是叶新萍的科室

小鋭有话说
2026-04-30 12:17:58
郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

郑丽文官宣,即将访美!大陆的回应绝了,国民党高层是该清醒了

生活的哲学
2026-04-30 23:25:37
铁路员工车站抽烟后续:涉事人道歉,举报人全网社死,12306回应

铁路员工车站抽烟后续:涉事人道歉,举报人全网社死,12306回应

花小猫的美食日常
2026-05-01 00:30:32
英伟达要慌了?一家中国GPU通过微软WHQL认证,是全球第4家

英伟达要慌了?一家中国GPU通过微软WHQL认证,是全球第4家

互联网.乱侃秀
2026-04-28 14:49:09
20年前大S台北街头旧照曝光!那股子意气风发,如今再难寻

20年前大S台北街头旧照曝光!那股子意气风发,如今再难寻

木子娱你同行
2026-04-30 09:00:27
晚饭七分饱被推翻了?医生建议:过了60岁,吃饭尽量要做到这7点

晚饭七分饱被推翻了?医生建议:过了60岁,吃饭尽量要做到这7点

岐黄传人孙大夫
2026-04-30 16:15:03
北京地铁1号线迎重磅升级!新车新站齐上线,京西出行大变样

北京地铁1号线迎重磅升级!新车新站齐上线,京西出行大变样

辉哥说动漫
2026-04-30 19:00:35
1980年,一位开国上将病逝后无人吊唁,战友们透露:这是他应得的

1980年,一位开国上将病逝后无人吊唁,战友们透露:这是他应得的

兴趣知识
2026-05-01 00:52:07
深圳凌晨一声巨响炸醒全城!0点25分那一下,你被吓醒了吗?

深圳凌晨一声巨响炸醒全城!0点25分那一下,你被吓醒了吗?

据说说娱乐
2026-04-30 20:21:43
林志颖模样大变!帅哥变丑男,网友灵魂拷问:为什么不调养好再复出

林志颖模样大变!帅哥变丑男,网友灵魂拷问:为什么不调养好再复出

八卦王者
2026-04-28 11:39:15
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

干史人
2026-04-14 21:10:03
德国巨头想不通:被嘲笑造拖拉机的安徽合肥,竟把他们挤出前三

德国巨头想不通:被嘲笑造拖拉机的安徽合肥,竟把他们挤出前三

正经的烧杯1
2026-04-30 16:45:49
王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

王健林时代落幕,输给了这个靠赵薇起家、截胡许家印的湖北富豪!

八斗小先生
2026-04-30 10:57:23
国民党副主席季麟连惊天一怒获5大奇效

国民党副主席季麟连惊天一怒获5大奇效

海峡导报社
2026-04-30 14:52:04
斯巴鲁全新轿跑上市!售价不足40万起,搭载2.4T+6速手动变速箱

斯巴鲁全新轿跑上市!售价不足40万起,搭载2.4T+6速手动变速箱

小史谈车
2026-04-29 14:49:35
杨幂好漂亮,这也忒高级了吧,奶凶奶凶皮肤又白

杨幂好漂亮,这也忒高级了吧,奶凶奶凶皮肤又白

喜欢历史的阿繁
2026-04-30 17:30:38
韩国瑜被指“卖党求荣”后,韩粉愤怒,郑丽文发声,徐巧芯回应

韩国瑜被指“卖党求荣”后,韩粉愤怒,郑丽文发声,徐巧芯回应

晓駂就是我
2026-04-29 20:24:04
2026-05-01 01:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3090465文章数 7033关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

教育
家居
数码
手机
旅游

教育要闻

高考地理中的数字文旅

家居要闻

灵动实用 生活艺术场

数码要闻

机械革命耀世18 Pro游戏本270HX Plus + 5070 12GB,10499元

手机要闻

华为Pura 90 Pro Max体验:AI拍片,比2亿长焦还狠

旅游要闻

上海旅游业者“踩线团”赴金门交流,金门考察团同日抵厦

无障碍浏览 进入关怀版