网易首页 > 网易号 > 正文 申请入驻

马斯克官宣Grok-2!性能秒杀GPT-4?是否开源成焦点

0
分享至

继旗下xAI公司宣布正式开源大模型Grok-1后,特斯拉CEO马斯克再次在大模型市场扔下一颗重磅炸弹。

当地时间8月11日晚,马斯克在X平台上透露人工智能模型Grok-2测试版将在不久后发布。事实上,马斯克在7月份就在X平台上确认,Grok-2将于8月发布,在回应用户关于训练数据的提问时,他表示该模型将在这方面做出“巨大改进”。

图源:X

今年三月,马斯克曾表示Grok-2将在“所有指标”上超越当前一代的AI 模型。

作为一个由xAI从头开始训练的混合专家(MoE)模型,Grok自2023年11月推出第一版以来,于今年3、4月陆续推出了Grok-1.5大语言模型和首个多模态模型Grok-1.5 Vision,整体迭代速度已足够惊人。

但要超越当前所有AI大模型,Grok-2要面对的问题或许远没想象中简单。

所有指标超越当前AI大模型,真的假的?

2023年11月,xAI推出其第一代大语言模型Grok时表示,Grok的设计灵感来源于《银河系漫游指南》,最初主要为X上的Grok聊天机器人提供支持,用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。

最初版本Grok-0仅拥有330亿参数,经过数次改良后的Grok-1拥有3140亿参数,是当时全球参数量最大的开源大语言模型。

即便这些参数在给定token上的激活权重仅为25%,Grok-1的激活参数数量也有860亿,这比LIama-2的70B参数还多,这意味着其在处理语言任务时具备广阔的潜在能力。

Grok-1采用了混合专家系统的设计,每个token从8个专家中选择2个进行处理。在该架构下,根据具体询问的内容,模型只会激活不同的专家子模块进行推理,在吞吐量一定的情况下,可以更快地完成推理、给出回答。这让Grok-1拥有了更快的生成速度和更低的推理成本,简而言之就是更好的使用体验和性价比。

根据xAI公布的数据,在GSM8K、HumanEval和MMLU等一系列基准测试中,Grok-1的表现超过了Llama-2-70B和GPT-3.5,不过与第一梯队的GPT-4差距还很明显。

图源:xAI

来到Grok-1.5,情况已大为改观。Grok-1.5不仅具有改进的推理能力和128k的上下文长度,其在编码和数学相关任务中的表现也得到显著提升。

在官方测试中,Grok-1.5在MATH基准上取得了50.6%的成绩,在GSM8K基准上取得了90%的成绩,这两个数学基准涵盖了广泛的小学到高中竞赛问题。此外,它在评估代码生成和解决问题能力的HumanEval基准测试中得分为74.1%。

图源:xAI

基准测试中的整体表现与GPT-4已十分接近,甚至在HumanEval测试上实现了超越。

紧接着xAI发布的多模态模型Grok-1.5V,号称能连接数字世界和物理世界。不仅多项基准测试可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等这些最顶尖的多模态模型对打,还能处理文档、图标、屏幕截图和照片之类的各种视觉信息,支持读懂梗图、写Python代码的操作。

尽管马斯克和xAI目前尚未公布关于Grok模型的详细信息,但按照该模型的迭代趋势,马斯克口中将在“所有指标”上超越当前一代AI模型的Grok-2,看来也不是空口无凭。

更大的参数量、更强的性能和速度这些几乎是板上钉钉的升级,当然最让我期待的,或许还是年底左右推出的Grok-3,毕竟马斯克表示该模型的水平将“达到或超越”尚未发布的OpenAI GPT-5,后者被认为是大语言模型领域的下一个重大突破。

图源:微博

如果Grok-3真能达到上述水平,那对马斯克旗下公司的影响将是巨大的,比如陷入用户增长停滞的X和专注于FSD的特斯拉,前者可以借助大模型为用户提供更智能的聊天机器人,打造社交平台的差异化;后者则可以使用大模型语言进行“思维链”处理,帮助汽车“端到端”分解视觉复杂场景,解决当前自动驾驶的某些局限。这点在Grok-1.5时,就传出应用在特斯拉FSD V13的消息。

但不论如何,Grok接下来很可能改变大模型的迭代和应用方式,更可以确定的是,以Grok为代表的开源大模型,与闭源大模型之间的竞争还在继续加剧。

开源VS闭源,大模型路线之争

马斯克是开源的坚定支持者,其曾多次公开表达对OpenAI闭源商业路线的不满,并向法院提起诉讼,以违反合同为由起诉OpenAI及其CEO Sam Altman,要求恢复开源。

xAI的诞生,很大程度上就是为阻止人工智能领域出现“一家独大”的局面。讽刺的是,OpenAI的"Open"程度真不如xAI。马斯克如期开源了3140亿参数的Grok-1,遵守Apache 2.0许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。

OpenAI是AI领先者,要求其开源ChatGPT背后模型代码不太现实——除非它自身愿意。但不可否认,无论是国内还是海外,大模型开源都已成为一大趋势。

海外,去年7月Llama2宣布免费可商用后,一举成为了全球开发者首选的开源大模型。不久后,谷歌也通过发布Gemma开始进入开源大模型的竞争,凭借70亿参数碾压 Llama2-13B(130亿参数);国内市场,阿里宣布开源720亿参数的大语言模型通义千问Qwen-72B,性能超越标杆Llama2-70B,号称最强中文开源模型。

大模型开源、闭源的路线之争向来是热点话题,不少行业大佬也发表了自己的观点。百度CEO李彦宏是“闭源派”,其认为在同样的参数规模下,开源模型的能力不如闭源,如果开源模型想要在能力上追平闭源模型,就需要更大的参数规模,这将导致更高的推理成本和更慢的反应速度。

图源:2024世界人工智能大会

“大模型五虎”之一百川智能的CEO王小川,则是开源派的拥趸,其认为开源与闭源并非对立关系,两者并存互补或许才是更优解。他预计,未来80%的企业会用到开源大模型,因为闭源没办法对产品做更好的适配,或者成本特别高。

李彦宏和王小川的观点没有对错之分,只是不同的选择,大模型开源与闭源的路线本质上是由商业模式决定的。

闭源大模型在保护知识产权、确保数据安全合规等方面具有优势,但在灵活性和可定制方面可能会受到限制;开源大模型是互联网成熟的商业模式,尽管最终目的也是变现,但因为有多方参与,更像是一个整体推动生态前进,比如快速迭代、快速试错、共创共担等等。

个人认为谷歌高级软件工程师Luke Sernau的表述十分准确:开源模式的迭代进步速度已经威胁到了部分闭源模型的生存,因为开源方相当于获得了整个星球的免费劳动力。

这正是开/闭源大模型之争的根源:不管开发者还是用户,都更倾向于最好的开源项目,群聚效应可能远比闭源大模型来得明显。

按照马斯克的理念,接下来发布的Grok-2大概率也会开源。面对日益加剧的开源大模型战争,不管是xAI、谷歌、Meta、阿里,还是Mistral AI、Databricks以及更多的开源大模型厂商,都还在继续进行迭代,提高性能、提高效率。毕竟谁也无法笃定在这场快速变化的技术革命中,能不能守住甚至扩大优势。

图源:特斯拉

马斯克给xAI带来的影响力只是短期的,真正决定xAI未来的还得看Grok的实际表现,它或许可与X、特斯拉业务结合打造AI大模型标杆杀手锏应用,也可能只是“纸面参数”甚至Sora这样的“技术期货”,一切问题,都要等到Grok-2发布那天,才会有更明确的答案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍思燕带狗泰国夺冠!肥肚三层、发际线好假,女儿出镜像女版杜江

霍思燕带狗泰国夺冠!肥肚三层、发际线好假,女儿出镜像女版杜江

每一次点击
2026-04-07 12:01:22
伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

伊朗发现重大惊喜,打向以色列的导弹,竟然一颗都没被拦截

史鹷的生活科普
2026-04-08 12:39:03
张本宇抵达日本,亮相日乒新岗位,薪资待遇曝光,国乒迎来大威胁

张本宇抵达日本,亮相日乒新岗位,薪资待遇曝光,国乒迎来大威胁

老玮是个手艺人
2026-04-08 10:14:43
山东旋转门家长彻底社死!正脸照被扒,官方发布通报 结局大快人心

山东旋转门家长彻底社死!正脸照被扒,官方发布通报 结局大快人心

朗威谈星座
2026-04-08 11:57:32
万斯最新演说拆解:比特币不再是“玩具”,而是美国的“战略底牌”

万斯最新演说拆解:比特币不再是“玩具”,而是美国的“战略底牌”

新浪财经
2026-04-08 01:43:11
韩国棋院公布第31届LG杯赛程,中国会不会参加

韩国棋院公布第31届LG杯赛程,中国会不会参加

月满大江流
2026-04-08 10:37:38
透露什么信号?苏林一人身兼两大关键职务,打破越南领导权力架构

透露什么信号?苏林一人身兼两大关键职务,打破越南领导权力架构

40度观察
2026-04-07 17:40:54
1972年,原广东省委书记被免职审查,毛主席得知后批示:心平气和

1972年,原广东省委书记被免职审查,毛主席得知后批示:心平气和

敏知谈
2026-04-07 13:00:56
阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

空天论道
2026-04-06 20:30:03
打破38年惯例,越南告别平衡术,苏林要放手一搏,中国收到信号

打破38年惯例,越南告别平衡术,苏林要放手一搏,中国收到信号

讯崽侃天下
2026-04-08 10:00:17
情侣吉祥物,孙颖莎官宣恋情?大头照顾莎莎,谁注意王楚钦的表态

情侣吉祥物,孙颖莎官宣恋情?大头照顾莎莎,谁注意王楚钦的表态

懂球社
2026-04-04 00:26:19
8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

8号楼被占,越南总理来访无法安排,总理怒:让她搬走,不知轻重

窥史
2026-04-04 10:00:48
港影:大片中的巨星番位

港影:大片中的巨星番位

唐泪
2026-04-08 12:09:09
难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,终于坦白不娶王菲原因

难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,终于坦白不娶王菲原因

人类的关注
2026-04-08 13:30:06
陈丽华去世!迟重瑞守灵三昼夜,无子仍分遗产?

陈丽华去世!迟重瑞守灵三昼夜,无子仍分遗产?

兰亭墨未干
2026-04-08 02:25:52
张兰68岁生日,汪小菲马筱梅双双沉默,一个出差一个晒娃

张兰68岁生日,汪小菲马筱梅双双沉默,一个出差一个晒娃

老吴教育课堂
2026-04-08 13:46:25
儿子儿媳让孙子随母姓,我们疯狂花钱,两年花30万,儿子儿媳崩溃

儿子儿媳让孙子随母姓,我们疯狂花钱,两年花30万,儿子儿媳崩溃

半夏解语
2026-04-07 11:52:17
国际油价,直线跳水!金价银价,火速拉升!

国际油价,直线跳水!金价银价,火速拉升!

环球网资讯
2026-04-08 08:57:14
拒逆转!伦纳德34+4,弗拉格25+9,NBA纪录诞生,此战诞生4个事实

拒逆转!伦纳德34+4,弗拉格25+9,NBA纪录诞生,此战诞生4个事实

篮球大视野
2026-04-08 13:59:49
立案调查!7000万股跌停封单,想逃都逃不掉,太折磨了

立案调查!7000万股跌停封单,想逃都逃不掉,太折磨了

慧眼看世界哈哈
2026-04-08 14:06:12
2026-04-08 15:03:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36757文章数 811997关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

美联社:伊朗同意停火前中国出面介入 万斯也参与斡旋

头条要闻

美联社:伊朗同意停火前中国出面介入 万斯也参与斡旋

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

房产
家居
数码
时尚
公开课

房产要闻

海南楼市最新热销榜单发布,三亚又卖爆了!

家居要闻

自在恣意 侘寂风别墅

数码要闻

荣耀WIN游戏本官宣定档4月23日:顶配释放超250W

阔腿裤失宠了?今年这几条裤子最时髦!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版