网易首页 > 网易号 > 正文 申请入驻

Google甩出31B参数模型,性能追平744B巨头却只要1/2

0
分享至


400亿次下载、10万个衍生版本——这是Gemma 3交出的成绩单。但Google DeepMind显然没打算躺在这个数字上睡觉。4月1日,Gemma 4正式发布,四款型号齐发,从桌面级31B密集模型到能塞进手机的E2B边缘版本,全部换上Apache 2.0商用许可证。开源社区等了整整一年的"许可+能力"双升级,这次一次性到账。

最扎眼的是那张Pareto曲线图:31B参数的Gemma 4-31B,在Chatbot Arena(聊天机器人竞技场)的公开榜单上与Kimi K2.5(744B-A40B)、Z.ai GLM-5(1T-A32B)并列第三。后两者分别是7440亿和1万亿参数,Gemma 4只用了它们1/24和1/32的体量。这不是"小模型能用了",这是"小模型把大模型的桌子掀了"。

DeepMind在发布帖里用了个挺微妙的词:"reasoning + agentic workflows"(推理与智能体工作流)。翻译成人话:这模型不是给你聊天解闷的,是设计用来调用工具、执行多步骤任务的。配合原生函数调用和结构化JSON输出,Gemma 4的定位从"开源替代品"变成了"生产环境的基础设施"。

从"能用"到"敢商用":许可证的隐形门槛

开源模型的许可证一直是门玄学。Gemma前几代的许可条款被开发者吐槽过不少次——商业使用有限制,修改后分发要额外审批。这次直接切到Apache 2.0,意味着你可以随便改、随便卖、不用交保护费。Jeff Dean在帖子里特意强调了这个变化,配图是Gemma 3的400M下载量和100K变体数据,潜台词很明显:许可松了,生态才能肥。

有个细节容易被忽略:Gemma 4的"多模态"不是事后打补丁,是原生设计。文本、图像、视频、音频——四种输入类型在模型架构里就有对应通道。E4B和E2B两个边缘型号甚至把语音识别和理解做成了内置功能,不是调用外部API凑出来的。这对端侧部署意味着什么?你的手机不需要联网也能看懂视频、听懂指令、输出结构化结果。

长上下文是另一个硬指标。31B和26B-A4B支持256K token,大概是《了不起的盖茨比》全文长度的两倍。处理长文档、代码库、多轮对话时,模型不会"失忆"。Artificial Analysis的测试报告显示,Gemma 4-31B(Reasoning版本)在GPQA Diamond科学推理基准上拿到85.7%,输出效率约120万token——同等质量下,算力账单比别人短一截。

26B-MoE的"障眼法":4B激活参数怎么打31B的仗

Gemma 4-26B-A4B是个挺有意思的存在。总参数260亿,但每次前向传播只激活40亿(A4B=4 Billion active)。MoE(混合专家模型,Mixture-of-Experts)架构的本质是"按需调用":输入来了,路由器决定激活哪几个专家网络,剩下的睡觉。这种设计在推理阶段极省显存,训练阶段却能蹭到更大参数量的知识容量。

Arena榜单上,这个"26B名义、4B实际"的型号排在公开模型第六位。有人算过账:如果用消费级显卡本地部署,31B密集版可能需要量化压缩才能跑得动,26B-A4B反而能原精度运行,实际效果未必输。DeepMind这次的产品矩阵明显是算过经济账的——要极限性能选31B,要部署友好选26B-A4B,要塞进手机选E4B/E2B。

边缘型号的规格公布得相对模糊,但"原生音频输入"这个描述值得细品。现在的语音交互大多是"语音识别→文本模型→语音合成"三段式,延迟和错误率层层叠加。Gemma 4的E系列直接把音频送进模型,端到端处理,理论上能把响应 latency 砍掉一半以上。苹果和Google的合作传闻由来已久,新Siri的底层模型会不会就是E4B的定制版?双方都没确认,但技术特征对得上号。

Benchmark狂欢背后的冷思考

发布当天,Twitter上的 benchmark 截图满天飞。Gemma 4-31B在Arena冲到过公开模型第一,后来被Kimi和GLM反超,稳定在第三;GPQA Diamond的85.7%超过GPT-4早期版本;AIME数学竞赛基准也有显著提升。但几个社区帖子提醒得在理:Arena排名受投票人群偏好影响,GPQA Diamond的题库范围有限,"20倍效率"的对比往往选的是最吃亏的大模型对手。

更实际的考验是生态落地。Hugging Face上Gemma 4的模型卡发布几小时内,UnslothAI就出了本地部署教程,vLLM、Ollama、llama.cpp 等推理框架陆续跟进。但"能跑起来"和"跑得好"是两件事——256K长上下文需要特定的注意力优化,多模态输入的预处理 pipeline 还没标准化,函数调用的工具定义格式各家略有不同。开源模型的优势是选择多,代价也是选择多,你得自己拼乐高。

DeepMind这次放出的技术细节比往常慷慨。训练数据配比、多模态融合策略、MoE路由机制都有论文级别的披露,虽然完整技术报告还没发布。对比之下,Allen Institute的GPT-OSS项目陷入人员动荡,美国开源模型的"国家队"叙事正在褪色。Gemma 4的发布时间选得微妙:竞争对手自顾不暇,Google顺势抢下"开源领军者"的心智锚点。

参数战争的新算法:不是变小,是变聪明

31B打744B的戏剧性对比,容易让人误解为"小模型时代来了"。更准确的说法是"效率时代来了"。Gemma 4的架构选择——密集版用深度换宽度,MoE版用稀疏激活换容量,边缘版用专用硬件协同设计——本质上都是在重新分配算力预算。同样的FLOPs,花在更好的数据筛选、更长的训练时间、更精细的对齐调优上,比无脑堆参数回报更高。

这个逻辑对行业的影响比单款模型更大。如果31B能在多数任务上替代700B+,云厂商的GPU集群规划要重写,创业者的API账单要重算,端侧AI的想象力要重估。DeepMind在发布材料里反复提"local/edge deployment"(本地/边缘部署),不是客气话——E2B的体积和功耗指标,瞄准的就是手机NPU和物联网芯片的算力天花板。

一个尚未回答的问题是:Gemma 4的"Reasoning"版本和标准版差距有多大?DeepMind只公布了Reasoning版的部分 benchmark,标准版的性能曲线还不完整。另一个悬念是视频理解的具体表现——"原生处理视频"听着美好,但帧率、分辨率、时长限制都没披露。这些空白等着社区用实测填补。

发布48小时后,Gemma 4-31B在Hugging Face的下载量突破15万次。有人在讨论帖里问:如果苹果真的把E4B塞进iOS 19的Siri,Google会不会反而被自己的开源模型"背刺"了Pixel手机的差异化优势?这个问题没有标准答案,但开源协议的Apache 2.0条款已经写死了:随便用,不追责。Google赌的是生态规模比单点控制更有价值——这个赌局的结果,可能比任何 benchmark 都更值得追踪。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被淘汰快10年突然翻红,销量暴涨20%!明星纷纷佩戴出镜,网友:我支持,便宜又好用

被淘汰快10年突然翻红,销量暴涨20%!明星纷纷佩戴出镜,网友:我支持,便宜又好用

都市快报橙柿互动
2026-04-01 22:21:20
中央终于放手!中央交出“定价权”,地方以后只能靠自己抢钱?

中央终于放手!中央交出“定价权”,地方以后只能靠自己抢钱?

混沌录
2026-03-31 17:03:12
中国军工严重“造假”?实测出现罕见一幕,美方才知大事不妙

中国军工严重“造假”?实测出现罕见一幕,美方才知大事不妙

甜柠聊史
2026-04-04 01:10:35
坏消息:卢森堡成了欧洲毒品转运中心,好消息:这些毒品不在卢森堡卖

坏消息:卢森堡成了欧洲毒品转运中心,好消息:这些毒品不在卢森堡卖

鲁晓芙看欧洲
2026-04-03 18:47:44
60 万桶石油在印度家门口竟转向中国,莫迪算盘落空却因支付僵局

60 万桶石油在印度家门口竟转向中国,莫迪算盘落空却因支付僵局

眼界看视野
2026-04-04 07:32:41
石破茂公开评价特朗普:他好面子,喜欢被奉承,要是说他错了,立刻就发飙

石破茂公开评价特朗普:他好面子,喜欢被奉承,要是说他错了,立刻就发飙

大象新闻
2026-04-03 20:49:04
血染中东,当帝国最后的精锐踏上征途

血染中东,当帝国最后的精锐踏上征途

鉴茶院
2026-04-03 08:51:12
71岁潘虹现状曝光:和母亲住上海1800万复式楼,同学聚会只出50元

71岁潘虹现状曝光:和母亲住上海1800万复式楼,同学聚会只出50元

边城少爷
2026-04-01 10:10:20
虎跳峡“发疯石”男子遗体打捞细节披露:遗体离水面仅40厘米,卡在狭小石缝里,救援人员已摸到手腕并拴上绳,但怕遗体肢解不得不放手

虎跳峡“发疯石”男子遗体打捞细节披露:遗体离水面仅40厘米,卡在狭小石缝里,救援人员已摸到手腕并拴上绳,但怕遗体肢解不得不放手

极目新闻
2026-04-02 22:24:22
优思益暴雷后董宇辉惹上麻烦,网友晒订单要求假一赔十

优思益暴雷后董宇辉惹上麻烦,网友晒订单要求假一赔十

映射生活的身影
2026-04-01 23:26:28
黄一鸣深夜操盘万达获利50万,王思聪坐不住了!

黄一鸣深夜操盘万达获利50万,王思聪坐不住了!

TVB的四小花
2026-04-04 00:39:58
清明前夕!卸下伪装,翁帆坦然发声,21 年陪伴究竟图什么?

清明前夕!卸下伪装,翁帆坦然发声,21 年陪伴究竟图什么?

糖逗在娱乐
2026-04-03 20:19:55
阿斯:本赛季皇马伤病情况严重,俱乐部将此责任归咎于阿隆索

阿斯:本赛季皇马伤病情况严重,俱乐部将此责任归咎于阿隆索

懂球帝
2026-04-04 07:40:38
伊朗伊斯兰革命卫队发布公告

伊朗伊斯兰革命卫队发布公告

扬子晚报
2026-04-01 07:45:25
多国对台称呼变了,赖清德破大防,特朗普或有大动作,国台办定调

多国对台称呼变了,赖清德破大防,特朗普或有大动作,国台办定调

桑启红原
2026-04-04 06:39:36
日本和广东同为1.2亿人口,日本创造4.2万亿GDP,广东是多少?

日本和广东同为1.2亿人口,日本创造4.2万亿GDP,广东是多少?

丁丁鲤史纪
2026-04-02 16:50:55
猎户座飞船完成地月转移注入点火 人类时隔53年再次重返月球轨道

猎户座飞船完成地月转移注入点火 人类时隔53年再次重返月球轨道

劲爆体坛
2026-04-03 08:34:20
特朗普放话退出北约后,40国开会不叫美方,澳总理竟对美阴阳怪气

特朗普放话退出北约后,40国开会不叫美方,澳总理竟对美阴阳怪气

动漫里的童话
2026-04-04 06:36:32
《乘风2026》首日直播震撼开启,16名选手全员晋级,代斯意外落榜!

《乘风2026》首日直播震撼开启,16名选手全员晋级,代斯意外落榜!

手工制作阿歼
2026-04-04 01:35:00
蓝思科技:公司已配合多家国内外头部客户研发、量产智能戒指的精密结构件与充电模组

蓝思科技:公司已配合多家国内外头部客户研发、量产智能戒指的精密结构件与充电模组

每日经济新闻
2026-04-03 21:31:07
2026-04-04 08:44:50
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
754文章数 6关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

牛弹琴:美国经历最糟糕24小时 伊朗发出最辛辣讽刺

头条要闻

牛弹琴:美国经历最糟糕24小时 伊朗发出最辛辣讽刺

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

刘纪鹏:只盼长慢牛,巩固4000点是关键

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

本地
亲子
游戏
旅游
公开课

本地新闻

跟着歌声游安徽,听古村回响

亲子要闻

总算能看见有意思事了……

最后“生还者”!《星鸣特攻》死亡两年仍有玩家

旅游要闻

樱桃沟·时光机 晒出你和樱桃沟的故事

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版