网易首页 > 网易号 > 正文 申请入驻

谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快

0
分享至


智东西(公众号:zhidxcom
编译香草
编辑李水青

谷歌DeepMind的开源小模型家族,又迎来新成员!

智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。

▲Gemma 2 2B

只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。

▲开发者测试Gemma 2 2B

与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。

Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。

ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。

Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。

一、击败35倍参数大模型,比大小没难倒Gemma 2

Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。

作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。

▲Gemma 2 2B在大模型竞技场的成绩

有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。


▲Gemma 2 2B答题

运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。

▲Gemma 2 2B运行速度

开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。

在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。

开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。

开源地址:

https://huggingface.co/google/gemma-2-2b

二、针对四类内容构建分类器,响应率优于GPT-4

为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。

▲ShieldGemma工作原理

ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。

在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。

▲ShieldGemma测评结果

ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。

▲ShieldGemma响应测试

技术报告地址:

https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf

三、大模型内部“显微镜”,零代码分析模型行为

为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。

Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。

▲使用SAE解释模型激活的程式化表示

通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。

此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。

▲Gemma Scope的SAE发现特征的示例激活

Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。

Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。

▲Gemma Scope交互式演示

演示地址:

https://www.neuronpedia.org/gemma-scope

技术报告地址:

https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

结语:生成式AI的风,刮向小模型和AI安全

生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。

AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
难以置信!连云港一工厂以遭遇群体性阻挠、无法经营为由停产整顿

难以置信!连云港一工厂以遭遇群体性阻挠、无法经营为由停产整顿

火山詩话
2026-05-09 16:19:21
我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

我穿便装到妻子家过年,被厅长大舅哥使唤,警卫员送来文件他愣了

千秋文化
2026-05-08 10:29:06
难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

难怪特朗普访华中方迟迟不表态,美媒:原来中方早看不上我们了

云舟史策
2026-05-10 07:19:49
1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

1-3!大连防线太渣了!海牛豪取四连胜,配拿3分,但裁判太逆天了

刀锋体育
2026-05-10 22:15:41
半年打一针!近4000万慢性鼻窦炎有新药了

半年打一针!近4000万慢性鼻窦炎有新药了

健康触点
2026-05-09 06:08:51
伊朗军方:若敌人再发动侵略 将启用新装备、新战法

伊朗军方:若敌人再发动侵略 将启用新装备、新战法

每日经济新闻
2026-05-10 15:55:06
森林北回应“与汪峰分手”

森林北回应“与汪峰分手”

深圳晚报
2026-05-10 22:57:36
中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

郭揦包工头
2026-04-29 16:09:40
讣告官宣!陈翔六点半“吴妈”病逝!死因公开,饱受“癌王”折磨

讣告官宣!陈翔六点半“吴妈”病逝!死因公开,饱受“癌王”折磨

舍长阿爷谈事
2026-05-10 22:30:31
一个手握千亿男装帝国的富二代,为什么突然疯了呢?

一个手握千亿男装帝国的富二代,为什么突然疯了呢?

流苏晚晴
2026-05-09 19:01:09
全亚洲穿比基尼最好看的女人,身材到底有多迷人?

全亚洲穿比基尼最好看的女人,身材到底有多迷人?

书画艺术收藏
2026-04-03 19:30:09
做梦?张本智和狂言:开创日本时代!国乒男团决赛王楚钦扛着一单,梁靖崑或打二单

做梦?张本智和狂言:开创日本时代!国乒男团决赛王楚钦扛着一单,梁靖崑或打二单

好乒乓
2026-05-10 21:11:23
5000人滞留新加坡码头1天…迪士尼邮轮曝重大故障!现场哭声一片

5000人滞留新加坡码头1天…迪士尼邮轮曝重大故障!现场哭声一片

新加坡万事通
2026-05-09 18:00:48
先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

王姐懒人家常菜
2026-05-10 21:13:41
15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

15公司5月10日中午发布重大利空,大减持公司5家 重组退市公司2家

股市皆大事
2026-05-10 11:30:17
一个网友说,大集体时期按月发粮,评论区炸锅了

一个网友说,大集体时期按月发粮,评论区炸锅了

读鬼笔记
2026-05-09 20:34:04
放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

姜来不加盐
2026-05-10 13:39:48
重大科学突破涉嫌造假,中山大学又一杰青副院长遭举报

重大科学突破涉嫌造假,中山大学又一杰青副院长遭举报

风干迷茫人
2026-05-10 19:03:51
瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

橘子约定
2026-05-10 22:08:46
男子打车点承担高速费不给,司机原路返回,可以双输,但不能单赢

男子打车点承担高速费不给,司机原路返回,可以双输,但不能单赢

一盅情怀
2026-05-10 15:46:38
2026-05-11 00:04:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
健康
家居
艺术
公开课

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

干细胞能让人“返老还童”吗

家居要闻

菁英人居 全能豪宅

艺术要闻

31亿,207米!中国第一大民企的深圳总部,封顶!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版