网易首页 > 网易号 > 正文 申请入驻

iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑

0
分享至

新智元报道

编辑:编辑部

【新智元导读】谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。

谷歌DeepMind的小模型,又上新了!

就在刚刚,谷歌DeepMind发布Gemma 2 2B。

它是从Gemma 2 27B中蒸馏而来。

虽然它的参数只有2.6B,但在LMSYS竞技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B!

在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。

小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。

谷歌在今天,一共公布了Gemma 2家族的三个新成员:

  • Gemma 2 2B:轻量级2B模型,在性能和效率之间实现了最大的平衡

  • ShieldGemma:基于Gemma 2构建的安全内容分类器模型,用于过滤AI模型的输入和输出,确保用户安全

  • Gemma Scope:一种可解释性工具,提供对模型内部运行机制的无与伦比的洞察

6月,27B和9B Gemma 2模型诞生。

自发布以来,27B模型迅速成为大模型排行榜上,排名前列的开源模型之一,甚至在实际对话中表现超过了参数数量大两倍的流行模型。

Gemma 2 2B:即刻在设备上使用

轻量级小模型Gemma 2 2B,是从大模型中蒸馏而来,性能毫不逊色。

在大模型竞技场LMSYS上,新模型取得令人印象深刻的1130分,与10倍参数的模型不相上下。

GPT-3.5-Turbo-0613得分为1117,Mixtral-8x7b得分为1114。

足见,Gemma 2 2B是最好的端侧模型。

有网友在iPhone 15 Pro上,让量化后的Gemma 2 2B在MLX Swift上运行,速度快到惊人。

具体来说,它能够在各种终端设备,包括手机、笔记本,甚至是使用Vertex AI和Google Kubernetes Engine(GKE)强大的云,皆能完成部署。

为了让模型加速,它通过NVIDIA TensorRT-LLM完成了优化,在NVIDIA NIM平台也可使用。

优化后的模型适用于各种平台部署,包括数据中心、云、本地工作站、PC 和边缘设备。

它还可以支持RTX、RTX GPU、Jetson模块,完成边缘化AI部署。

此外,Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等,并很快将与MediaPipe集成,实现简化开发。

当然,与Gemma 2一样,2B模型也同样可以用来研究和商用。

甚至,由于其参数量足够下,它可以在Google Colab的免费T4 GPU层上运行,降低了开发门槛。

目前,每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重,也可在Google AI Studio中试用其功能。

仓库地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma:最先进的安全分类器

正如其名,ShieldGemma是最先进的安全分类器,确保AI输出内容具有吸引力、安全、包容,检测和减少有害内容输出。

ShieldGemma的设计专门针对四个关键的有害领域:

- 仇恨言论

- 骚扰内容

- 露骨内容

- 危险内容

这些开源分类器,是对谷歌现有的负责任AI工具包中安全分类器套件补充。

该工具包包括一种,基于有限数据点构建针对特定策略分类器的方法,以及通过API提供的现成Google Cloud分类器。

ShieldGemma基于Gemma 2构建,是行业领先的安全分类器。

它提供了各种模型参数规模,包括2B、9B、27B,都经过英伟达速度优化,在各种硬件中可以高效运行。

其中,2B非常适合在线分类任务,而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。

Gemma Scope:通过开源稀疏自编码器揭示AI决策过程

此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。

语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和开发者。

语言模型的内部运作方式往往是一个谜,即使对于训练它们的研究人员,也是如此。

而Gemma Scope就仿佛一个强大的显微镜,通过稀疏自编码器 (SAEs) 放大模型中的特定点,从而使模型的内部工作更易于解释。

有了Gemma Scope以后,研究人员和开发者就获得了前所未有的透明度,能够深入了解Gemma 2模型的决策过程。

Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。

这些SAEs是专门设计的神经网络,可以帮助我们解读由Gemma 2处理的密集、复杂信息,将其扩展成更易于分析和理解的形式。

通过研究这些扩展视图,研究人员就可以获得宝贵的信息,了解Gemma 2如何识别模式、处理信息、做出预测。

有了Gemma Scope,AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。

同时,谷歌DeepMind还放出了一份20页的技术报告。

技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

总结来说, Gemma Scope有以下3个创新点——

  • 开源SAEs:超过400个免费提供的SAEs,覆盖Gemma 2 2B和9B的所有层

  • 互动演示:在Neuronpedia上无需编写代码,即可探索SAE功能,并分析模型行为

  • 易于使用的资源库:提供与SAEs和Gemma 2交互的代码和示例

解读语言模型内部的运作机制

语言模型的可解释性问题,为什么这么难?

这要从LLM的运行原理说起。

当你向LLM提出问题时,它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系,帮助模型在不同词语之间建立联系,据此生成答案。

在模型处理文本输入的过程中,模型神经网络中不同层的激活代表了多个逐步高级的概念,这些概念被称为「特征」。

例如,模型的早期层可能会学习到像乔丹打篮球这样的事实,而后期层可能会识别出更复杂的概念,例如文本的真实性。

用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在,而无关的概念则不存在

然而,可解释性研究人员却一直面临着一个关键问题:模型的激活,是许多不同特征的混合物。

在研究的早期,研究人员希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。

但不幸的是,在实践中,神经元对许多无关特征都很活跃。

这也就意味着,没有什么明显的方法,能判断出哪些特征是激活的一部分。

而这,恰恰就是稀疏自编码器的用武之地。

要知道,一个特定的激活只会是少数特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征(也就是说,模型是稀疏地使用特征)。

例如,语言模型在回答关于爱因斯坦的问题时会想到相对论,而在写关于煎蛋卷时会想到鸡蛋,但在写煎蛋卷时,可能就不会想到相对论了。

稀疏自编码器就是利用了这一事实,来发现一组潜在的特征,并将每个激活分解为少数几个特征。

研究人员希望,稀疏自编码器完成这项任务的最佳方式,就是找到语言模型实际使用的基本特征。

重要的是,在这个过程中,研究人员并不会告诉稀疏自编码器要寻找哪些特征。

因此,他们就能发现此前未曾预料过的丰富结构。

然而,因为他们无法立即知道这些被发现特征的确切含义,他们就会在稀疏自编码器认为特征「触发」的文本示例中,寻找有意义的模式。

以下是一个示例,其中根据特征触发的强度,用蓝色渐变高亮显示了特征触发的 Token:

用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token(单词或词片段),可变的蓝色说明了这个特征的存在强度。在这个例子中,该特征显然与成语有关

Gemma Scope有何独特之处?

比起此前的稀疏自编码器,Gemma Scope有许多独特之处。

前者主要集中在研究小型模型的内部工作原理或大型模型的单层。

但如果要把可解释性研究做得更深,就涉及到了解码大型模型中的分层复杂算法。

这一次,谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上,都训练了稀疏自编码器。

这样构建出来的Gemma Scope,总共生成了超过400个稀疏自编码器,获得了超过 3000万个特征(尽管许多特征可能重叠)。

这样,研究人员就能够研究特征在整个模型中的演变方式,以及它们如何相互作用,如何组合形成更复杂的特征。

此外,Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。

原始的稀疏自编码器架构,在检测特征存在与估计强度这两个目标之间,往往难以平衡。而JumpReLU架构,就能更容易地实现二者的平衡,并且显著减少误差。

当然,训练如此多的稀疏自编码器,也是一项重大的工程挑战,需要大量的计算资源。

在这个过程中,研究者使用了Gemma 2 9B训练计算量的约15%(不包括生成蒸馏标签所需的计算),将约20 PiB的激活保存到了磁盘(大约相当于一百万份英文维基百科的内容),总共生成了数千亿个稀疏自编码器参数。

参考资料:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又难开又难停,中年人疯抢的大车里,藏尽了委屈与无奈

又难开又难停,中年人疯抢的大车里,藏尽了委屈与无奈

每日人物
2026-04-12 15:56:21
陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

陈丽华顶奢收藏,从鸽血红到天价帝王绿手镯,都比不上她看家之宝

电影烂番茄
2026-04-12 22:56:39
秦枫为什么死磕到底?从王石事件来看看这位“爆料女王”的底气

秦枫为什么死磕到底?从王石事件来看看这位“爆料女王”的底气

童叔不飙车
2026-04-14 00:01:43
4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

4年2.75亿续浓眉!3年1.5亿签吹杨!奇才中了必死的局!

贵圈真乱
2026-04-14 13:21:55
马筱梅深夜破防了!坦言自己要是抗压不下去了就是缘分尽了!

马筱梅深夜破防了!坦言自己要是抗压不下去了就是缘分尽了!

陈意小可爱
2026-04-14 17:43:02
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

番外行
2026-04-14 12:56:10
为啥今年的高考冷冷清清?网友:有啥激动的,最后都是打螺丝的

为啥今年的高考冷冷清清?网友:有啥激动的,最后都是打螺丝的

复转这些年
2026-04-12 23:39:23
济南市历下区人大常委会原二级巡视员杜宝现被“双开”

济南市历下区人大常委会原二级巡视员杜宝现被“双开”

中国山东网
2026-04-14 16:18:11
一个靠“蒙”的公式,为何成了量子力学的起点?

一个靠“蒙”的公式,为何成了量子力学的起点?

物理系老郭
2026-04-13 18:00:08
收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

收手吧钟汉良,假发边明显、疲态尽显,谁要看50岁装嫩谈恋爱?

一娱三分地
2026-04-14 13:56:40
美军封锁线已生效

美军封锁线已生效

界面新闻
2026-04-13 22:38:05
活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

活久见!网传重庆全女健身房生意火爆,限女性顾客和男性教练进去

火山詩话
2026-04-13 09:18:54
他是青海省委原书记,47岁任陕西副省长,坦言:没给亲人开过后门

他是青海省委原书记,47岁任陕西副省长,坦言:没给亲人开过后门

瞻史
2026-04-09 04:55:57
14号收评:上证指数重回4000点!所有人都注意,准备迎接新变盘了

14号收评:上证指数重回4000点!所有人都注意,准备迎接新变盘了

春江财富
2026-04-14 15:31:25
尹锡悦双眼通红地望着金建希,金建希没看他

尹锡悦双眼通红地望着金建希,金建希没看他

天真无牙
2026-04-14 17:44:27
许世友被关押,看守送烧鸡和酒,多年后,看守当了南京军区副司令

许世友被关押,看守送烧鸡和酒,多年后,看守当了南京军区副司令

新一说史
2026-04-14 01:41:24
董军防长警告:海峡封锁不适用于中国油轮,纯属外媒的虚假报道

董军防长警告:海峡封锁不适用于中国油轮,纯属外媒的虚假报道

国平视野
2026-04-14 16:03:17
郑丽文坐的不是丰田考斯特,宇通T7:中国公务车彻底告别日系时代

郑丽文坐的不是丰田考斯特,宇通T7:中国公务车彻底告别日系时代

趣味萌宠的日常
2026-04-14 13:19:30
002229,垂直涨停!利好,大爆发!601138,巨资抢筹

002229,垂直涨停!利好,大爆发!601138,巨资抢筹

证券时报e公司
2026-04-14 12:22:52
湖人要跪求詹姆斯留队?NBA名记爆料:若淘汰火箭,詹姆斯必续约

湖人要跪求詹姆斯留队?NBA名记爆料:若淘汰火箭,詹姆斯必续约

夜白侃球
2026-04-14 10:51:11
2026-04-14 19:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14968文章数 66769关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

特朗普称若发现中国对伊提供军事支持将加税 中方回应

头条要闻

特朗普称若发现中国对伊提供军事支持将加税 中方回应

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

健康
时尚
房产
本地
家居

干细胞抗衰4大误区,90%的人都中招

秦岚:风里荡秋千

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

现代融合 自然灵动

无障碍浏览 进入关怀版