网易首页 > 网易号 > 正文 申请入驻

谷歌发开源模型,不Open的只剩OpenAI

0
分享至


出品|虎嗅科技组

作者|齐健

编辑|王一鹏

头图|DALL-E 3

全世界都在为Sora惊艳,而谷歌却仍在默默地发语言模型。

当地时间2月21日,谷歌推出了基于Gemini研究和技术开发的新型开源模型系列“Gemma”。与Gemini相比,Gemma展示了更高的效率和轻量化设计,同时依然免费提供全套模型权重,并明确允许商业使用。

本次发布的模型包括Gemma 2B和Gemma 7B,20亿和70亿两种规模版本。每个版本都提供了预训练模型和针对特定指令进行微调的模型。用户可以通过Kaggle、谷歌的Colab Notebook或Google Cloud平台轻松访问这些模型。


谷歌的技术报告中称Gemma已经在一系列关键基准测试上超越主流的开源模型,包括LLaMA-2的7B和13B版本,以及Mistral 7B模型。特别是在指令遵循、创意写作、编码任务和基本安全协议测试中,Gemma都展现了良好的性能。

此外,谷歌还发布了一系列工具和指南,旨在鼓励开发社区协作并负责任地使用这些模型,推动AI技术的健康发展。

谷歌发布开源Gemma之后,OpenAI成了唯一一个在这波AI热潮中没有发布过开源模型的AI公司。在Google Deepmind联创兼CEO Demis Hassabis的发布贴下,就有人@Sam Altman质疑OpenAI何时才能Open。


Gemma有何不同?

Gemma模型提供了预训练模型以及针对对话、指令遵循、有用性和安全性微调的checkpoint。其中,7亿参数的模型优化了GPU和TPU上的高效部署和开发,而2亿参数的模型则更适用于在CPU上运行,满足不同的计算限制、应用程序和开发人员需求。


Gemma对比LLaMA 2-7B、13B,以及Mistral-7B

Gemma模型的架构基于Transformer解码器,针对其核心参数进行了优化,训练时的上下文长度为8192个token。

此外,谷歌在原始Transformer理论的基础上进行了几项重点改进,优化了模型的处理效率、模型大小、性能和训练稳定性方面。

多查询注意力机制:相比传统的多头注意力,多查询注意力机制在2亿参数模型中的应用提高了处理效率和模型性能,特别是在参数规模较小的情况下,能够更有效地捕捉和处理信息。

旋转位置嵌入(RoPE):使用RoPE代替传统的绝对位置嵌入,以及在输入与输出之间共享嵌入的策略,有效减小了模型规模,同时保持或提高了模型的性能,尤其是在处理序列数据时的位置敏感性方面。

GeGLU激活函数:替代传统的ReLU激活函数,GeGLU提供了更强的非线性处理能力,这对于增强模型捕捉复杂模式和关系的能力是非常重要的,特别是在小模型中尽可能地提高性能。

归一化位置的创新应用:通过在每个Transformer子层的输入和输出处都应用归一化处理(使用RMSNorm),Gemma模型提高了训练的稳定性和效果,这种方法的创新在于它提供了一种更加有效的训练深层网络的手段,有助于提高模型的泛化能力和减少过拟合的风险。

Gemma另一个值得一提的特点在于对安全性的重视。

Gemma模型的全面安全评估中,包括对模型行为的深入分析和测试,以确保其在不同的应用场景中能够安全可靠地运行。同时,Gemma的开发过程中融入了负责任的AI实践,包括确保模型的公平性、透明性和可解释性。这有助于减少AI系统可能带来的偏见和不公平现象,提高用户对模型输出的信任度。

随Gemma模型一同发布的还有一套详细的安全使用指南,指导用户如何安全、有效地使用Gemma模型。这包括建议的使用案例、潜在风险的警告以及如何缓解这些风险的策略。

作为开源模型,Gemma项目也鼓励社区合作和反馈,通过开源的方式让研究人员和开发者能够贡献自己的见解和改进意见。这种开放的合作模式有助于及时发现并修复安全漏洞,提高模型的整体安全性。

事实上,在今天快速迭代的LLM开发环境中,一款轻量化开源模型的安全性能,是模型能够开放到更多应用场景的重要前提。

落到手机、电脑、汽车上的AI

谷歌在Gemma的说明页面中提出,要实现先进人工智能模型的“民主化访问”,并特意强调Gemma可以部署在资源有限的环境中,例如笔记本电脑、台式机或用户自己的云基础设施,

如今,轻量化的AI模型在业内的受关注度正在快速升温。

2023年6月,微软就放出了一款17亿参数的轻量化模型Phi,此后的Phi-2版本参数扩充到了27亿。国内则有两家公司推出了7B以下的轻量化LLM,包括面壁智能的MiniCPM-2B,以及阿里Qwen1.5中的0.5B、1.8B和4B三个版本。

面壁智能的MiniCPM-2B模型就直指手机端,且已经在多款常见的手机上测试了模型的真实落地效果。


MiniCPM在手机端的运行情况

虽然同为20亿参数,但相比于可以运行在4G内存手机中的MiniCPM-2B,Gemma-2B的模型存储容量明显有点大,一般的手机可能很难运行,目前Gemma的技术报告也没有提及在个人设备上的输出速度。


Gemma在hugging face的下载页面

运行速度快、成本低、高端设备依赖性不强,这些特点使轻量化模型明显更容易商业化落地,最典型的就是落地到手机、电脑、车机这些端侧设备的AI。

目前,主流、非主流的消费电子、汽车企业都在积极布局AI。

国内OPPO和魅族两家手机厂商刚刚更新了AI战略,其中魅族甚至要放弃传统手机,只做AI手机;联想、戴尔、惠普、华硕等都公布了自己的AI PC战略,英伟达最近推出了一款可以在本地运行的Chat with RTX,显卡要求7G显存,其中主要调用的就是Mistral的7B模型;车机方面,奔驰、宝马、大众等也都推出了融合AI大模型的车机系统,国内的比亚迪,也在近期推出了全新的整车智能化架构“璇玑”及其AI大模型“璇玑AI大模型”。

Gemma、MiniCPM、Qwen1.5等开源轻量化的推出,给这些设备生产公司提供了一个不必自研大模型,也能在设备上部署AI的路径。

事实上,在复杂的算法研究和高昂的训练成本面前,多数企业并不具备从零开始开发大模型的能力。

基于LLaMA等开源大模型的再训练或微调成为了一个更实际和成本效益更高的选择。通过Continue Pretrain、finetune等方法,开发者可以在现有模型的基础上进行改进和定制,以适应特定的应用需求。这种方法不仅减少了开发成本,也加速了模型创新的过程,使得即使是资源有限的团队也能参与到大模型开发的竞争中来。

国内大模型创业的主流形态正是基于LLaMA等开源模型的再训练或微调。尽管从零开始自研大模型在技术上具有一定的吸引力,但如专家所言,这需要极高的成本和专业知识,且过程复杂且容易出错。因此,利用和贡献于开源大模型社区,不仅是实现快速迭代和创新的有效途径,也是促进技术共享和行业进步的重要手段。

一直以来,AI大模型开发和模改的主流生态都被LLaMA占据,直到Mistral出现才略有改观。此番谷歌放出开源Gemma,给开发者提供了更多选择和灵活性,注定会对开源生态起到巨大的刺激作用,促进了开源大模型技术的发展和应用创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
双喜临门,孙悦正式上任,北京新岗位惊喜,分居娇妻回国或复合

双喜临门,孙悦正式上任,北京新岗位惊喜,分居娇妻回国或复合

东球弟
2024-04-19 11:11:26
4月19日俄乌:俄军Tu-22战略轰炸机坠毁,约翰逊坚称在做正确的事

4月19日俄乌:俄军Tu-22战略轰炸机坠毁,约翰逊坚称在做正确的事

山河路口
2024-04-19 16:30:50
嚯!塔利班成员:阿富汗有70万大军,派40万去巴勒斯坦打以色列

嚯!塔利班成员:阿富汗有70万大军,派40万去巴勒斯坦打以色列

娱宙观
2024-04-15 15:10:23
梁洛施带长子出门,14岁健壮少年长相酷似李泽楷,身高逼近妈妈

梁洛施带长子出门,14岁健壮少年长相酷似李泽楷,身高逼近妈妈

娱乐圈酸柠檬
2024-04-18 17:21:22
大改造!曝齐达内或执教拜仁:1.5亿挖巴萨2将,凯恩冠军没跑了

大改造!曝齐达内或执教拜仁:1.5亿挖巴萨2将,凯恩冠军没跑了

叁炮体育
2024-04-20 09:45:13
黄金还在涨,危机即将出现,国家终于出手了!为何说信息量很大?

黄金还在涨,危机即将出现,国家终于出手了!为何说信息量很大?

涛涛生活搞笑
2024-04-19 21:22:07
尤文庆幸放走混子队长:本赛季辗转2队,都成球队累赘,近乎退役

尤文庆幸放走混子队长:本赛季辗转2队,都成球队累赘,近乎退役

球场没跑道
2024-04-19 13:29:34
TVB亲情剧定档,踢走佘诗曼主演的内地剧《今天的她们》

TVB亲情剧定档,踢走佘诗曼主演的内地剧《今天的她们》

港叔
2024-04-20 11:23:20
温州化妆师闷声赚了10个亿

温州化妆师闷声赚了10个亿

市界
2024-04-20 12:09:11
泳池里的饱满身材,很危险哦

泳池里的饱满身材,很危险哦

娱乐圈酸柠檬
2024-03-29 03:22:14
61岁阿姨到上海这家医院看中医,一次花了近24万元!不给病历不知药名,让人心惊肉跳

61岁阿姨到上海这家医院看中医,一次花了近24万元!不给病历不知药名,让人心惊肉跳

新民晚报
2024-04-19 16:08:37
2换1,杜润旺或成交易筹码,赵睿回应驰援新疆,刘铮帮戴昊交罚款

2换1,杜润旺或成交易筹码,赵睿回应驰援新疆,刘铮帮戴昊交罚款

东球弟
2024-04-20 10:27:10
布莱斯告诉詹姆斯他是垃圾,勒布朗回应道:“我是山羊”

布莱斯告诉詹姆斯他是垃圾,勒布朗回应道:“我是山羊”

阿雄侃篮球
2024-04-19 23:49:54
请不要再误导了,李玟根本就不是“因抑郁症轻生去世”的!

请不要再误导了,李玟根本就不是“因抑郁症轻生去世”的!

娱乐圈酸柠檬
2024-04-20 07:10:23
北京二手房挂牌量上涨38%

北京二手房挂牌量上涨38%

小豆豆赛事
2024-04-20 03:08:38
欧弟这一次,就是十个汪涵也救不了他

欧弟这一次,就是十个汪涵也救不了他

阅毒君
2024-04-18 18:17:02
好家伙!《浪姐5》开播差评一片,观众的差评理由出奇的一致

好家伙!《浪姐5》开播差评一片,观众的差评理由出奇的一致

娱乐圈笔娱君
2024-04-19 16:31:29
按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

毒舌混知所
2024-03-30 07:50:03
萨姆索诺夫:说实话,纵观世界乒坛,配得上“球王”的只有3人

萨姆索诺夫:说实话,纵观世界乒坛,配得上“球王”的只有3人

刺头体育
2024-04-19 20:48:36
山东一女孩和奶奶长得“一模一样”,妈妈哭笑不得:越看越头大!

山东一女孩和奶奶长得“一模一样”,妈妈哭笑不得:越看越头大!

王二哥老搞笑
2024-04-19 09:02:44
2024-04-20 14:10:44
虎嗅APP
虎嗅APP
个性化商业资讯与观点交流平台
21492文章数 684277关注度
往期回顾 全部

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

美国罕见出动12架B-2隐身轰炸机 被指在威慑潜在对手

头条要闻

美国罕见出动12架B-2隐身轰炸机 被指在威慑潜在对手

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

78.9万的极氪009光辉 让加价MPV无话可说

态度原创

艺术
健康
房产
本地
公开课

艺术要闻

最全展览单元剧透!北京最受瞩目艺术现场100青年艺术季终极解读

这2种水果可降低高血压死亡风险

房产要闻

官方喊话,广州公寓或将走向终结?

本地新闻

春色满城关不住|千阳春日限定美景上线了!

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版