网易首页 > 网易科技 > 网易科技 > 正文

谷歌 PaLM 2训练所用文本数据量是初代的近5倍

0
分享至

5月17日消息,谷歌上周在2023年I/O开发者大会上推出最新大型语言模型PaLM 2。公司内部文件显示,自2022年起训练新模型所使用的文本数据量几乎是前一代的5倍。

据悉,谷歌最新发布的PaLM 2能够执行更高级的编程、运算和创意写作任务。内部文件透露,用于训练PaLM 2的token数量有3.6万亿个。

所谓的token就是字符串,人们会将训练模型所用文本中的句子、段落进行切分,其中的每个字符串通常被称为token。这是训练大型语言模型的重要组成部分,能教会模型预测序列中接下来会出现哪个单词。

谷歌于2022年发布的上一代大型语言模型PaLM在训练中使用了7800亿个token。

尽管谷歌一直热衷于展示其在人工智能技术领域的实力,说明如何将人工智能嵌入到搜索引擎、电子邮件、文字处理和电子表格中,但一直不愿公布训练数据的规模或其他细节。微软支持的OpenAI也对最新发布的GPT-4大型语言模型细节保密。

两家公司都表示,不披露这些信息的原因是人工智能行业存在激烈竞争。谷歌和OpenAI都想要吸引那些希望使用聊天机器人而不是传统搜索引擎搜索信息的用户。

但随着人工智能领域竞争的白热化,研究界要求提高透明度。

自推出PaLM 2以来,谷歌一直表示,新模型比之前的大型语言模型更小,这意味着该公司技术在完成更复杂任务时能变得更高效。参数(parameters)通常用于说明语言模型的复杂性。根据内部文件,PaLM 2接受了3400亿个参数的训练,初代的PaLM接受了5400亿个参数的训练。

谷歌没有立即发表评论。

谷歌在一篇关于PaLM 2的博客文章中表示,新模型使用了一种名为“计算最优缩放”(compute-optimal scaling)的“新技术”,能使得PaLM 2“更高效,整体性能更好,比如推理更快、服务参数更少,服务成本也更低。”

在发布PaLM 2时,谷歌透露新模型接受了100种语言的训练,并能胜任各种各样的任务。包括谷歌试验性聊天机器人Bard在内的25项功能和产品用的都是PaLM 2。PaLM 2按参数规模有四个不同的版本,从小到大依次是Gecko(壁虎)、Otter(水獭)、Bison(野牛)和Unicorn(独角兽)。

根据谷歌公开披露的信息,PaLM 2比任何现有模型都更强大。Facebook在今年2月份宣布推出名为LLaMA的大型语言模型,其在训练中用了1.4万亿个token。OpenAI发布GPT-3时披露了相关训练规模,当时公司表示,这一模型接受了3000亿个token的训练。今年3月份,OpenAI发布新模型GPT-4,并表示在许多专业测试中表现出“人类水平”。

根据最新文件,谷歌两年前推出的语言模型接受了1.5万亿个token的训练。

随着新的生成式人工智能应用迅速成为科技行业主流,围绕底层技术的争议也越来越激烈。

今年2月份,谷歌研究部门高级科学家埃尔·马赫迪·埃尔·马哈迪(El Mahdi El Mhamdi)因公司缺乏透明度而辞职。周二,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在美国参议院司法小组委员会关于隐私和技术的听证会上出庭作证,也同意用新系统来应对人工智能。

“对于一项非常新的技术,我们需要一个新的框架,”奥尔特曼说,“当然,像我们这种公司对自己推出的工具负有很大责任。”(辰辰)

延伸阅读
相关推荐
热点推荐
微胖姐姐一身旗袍装时尚有型,开叉露腿显舒展,散发十足女人味

微胖姐姐一身旗袍装时尚有型,开叉露腿显舒展,散发十足女人味

小乔古装汉服
2025-12-14 18:37:27
“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

“牡丹花下死,做鬼也风流”,这一次,74岁的张纪中彻底成了笑话

洲洲影视娱评
2025-12-08 19:52:00
越南方面传出惊人消息日本已退出了越南的宁顺2号重大核电站项目

越南方面传出惊人消息日本已退出了越南的宁顺2号重大核电站项目

忠于法纪
2025-12-14 17:18:07
手机壳爱马仕一年狂卖36亿,凭什么成为年轻人追捧的轻奢新宠?

手机壳爱马仕一年狂卖36亿,凭什么成为年轻人追捧的轻奢新宠?

大眼瞄世界
2025-12-01 10:38:20
翁帆面相开始变了,字字不提杨振宁,却句句戳进自己的心窝里

翁帆面相开始变了,字字不提杨振宁,却句句戳进自己的心窝里

林子说事
2025-12-13 14:56:04
模特小姐姐白色短款T恤搭配蓝色高腰瑜伽裤,让你美出新高度

模特小姐姐白色短款T恤搭配蓝色高腰瑜伽裤,让你美出新高度

小乔古装汉服
2025-12-14 18:50:51
扎哈罗娃回怼欧盟涉俄提议:离开地球吧,俄方可提供火箭

扎哈罗娃回怼欧盟涉俄提议:离开地球吧,俄方可提供火箭

环球网资讯
2025-12-13 21:46:49
他因病不满足军衔晋升,45岁开始离休,休养了整整45年,享年90岁

他因病不满足军衔晋升,45岁开始离休,休养了整整45年,享年90岁

抽象派大师
2025-12-14 18:19:12
佩通坦访问柬埔寨时,在洪森家中举行晚宴后留下的照片。

佩通坦访问柬埔寨时,在洪森家中举行晚宴后留下的照片。

南权先生
2025-12-13 16:50:24
Space X的护城河

Space X的护城河

华尔街见闻官方
2025-12-14 18:56:27
成堆外国人尸体散落战场,乌军7万女兵杀进战场:女子敢死队反击

成堆外国人尸体散落战场,乌军7万女兵杀进战场:女子敢死队反击

阿伧说事
2025-12-04 05:25:51
自绝后路不到24小时,范曾担心的事发生,遭殃的何止小50岁的娇妻

自绝后路不到24小时,范曾担心的事发生,遭殃的何止小50岁的娇妻

阿纂看事
2025-12-12 10:08:39
2025年收官在即,开始走十年大运的三个星座,机会正在向你靠近

2025年收官在即,开始走十年大运的三个星座,机会正在向你靠近

小晴星座说
2025-12-14 17:31:43
高二女生偷尝禁果:在校产子,孩子父亲的身份披露后震惊所有人

高二女生偷尝禁果:在校产子,孩子父亲的身份披露后震惊所有人

米米大肉
2023-12-17 12:30:31
40亿资产留给独子!范曾内心早已看透一切,一家三口温馨甜蜜

40亿资产留给独子!范曾内心早已看透一切,一家三口温馨甜蜜

林雁飞
2025-12-13 18:06:17
白岩松力挺“最快女护士”,呼吁医院把她调到工会,应鼓励她参赛

白岩松力挺“最快女护士”,呼吁医院把她调到工会,应鼓励她参赛

米修体育
2025-12-14 17:02:00
郑丽文掀桌子,向大陆紧急交底,国民党最大毒瘤曝光,内外夹击?

郑丽文掀桌子,向大陆紧急交底,国民党最大毒瘤曝光,内外夹击?

冷夜说
2025-12-14 11:29:04
25-21!这就是伦纳德的改变,快船是否交易他已有答案

25-21!这就是伦纳德的改变,快船是否交易他已有答案

奕辰说球
2025-12-13 23:11:55
窦骁香港参加帆船赛被偶遇!包成这样还挡不住星味,太抢眼了

窦骁香港参加帆船赛被偶遇!包成这样还挡不住星味,太抢眼了

今古深日报
2025-12-14 11:49:30
何晴追悼会细节曝光!不公开对外吊唁,工人曝暖心细节,并鼓励他

何晴追悼会细节曝光!不公开对外吊唁,工人曝暖心细节,并鼓励他

裕丰娱间说
2025-12-14 16:18:47
2025-12-14 20:00:49

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

何晴唯一儿子已从中戏毕业 不久前和父亲合体亮相杂志

头条要闻

何晴唯一儿子已从中戏毕业 不久前和父亲合体亮相杂志

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

亲子
本地
教育
游戏
艺术

亲子要闻

胳膊和腿抖一年了什么原因 怎么办

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

教育要闻

必看!华南理工考点(4414)应试须知!

《如龙》系列20周年纪念 已有玩家与桐生一马“结婚”

艺术要闻

曾经是中国领土的六个国家!

无障碍浏览 进入关怀版
×