网易首页 > 网易科技 > 网易科技 > 正文

谷歌 PaLM 2训练所用文本数据量是初代的近5倍

0
分享至

5月17日消息,谷歌上周在2023年I/O开发者大会上推出最新大型语言模型PaLM 2。公司内部文件显示,自2022年起训练新模型所使用的文本数据量几乎是前一代的5倍。

据悉,谷歌最新发布的PaLM 2能够执行更高级的编程、运算和创意写作任务。内部文件透露,用于训练PaLM 2的token数量有3.6万亿个。

所谓的token就是字符串,人们会将训练模型所用文本中的句子、段落进行切分,其中的每个字符串通常被称为token。这是训练大型语言模型的重要组成部分,能教会模型预测序列中接下来会出现哪个单词。

谷歌于2022年发布的上一代大型语言模型PaLM在训练中使用了7800亿个token。

尽管谷歌一直热衷于展示其在人工智能技术领域的实力,说明如何将人工智能嵌入到搜索引擎、电子邮件、文字处理和电子表格中,但一直不愿公布训练数据的规模或其他细节。微软支持的OpenAI也对最新发布的GPT-4大型语言模型细节保密。

两家公司都表示,不披露这些信息的原因是人工智能行业存在激烈竞争。谷歌和OpenAI都想要吸引那些希望使用聊天机器人而不是传统搜索引擎搜索信息的用户。

但随着人工智能领域竞争的白热化,研究界要求提高透明度。

自推出PaLM 2以来,谷歌一直表示,新模型比之前的大型语言模型更小,这意味着该公司技术在完成更复杂任务时能变得更高效。参数(parameters)通常用于说明语言模型的复杂性。根据内部文件,PaLM 2接受了3400亿个参数的训练,初代的PaLM接受了5400亿个参数的训练。

谷歌没有立即发表评论。

谷歌在一篇关于PaLM 2的博客文章中表示,新模型使用了一种名为“计算最优缩放”(compute-optimal scaling)的“新技术”,能使得PaLM 2“更高效,整体性能更好,比如推理更快、服务参数更少,服务成本也更低。”

在发布PaLM 2时,谷歌透露新模型接受了100种语言的训练,并能胜任各种各样的任务。包括谷歌试验性聊天机器人Bard在内的25项功能和产品用的都是PaLM 2。PaLM 2按参数规模有四个不同的版本,从小到大依次是Gecko(壁虎)、Otter(水獭)、Bison(野牛)和Unicorn(独角兽)。

根据谷歌公开披露的信息,PaLM 2比任何现有模型都更强大。Facebook在今年2月份宣布推出名为LLaMA的大型语言模型,其在训练中用了1.4万亿个token。OpenAI发布GPT-3时披露了相关训练规模,当时公司表示,这一模型接受了3000亿个token的训练。今年3月份,OpenAI发布新模型GPT-4,并表示在许多专业测试中表现出“人类水平”。

根据最新文件,谷歌两年前推出的语言模型接受了1.5万亿个token的训练。

随着新的生成式人工智能应用迅速成为科技行业主流,围绕底层技术的争议也越来越激烈。

今年2月份,谷歌研究部门高级科学家埃尔·马赫迪·埃尔·马哈迪(El Mahdi El Mhamdi)因公司缺乏透明度而辞职。周二,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在美国参议院司法小组委员会关于隐私和技术的听证会上出庭作证,也同意用新系统来应对人工智能。

“对于一项非常新的技术,我们需要一个新的框架,”奥尔特曼说,“当然,像我们这种公司对自己推出的工具负有很大责任。”(辰辰)

延伸阅读
相关推荐
热点推荐
两性关系:50岁后女性最渴望的生理性需求

两性关系:50岁后女性最渴望的生理性需求

第7情感
2025-09-16 08:42:01
汪小菲果然是精明,S妈再次发声

汪小菲果然是精明,S妈再次发声

悦心知足
2025-09-17 03:47:58
布莱德・皮特以 Cliff Booth 身份重返大银幕 黄色工装装尽显范儿

布莱德・皮特以 Cliff Booth 身份重返大银幕 黄色工装装尽显范儿

述家娱记
2025-09-16 12:13:22
突然怂了?意义仍然非凡!罗永浩:决定放弃!但若失踪,或被跨省

突然怂了?意义仍然非凡!罗永浩:决定放弃!但若失踪,或被跨省

瑜说还休
2025-09-16 07:36:57
希特勒临死前下一道命令,德国至今仍忠实执行,连美国都称赞不已

希特勒临死前下一道命令,德国至今仍忠实执行,连美国都称赞不已

小豫讲故事
2025-09-11 06:00:09
联名《黑神话:悟空》 安克如意棒充电宝发布:220W三口快充

联名《黑神话:悟空》 安克如意棒充电宝发布:220W三口快充

快科技
2025-09-16 14:47:04
一觉醒来,iPhone用户有点忙,“改变最大的一次更新”

一觉醒来,iPhone用户有点忙,“改变最大的一次更新”

都市快报橙柿互动
2025-09-16 09:02:45
中国车市真黑

中国车市真黑

后视镜里de未来
2025-09-15 14:31:44
26万难民逃到中国“赖着”不走,还想入中国籍:做梦都想当中国人

26万难民逃到中国“赖着”不走,还想入中国籍:做梦都想当中国人

近史博览
2025-08-19 11:01:20
围攻黄岩岛惨败,菲律宾认怂,举白旗后10艘船的损失统计出来了!

围攻黄岩岛惨败,菲律宾认怂,举白旗后10艘船的损失统计出来了!

青青子衿
2025-09-17 02:45:14
苍井空近日公开了带双胞胎儿子参加学园祭的照片,引发热议

苍井空近日公开了带双胞胎儿子参加学园祭的照片,引发热议

随波荡漾的漂流瓶
2025-09-14 20:11:06
特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

墨兰史书
2025-09-15 07:05:10
去暨南大学报到才2天,全红婵被嘲"没教养没文化",背后真相太现实

去暨南大学报到才2天,全红婵被嘲"没教养没文化",背后真相太现实

巷子里的历史
2025-09-16 14:04:36
辽宁老板亲述:我所经历的朝鲜设备贸易潮与背后的惊心内幕

辽宁老板亲述:我所经历的朝鲜设备贸易潮与背后的惊心内幕

百姓识天下
2025-09-16 15:37:15
闹大了!西贝预制菜事件发酵,深圳城中村挂出“拒绝预制菜”标识

闹大了!西贝预制菜事件发酵,深圳城中村挂出“拒绝预制菜”标识

明月杂谈
2025-09-15 10:50:52
比预售便宜近2万元,享界S9T售价30.98万元起,余承东:这款车是我坚持要做的

比预售便宜近2万元,享界S9T售价30.98万元起,余承东:这款车是我坚持要做的

时代财经
2025-09-16 23:30:16
曼联对阿莫林下课立场曝光!球员对其信心渐失,死守343还乱用人

曼联对阿莫林下课立场曝光!球员对其信心渐失,死守343还乱用人

罗米的曼联博客
2025-09-16 07:34:25
辛柏青丧妻刚满100天,离谱的事就发生了,被撮合娶马伊琍引争议

辛柏青丧妻刚满100天,离谱的事就发生了,被撮合娶马伊琍引争议

凉羽亭
2025-08-28 11:40:48
纵览热点|违建豪宅“英之园”拆除后遗留大片建筑垃圾无人清理?当地:是小部分残留垃圾,地块后续用途还在商议

纵览热点|违建豪宅“英之园”拆除后遗留大片建筑垃圾无人清理?当地:是小部分残留垃圾,地块后续用途还在商议

纵览新闻
2025-09-16 21:22:03
难怪菲律宾人举白旗!中方终于认真上手段,菲律宾吃亏终于闭嘴了

难怪菲律宾人举白旗!中方终于认真上手段,菲律宾吃亏终于闭嘴了

青青子衿
2025-09-17 00:26:40
2025-09-17 06:19:00

科技要闻

2025款Apple Watch全系怎么选?

头条要闻

女子误触"化骨水"去世:9点误踩15点心脏衰竭 当天死亡

头条要闻

女子误触"化骨水"去世:9点误踩15点心脏衰竭 当天死亡

体育要闻

2022:勇士归来,库里的第四个冠军

娱乐要闻

李小璐母亲:女儿嫁给贾乃亮我好后悔

财经要闻

扩大服务消费 9部门提出5方面19条举措

汽车要闻

智能体豪华旅行车 享界S9T30.98万元起售

态度原创

健康
手机
时尚
本地
亲子

内分泌科专家破解身高八大谣言

手机要闻

华为鸿蒙 HarmonyOS 6.0.0.100 开发者 / 用户尝鲜版本开启推送

纽约时装周:美+好穿,不可错过的4大趋势

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

亲子要闻

爸爸上班妈妈出门拿快递,孩子一个人在家,结果太吓人了

无障碍浏览 进入关怀版
×