网易首页 > 网易号 > 正文 申请入驻

Cerebras打破在单个设备上训练大规模AI模型的纪录

0
分享至

作为世上最大加速器芯片 CS-2 Wafer Scale Engine 背后的公司,Cerebras 刚又宣布了另一个里程碑 —— 在单个设备上完成了目前最大的自然语言处理(NLP)人工智能模型的训练。此前也有人尝试在智能手表这样的可穿戴设备设备上训练 AI 模型,但 Cerebras 这次又将参数提升到了 20 亿的量级。

Wafer Scale Engine-2 晶圆级芯片资料图(来自:Cerebras)

本次演示使用了 OpenAI 的 120 亿参数 DALL-E,且所有工作负载无需扩展到横跨多个加速器的平台上去完成,从而极大地降低了对基础设施和软件的复杂性要求。

不过需要指出的是,单个 CS-2 系统本身就已经可以媲美超算 —— 7nm 单晶圆(通常可容纳数百枚主流芯片),拥有惊人的 2.6 万亿个晶体管、85 万个内核、40GB 集成缓存,且封装功耗高达 15kW 。

Cerebras 尝试在单个芯片上保留多达 200 亿个参数的 NLP 模型,以显著降低数以千计的 GPU 训练成本、扩展所需的相关硬件需求,并且消除了在它们之间划分模型的技术难度。

Cerebras 指出,这也是常规 NLP 工作负载的痛点之一,有时动辄需要耗费数月时间才能完成。

由于高度定制,每个正在处理的神经网络、GPU 规格、以及将它们联系到一起的网络,都是独一无二的 —— 这些元素必须在初次训练前就搞定,且无法做到跨系统移植。

至于 OpenAI 的 GPT-3 自然预览处理模型,它有时已经能够编写出让你误以为是真人所撰写的整篇文章,且具有 1750 亿个惊人的参数。

不过 DeepMind 在 2021 年底推出的 Gopher,已将这个数字大幅提升到了 2800 亿,且 Google Brain 甚至宣布训练了一个超万亿参数的 Switch Transformer 模型。

Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示:更大的 NLP 模型,意味着它的准确度也更高。

但通常只有极少数公司拥有如此庞大的必要资源和专业知识,来分解这些大型模型、并将之分散到数百、或数千个 GPU 上去艰苦运算。

正因如此,我们只看到过极少数公司能够训练大型 NLP 模型 —— 这对行业内的其他人来说过于昂贵、耗时、且难以使用。

今天,Cerebras 很自豪地宣布普及了 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B,让整个 AI 生态系统都能够在几分钟内建立大型模型、并在单个 CS-2 平台上展开训练。

不过与 CPU 领域类似,主频只是衡量性能的其中一项指标。比如 Chinchilla 就尝试通过使用更少的参数(700 亿个),得出了较 GPT-3 和 Gopher 更好的结果。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网禁售“药水杨梅”,华东最大水果市场只对云南杨梅开绿灯

全网禁售“药水杨梅”,华东最大水果市场只对云南杨梅开绿灯

三人成虎V5
2026-05-19 21:22:16
14个死亡火化信息流出!一近百万人口区县,撕开生活两个扎心现实

14个死亡火化信息流出!一近百万人口区县,撕开生活两个扎心现实

火山詩话
2026-05-20 09:51:15
岳雨婷自曝正骨一次狂长3.5cm!168直接飙到171.5,体重才94斤

岳雨婷自曝正骨一次狂长3.5cm!168直接飙到171.5,体重才94斤

观鱼听雨
2026-05-18 23:21:16
燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

匹夫来搞笑
2026-04-20 13:24:51
“泡药”风波下,杨梅价格大跳水,有温州商户“一天亏了三十几万元”!还能放心吃吗?

“泡药”风波下,杨梅价格大跳水,有温州商户“一天亏了三十几万元”!还能放心吃吗?

每日经济新闻
2026-05-20 12:59:06
意外?59岁李铁过生日社媒未更新 没被封 网友:在里面吃碗长寿面

意外?59岁李铁过生日社媒未更新 没被封 网友:在里面吃碗长寿面

念洲
2026-05-20 15:42:37
上海交大樊思睿火了:为几千块毁掉前程,也许她缺的从来不是钱

上海交大樊思睿火了:为几千块毁掉前程,也许她缺的从来不是钱

十为先生
2026-05-19 16:02:50
28岁网坛名将痛失前男友:当场与警察争执"无法接受"

28岁网坛名将痛失前男友:当场与警察争执"无法接受"

热搜摘要官
2026-05-20 01:43:48
66-81!北京输掉G3,媒体人进行热议,矛头几乎对准一人

66-81!北京输掉G3,媒体人进行热议,矛头几乎对准一人

南海浪花
2026-05-20 22:56:57
在岸人民币兑美元较周二夜盘收盘涨150点

在岸人民币兑美元较周二夜盘收盘涨150点

财联社
2026-05-21 03:29:51
上海700亿打造第二黄浦江 沿岸旧改拆迁范围已明确

上海700亿打造第二黄浦江 沿岸旧改拆迁范围已明确

科学发掘
2026-05-20 21:17:37
北京输球三大混子:48分钟仅13分,正负值惨淡至-40

北京输球三大混子:48分钟仅13分,正负值惨淡至-40

大汉体育解说
2026-05-21 02:14:55
上海二工大“杀哥”事件发酵!老师当场道歉,室友发帖,校方回应

上海二工大“杀哥”事件发酵!老师当场道歉,室友发帖,校方回应

爱写的樱桃
2026-05-20 20:50:44
死伤惨重!美军突然不宣而战,连续发动猛烈空袭

死伤惨重!美军突然不宣而战,连续发动猛烈空袭

大国之翼
2026-05-20 06:35:00
“100%椰子水”再调查:又有5款送检产品均显示“外源水、糖添加”

“100%椰子水”再调查:又有5款送检产品均显示“外源水、糖添加”

闪电新闻
2026-05-20 17:30:54
法网20日凌晨战报 中国金花2胜2负 她爆冷4号种子 郑钦文传最新消息

法网20日凌晨战报 中国金花2胜2负 她爆冷4号种子 郑钦文传最新消息

林子说事
2026-05-20 21:46:24
王菲的“没事儿”,是多少成年人学不来的松弛

王菲的“没事儿”,是多少成年人学不来的松弛

青山闲客塞北翁
2026-05-20 15:04:37
我结扎了十五年,妻子突然怀孕,孩子出生那天我悄悄做了亲子鉴定

我结扎了十五年,妻子突然怀孕,孩子出生那天我悄悄做了亲子鉴定

千秋文化
2026-05-12 20:24:52
尼克斯赢下最窒息的一场翻盘,场场都是逆天局

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

静易墨
2026-05-20 21:27:33
对话|龙海杨梅协会会长:将这次杨梅危机转化为升级的机会,欢迎消费者和媒体监督

对话|龙海杨梅协会会长:将这次杨梅危机转化为升级的机会,欢迎消费者和媒体监督

澎湃新闻
2026-05-20 15:02:29
2026-05-21 04:52:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68110文章数 70196关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

被普京抱过的中国男孩火了 本人最新发声

头条要闻

被普京抱过的中国男孩火了 本人最新发声

体育要闻

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

教育
数码
时尚
房产
本地

教育要闻

最新:科利华初中、玄外附小有变化!

数码要闻

华为MatePad Pro Max国内官宣预售,以"极致"拓展旗舰平板体验边界

被这个颜色刷屏了!今年夏天想减龄好看就穿它吧

房产要闻

别被中介带了节奏,你的房子可能比你想的值钱

本地新闻

用云锦的方式,打开江苏南京

无障碍浏览 进入关怀版