网易首页 > 网易号 > 正文 申请入驻

彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

0
分享至

自2017年Transformer架构诞生之后,到现在为止其仍然是人工智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的成效。一方面是由于Transformer确实好用;另一方面,在最底层上做突破并非易事。

然而,彩云科技是那个反共识者。2024年5月22日,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。

在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。据一位评委透露,今年录用论文的平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

ICML是国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技CEO袁行远说:"如果底层模型没有突破,人工智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网雷峰网雷峰网

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果GPT-4o能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步发展彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

过气明星有多可怜?韦小宝韩栋无戏可拍,还不起房贷,当众哭红眼

林轻吟
2026-05-27 08:04:39
费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

费利佩连续无缘出战后公开发声!首次点名感谢蓉城主帅,引发热议

振刚说足球
2026-05-28 08:59:04
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

75岁传奇歌手自曝:健康恶化后仍想发新歌,但巡演不敢想

赴一场山海啊
2026-05-27 01:44:40
法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

法网诞生大逆转!19岁小将0比2绝境翻盘,德约科维奇再创纪录

舟望停云
2026-05-28 11:15:51
湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

湖南两钓鱼佬被冲走,遗体被打捞,知情人曝细节,网友:自作自受

青橘罐头
2026-05-28 07:40:21
我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

我去医院探望植物人嫂子,护工偷偷塞来字条:去查上周的监控录像

纸鸢奇谭
2026-05-21 17:44:37
破防!文班赛后直接拒绝采访!

破防!文班赛后直接拒绝采访!

柚子说球
2026-05-27 19:50:11
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

埃梅里:英超是最难踢的联赛;欧冠决赛?阿森纳和巴黎五五开

懂球帝
2026-05-27 16:37:11
海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

海参崴兄弟俩被授予“乌克兰英雄”!战场坚守至最后一刻

项鹏飞
2026-05-26 18:28:15
董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

董卿被传离婚6年后,婚姻真相大白,如今隐居上海,低调陪父母

寻墨阁
2026-04-16 02:57:15
户籍制度改革,可能真的要来了

户籍制度改革,可能真的要来了

黑噪音
2026-05-27 22:26:33
3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

3分钟倾家荡产?年入千亿的“精神鸦片”正精准榨干中国人的钱包

大鱼简科
2026-05-13 14:26:55
穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

穷兵黩武、拖垮经济:看不到战争尽头,俄精英权贵开始对普京不满

一家说
2026-05-27 11:48:14
“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

“割四赔五”?湖北大娘讹收割机后续,警方介入,当地人再曝恶行

阅尽天下大事
2026-05-28 05:43:29
黄仁勋:“全场我买单,能不能先让我拿一根?”

黄仁勋:“全场我买单,能不能先让我拿一根?”

第一财经资讯
2026-05-28 11:15:22
郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

郑恺李晨终止合作冲上热搜,12年奔跑吧宣发画句号,网友吵翻了

TVB的四小花
2026-05-28 13:21:59
2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

2-3!马刺输天王山!裁判MVP,看看专家怎么说:保送雷霆,我的天

凡知
2026-05-28 12:46:55
2026-05-28 14:03:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69464文章数 656136关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

头条要闻

民进党发言人称受不了国台办 陈斌华回应时战术性喝水

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

艺术
本地
亲子
时尚
公开课

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

守护好孩子们的“数字童年”

丑到离谱的牛马鞋,新中产抢疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版