网易首页 > 网易号 > 正文 申请入驻

彩云科技DCFormer模型架构发布,效率是Transformer的两倍!

0
分享至

自2017年Transformer架构诞生之后,到现在为止其仍然是人工智能领域研究和应用的基础,鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的成效。一方面是由于Transformer确实好用;另一方面,在最底层上做突破并非易事。

然而,彩云科技是那个反共识者。2024年5月22日,彩云科技发布了全新通用模型结构DCFormer,其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention》(https://arxiv.org/abs/2405.08553)将在第41届国际机器学习大会ICML 2024正式发表。

在论文中,彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下,DCFormer效率是Transformer的两倍。据一位评委透露,今年录用论文的平均分为4.25-6.33,而彩云科技团队的论文获得平均7分的高分。

ICML是国际机器学习领域的顶级会议,能够发表论文的中国初创企业屈指可数。彩云科技证实,其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果,即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性(详见论文表格)。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和(同时应用这两项改进的Transformer架构也叫Transformer++,如Llama)。而且随着模型规模的增大,DCFormer的提升越来越大(左图下的蓝线和绿线),而Transformer++的提升越来越小(左图下的黑线)。可以说,DCFormer让Transformer的能力又跃上一个新台阶。



彩云科技CEO袁行远说:"如果底层模型没有突破,人工智能的进步终将停滞不前。人人都说神经网络是个黑盒,我们需要勇气和耐心打开这个黑盒,通过分析模型运转原理,我们才能知道智能的本质规律,从而可以改进模型,提高模型的运行效率。"雷峰网雷峰网雷峰网

通用大模型DCFormer将Transformer效率提升了两倍,这意味着什么?袁行远解释说:"如果GPT-4o能够用上DCFormer,推理一次128k上文的成本,就可能从4元变成2元。而且DCFormer模型越大,效果越好,考虑到ChatGPT的巨大参数量,DCFormer可能在千亿、万亿模型上效果更好,因此价格甚至可能下降到1.5元、1元。Meta的100亿美元显卡训练的模型,可能50亿美元就能够用。"解开智能的科学的奥秘,实现通用人工智能——这是彩云科技10年以来孜孜不倦追求的目标。基于此,彩云科技在Github上开源了DCFormer的模型代码、权重和训练数据集(https://github.com/Caiyun-AI/DCFormer),将该模型开源给全世界。

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app,并将进一步发展彩云小梦,加速提升AI续写能力。袁行远说,"AI交互是前所未有的交互形式,也因此让我们有机会在AI的帮助下,建立每个人自己的'次元宇宙',而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦,帮助更多人实现现实生活中无法实现的梦想。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
承重柱“一踢就烂”、钢筋“锈迹斑斑”,业主:毫无安全感!恒大海花岛有小区被疑“海砂楼”,官方最新通报

承重柱“一踢就烂”、钢筋“锈迹斑斑”,业主:毫无安全感!恒大海花岛有小区被疑“海砂楼”,官方最新通报

每日经济新闻
2024-06-15 13:27:16
刘亦菲新剧播出后,她与陈金飞旧事再被扒,两人很多黑历史被挖出

刘亦菲新剧播出后,她与陈金飞旧事再被扒,两人很多黑历史被挖出

花哥扒娱乐
2024-06-15 23:23:16
神奇换人!两小将临危受命直取关键两分,主导者不是蔡斌,而是她

神奇换人!两小将临危受命直取关键两分,主导者不是蔡斌,而是她

理工男评篮球
2024-06-16 00:29:00
ASML要慌:EUV光刻机新光源出现,成本降50%,功耗降80%

ASML要慌:EUV光刻机新光源出现,成本降50%,功耗降80%

互联网.乱侃秀
2024-06-14 11:34:27
中国观众认定的烂片,北美观众当成宝,票房破12亿夺全球冠军

中国观众认定的烂片,北美观众当成宝,票房破12亿夺全球冠军

靠谱电影君
2024-06-15 23:05:02
东莞茶山教育管理中心主任文辉被查,已有同僚落马

东莞茶山教育管理中心主任文辉被查,已有同僚落马

南方都市报
2024-06-16 10:56:09
果然,没有人比中金更懂M1!-4.2%,意味着什么?

果然,没有人比中金更懂M1!-4.2%,意味着什么?

金石随笔
2024-06-16 00:35:36
上海女子请人上门灭白蚁崩溃:几百元就能解决,对方竟收了9000元!网友:按只收费?

上海女子请人上门灭白蚁崩溃:几百元就能解决,对方竟收了9000元!网友:按只收费?

上海圈
2024-06-15 12:38:41
6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

6月13日俄乌最新:俄罗斯海军最强战队杀入美国后院

西楼饮月
2024-06-13 15:12:33
把150万给儿子,女儿一家没了音讯,10年后我们在女儿旧房前痛哭

把150万给儿子,女儿一家没了音讯,10年后我们在女儿旧房前痛哭

半夏解语
2024-06-15 07:00:03
红色预警!大暴雨!浙江入梅后最强降水来袭

红色预警!大暴雨!浙江入梅后最强降水来袭

鲁中晨报
2024-06-16 10:19:06
猖狂!武汉奔驰车主持棍打人,真实身份被扒,本人晒15辆豪车回应

猖狂!武汉奔驰车主持棍打人,真实身份被扒,本人晒15辆豪车回应

文雅笔墨
2024-06-16 00:35:09
全球震呆!法国极右登台惊变,竟因不满穆斯林愚昧,誓要驱逐移民

全球震呆!法国极右登台惊变,竟因不满穆斯林愚昧,誓要驱逐移民

真实星球
2024-06-15 23:06:08
上海失踪女童遗体已找到 排除刑事案件

上海失踪女童遗体已找到 排除刑事案件

北青网-北京青年报
2024-06-15 17:05:07
终于理解为啥女性有妇科病不愿去医院!看完网友分享,感到既心塞

终于理解为啥女性有妇科病不愿去医院!看完网友分享,感到既心塞

奇特短尾矮袋鼠
2024-06-14 11:36:18
唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

唐氏综合症的孩子不应该出生吗?网友:一时心软,累及三代!

户外钓鱼哥阿勇
2024-06-16 07:01:39
王闰秋!你瞒不住了,你指导的中专女生姜萍拿下数学竞赛全球12名

王闰秋!你瞒不住了,你指导的中专女生姜萍拿下数学竞赛全球12名

牛锅巴小钒
2024-06-14 12:24:31
马科斯摊上大事,中国两军舰同时现身南海,菲防长的话说了也白说

马科斯摊上大事,中国两军舰同时现身南海,菲防长的话说了也白说

千里持剑
2024-06-15 11:30:46
上海一老汉,利用风水布局,让三十多名妇女主动爱上自己

上海一老汉,利用风水布局,让三十多名妇女主动爱上自己

神奇的锤子
2024-05-17 21:20:43
惊!河南3000万买五万吨水,高尔夫球场竟然耗水4000万吨?

惊!河南3000万买五万吨水,高尔夫球场竟然耗水4000万吨?

小毅讲历史
2024-06-15 05:31:15
2024-06-16 13:12:49
雷峰网
雷峰网
关注智能与未来!
64238文章数 655145关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

媒体:普京开出的停火条件有重大变化 已亮出战略底牌

头条要闻

媒体:普京开出的停火条件有重大变化 已亮出战略底牌

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

教育
亲子
家居
旅游
房产

教育要闻

高考结束不代表万事大吉,考生别着急丢准考证,这8个用途需了解

亲子要闻

“快哭,不然阿姨打你哦”新生儿缺氧无法哭出声音

家居要闻

空谷来音 朴素留白的侘寂之美

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

房产要闻

万华对面!海口今年首宗超百亩宅地,重磅挂出!

无障碍浏览 进入关怀版