网易首页 > 网易号 > 正文 申请入驻

应对Transformer高成本难题 国内首个非Attention机制大模型问世

0
分享至

本报记者 李立 上海报道

百模大战的竞争从“卷应用”到“卷参数”,如今终于卷到了基础架构。

日前,上海岩芯数智人工智能科技有限公司发布国内首个非Attention机制的通用自然语言大模型——Yan模型。

据岩芯数智方面介绍,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿级参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。

为什么Transformer已经占据人工智能领域半壁江山的背景下,岩芯数智还要另辟蹊径,自研基础架构,岩芯数智CEO刘凡平接受《中国经营报》等媒体记者采访时回应称:“Transformer架构的训练成本、交付成本都过高,成本难以覆盖客户的付费。需要降低边际成本,是岩芯数智最终走向独立自研的根本原因。”

同等规模成本降低50%

在业界看来,Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,它的崛起无疑是深度学习历史长河中重要的里程碑。凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。

不过刘凡平认为,Transformer并非大模型的“唯一解”。他指出,以大规模著称的Transformer,在实际应用中的高算力需求和高成本,让不少中小型企业望而却步;其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。

不过挑战Transformer,岩芯数智也并非第一人。

刘凡平注意到,在全球范围内,一直以来都有不少优秀的研究者试图从根本上摆脱对Transformer架构的过度依赖,寻求更优的办法替代Transformer。就连Transformer的论文作者之一Llion Jones也在探索“Transformer之后的可能”,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。

“从早期的基于Transformer架构,到改进Transformer架构,再到放弃Transformer架构,是一个漫长的过程。”刘凡平表示,岩芯数智也在对Transformer模型不断地调研和改进过程中,意识到了重新设计大模型的必要性。

一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。

“Transformer架构的主要问题在于成本难以覆盖客户的付费。这种情况下,如果我们一直做下去,做一单亏一单。”刘凡平透露,在很长一段时间,一边改进Transformer架构,一边尝试新的模型架构,最终发现还是Yan架构更有优势。

据岩芯数智方面透露,基于Yan架构,仅需投入同等规模Transformer架构成本的50%甚至更低,就可以拥有百万参数级的大模型。

CPU上可跑大模型

岩芯数智研究团队展示了Yan模型和同等参数规模Transformer模型的实测对比。通过一台笔记本电脑,本地内存使用维持在13G之内,实现模型运行。演示的内容涉及机器翻译、古诗续写、自由对话和医学问答四个方面。

以古诗续写为例,对Yan与Transformer的记忆能力进行对比。训练集上Yan的准确率达到Transformer的3倍,记忆能力更强。在自由对话方面,Yan1.0以“春天百花齐放”为命题,现场演示创作了一首诗;当被问到“流行性感冒如何缓解”“脂肪肝需要如何治疗”等问题时,Yan1.0都给出了较为综合、实用的建议。

“如果说基于Transformer架构的大模型是‘耗油且高昂’的燃油车,那么基于Yan架构的大模型,更像是相对经济、节能的新能源汽车。”岩芯数智方面介绍,Yan架构去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。

据岩芯数智方面介绍,在同等资源条件下,Yan架构的模型训练效率和推理吞吐量分别是Transformer架构的7倍及5倍,并使记忆能力得到3倍提升。Yan架构的设计,使得Yan模型在推理时的空间复杂度为常量,因此针对Transformer面临的长序列难题,Yan模型同样表现突出。

值得注意的是,岩芯数智研究团队还展示了Yan模型在个人电脑端的运行推理,表明了Yan模型不经裁剪和压缩,可在主流消费级CPU等端侧设备上无损运行,达到其他模型在GPU上的运行效果。下阶段有望在手机端等更加便携的设备或终端中进行无损部署。

对于国内首个非Attention机制大模型问世,中国信通院上海工创中心总工程师李韩军认为:“人工智能发展至今,大模型的架构升级始终在不断进化,在技术与应用的双重驱动下,生态边界也在扩展。每一次技术上的突破,都会带来智能生态的发展。从当前着眼通用性,到未来的个性化发展,期待行业生发更多新的生产力工具,引发新一轮技术革命。”

不过在业内人士看来,Yan模型在实际应用中的表现还需要经过市场检验。据刘凡平透露,此前已有客户是一些大型企业,Yan之后,会延伸到中小企业中去,在更低成本下使用AI服务。

(编辑:吴清 校对:颜京宁)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中介费12万、彩礼26万,河南男子通过网络婚介与女子相亲后闪婚,婚后第29天新娘失踪,央视披露案情→

中介费12万、彩礼26万,河南男子通过网络婚介与女子相亲后闪婚,婚后第29天新娘失踪,央视披露案情→

大风新闻
2026-06-20 12:22:06
世界杯:荷兰VS瑞典

世界杯:荷兰VS瑞典

蕫老厮战术板
2026-06-20 11:03:35
有人认得这位老师吗?

有人认得这位老师吗?

时光慢旅人
2026-06-20 00:55:17
小舅子结婚,我连夜赶回家祝贺,推开房门看到的一幕,让决定离婚

小舅子结婚,我连夜赶回家祝贺,推开房门看到的一幕,让决定离婚

秀秀情感课堂
2026-06-18 19:40:10
丝瓜再次被点名!医生发现:吃得越多,高尿酸患者病情或好转?

丝瓜再次被点名!医生发现:吃得越多,高尿酸患者病情或好转?

王医生健康讲坛
2026-06-20 14:00:16
王治郅魔鬼训练,2米26张子宇减脂成功,女篮新核心将现

王治郅魔鬼训练,2米26张子宇减脂成功,女篮新核心将现

墨史轩
2026-06-17 17:47:35
恒生科技从高点回撤31%:全球科技股走牛,为何它偏偏掉队?

恒生科技从高点回撤31%:全球科技股走牛,为何它偏偏掉队?

归史
2026-06-20 15:45:49
傍晚4大消息齐发!商务部加征关税,A股下周格局生变

傍晚4大消息齐发!商务部加征关税,A股下周格局生变

慧眼看世界哈哈
2026-06-20 09:30:46
四大AI预测荷兰vs瑞典:各家预测出奇一致,荷兰2比1小胜对手

四大AI预测荷兰vs瑞典:各家预测出奇一致,荷兰2比1小胜对手

懂球帝
2026-06-20 17:18:12
为什么没人联合打以色列

为什么没人联合打以色列

今日养生之道
2026-06-20 05:25:38
女大学生晒图:马甲线打卡成功,开心藏不住

女大学生晒图:马甲线打卡成功,开心藏不住

时光慢旅人
2026-06-18 00:42:04
台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

台湾统一方式可能出人意料:77年前毛主席的奇谋,是最佳解决方案

史之铭
2026-06-17 19:50:32
每月美元到账!巴特尔躺赢的背后,是NBA六成球星躲不开的斩杀

每月美元到账!巴特尔躺赢的背后,是NBA六成球星躲不开的斩杀

法老不说教
2026-06-11 17:12:33
暗战已打响?中方砸10万亿救市,马斯克转移工厂,伯恩斯话应验?

暗战已打响?中方砸10万亿救市,马斯克转移工厂,伯恩斯话应验?

傲傲讲历史
2026-06-17 06:52:50
“电池比车贵”是骗局?第一批比亚迪开始换电池了,费用惊呆车主

“电池比车贵”是骗局?第一批比亚迪开始换电池了,费用惊呆车主

周哥一影视
2026-06-09 08:47:56
林徽因有多时尚?1934年在陕西的留影,皮衣搭配牛仔裤,气质不凡

林徽因有多时尚?1934年在陕西的留影,皮衣搭配牛仔裤,气质不凡

石辰搞笑日常
2026-06-20 13:17:28
为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

为何延迟退休最近突然“没声了”?不是暂停,背后4大难题制约

芳姐侃社会
2026-06-20 18:26:43
日媒:日本股市暴涨,但只有一部分日本人能享受红利

日媒:日本股市暴涨,但只有一部分日本人能享受红利

随波荡漾的漂流瓶
2026-06-20 12:29:33
开始严查公职人员评标了

开始严查公职人员评标了

职场资深秘书
2026-06-20 16:44:27
医生反复强调:人老了,宁可多喝几口酒,都不要随便喝这3样

医生反复强调:人老了,宁可多喝几口酒,都不要随便喝这3样

健康之光
2026-06-18 21:30:03
2026-06-20 21:39:00
中国经营报 incentive-icons
中国经营报
中国经营报微博由《中国经营报》社有限公司运营,与中国企业同步成长
25628文章数 30259关注度
往期回顾 全部

科技要闻

DeepSeek上线识图模式,看谁都像梁文锋

头条要闻

伊朗军方宣布关闭霍尔木兹海峡

头条要闻

伊朗军方宣布关闭霍尔木兹海峡

体育要闻

全队抱头痛哭!5亿欧土耳其出局 2场轰62脚0进球

娱乐要闻

张凯丽被骂到关评!

财经要闻

金饰克价年内大跌近450元 跌幅最高达26%

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

游戏
亲子
手机
本地
公开课

传奇IP性感女角全新细节图:紧身缩水美乳一览无遗

亲子要闻

一胎是腭裂,二胎是唇腭裂概率大吗?

手机要闻

8849推出Tank 5三防手机,配1080P 220流明投影仪

本地新闻

龙腾资江 韵动邵阳

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版