网易首页 > 网易号 > 正文 申请入驻

应对Transformer高成本难题 国内首个非Attention机制大模型问世

0
分享至

本报记者 李立 上海报道

百模大战的竞争从“卷应用”到“卷参数”,如今终于卷到了基础架构。

日前,上海岩芯数智人工智能科技有限公司发布国内首个非Attention机制的通用自然语言大模型——Yan模型。

据岩芯数智方面介绍,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿级参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。

为什么Transformer已经占据人工智能领域半壁江山的背景下,岩芯数智还要另辟蹊径,自研基础架构,岩芯数智CEO刘凡平接受《中国经营报》等媒体记者采访时回应称:“Transformer架构的训练成本、交付成本都过高,成本难以覆盖客户的付费。需要降低边际成本,是岩芯数智最终走向独立自研的根本原因。”

同等规模成本降低50%

在业界看来,Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,它的崛起无疑是深度学习历史长河中重要的里程碑。凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。

不过刘凡平认为,Transformer并非大模型的“唯一解”。他指出,以大规模著称的Transformer,在实际应用中的高算力需求和高成本,让不少中小型企业望而却步;其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。

不过挑战Transformer,岩芯数智也并非第一人。

刘凡平注意到,在全球范围内,一直以来都有不少优秀的研究者试图从根本上摆脱对Transformer架构的过度依赖,寻求更优的办法替代Transformer。就连Transformer的论文作者之一Llion Jones也在探索“Transformer之后的可能”,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。

“从早期的基于Transformer架构,到改进Transformer架构,再到放弃Transformer架构,是一个漫长的过程。”刘凡平表示,岩芯数智也在对Transformer模型不断地调研和改进过程中,意识到了重新设计大模型的必要性。

一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。

“Transformer架构的主要问题在于成本难以覆盖客户的付费。这种情况下,如果我们一直做下去,做一单亏一单。”刘凡平透露,在很长一段时间,一边改进Transformer架构,一边尝试新的模型架构,最终发现还是Yan架构更有优势。

据岩芯数智方面透露,基于Yan架构,仅需投入同等规模Transformer架构成本的50%甚至更低,就可以拥有百万参数级的大模型。

CPU上可跑大模型

岩芯数智研究团队展示了Yan模型和同等参数规模Transformer模型的实测对比。通过一台笔记本电脑,本地内存使用维持在13G之内,实现模型运行。演示的内容涉及机器翻译、古诗续写、自由对话和医学问答四个方面。

以古诗续写为例,对Yan与Transformer的记忆能力进行对比。训练集上Yan的准确率达到Transformer的3倍,记忆能力更强。在自由对话方面,Yan1.0以“春天百花齐放”为命题,现场演示创作了一首诗;当被问到“流行性感冒如何缓解”“脂肪肝需要如何治疗”等问题时,Yan1.0都给出了较为综合、实用的建议。

“如果说基于Transformer架构的大模型是‘耗油且高昂’的燃油车,那么基于Yan架构的大模型,更像是相对经济、节能的新能源汽车。”岩芯数智方面介绍,Yan架构去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。

据岩芯数智方面介绍,在同等资源条件下,Yan架构的模型训练效率和推理吞吐量分别是Transformer架构的7倍及5倍,并使记忆能力得到3倍提升。Yan架构的设计,使得Yan模型在推理时的空间复杂度为常量,因此针对Transformer面临的长序列难题,Yan模型同样表现突出。

值得注意的是,岩芯数智研究团队还展示了Yan模型在个人电脑端的运行推理,表明了Yan模型不经裁剪和压缩,可在主流消费级CPU等端侧设备上无损运行,达到其他模型在GPU上的运行效果。下阶段有望在手机端等更加便携的设备或终端中进行无损部署。

对于国内首个非Attention机制大模型问世,中国信通院上海工创中心总工程师李韩军认为:“人工智能发展至今,大模型的架构升级始终在不断进化,在技术与应用的双重驱动下,生态边界也在扩展。每一次技术上的突破,都会带来智能生态的发展。从当前着眼通用性,到未来的个性化发展,期待行业生发更多新的生产力工具,引发新一轮技术革命。”

不过在业内人士看来,Yan模型在实际应用中的表现还需要经过市场检验。据刘凡平透露,此前已有客户是一些大型企业,Yan之后,会延伸到中小企业中去,在更低成本下使用AI服务。

(编辑:吴清 校对:颜京宁)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
日本部署远程导弹,目标锁定上海?不到24小时,中方发出终极警告

日本部署远程导弹,目标锁定上海?不到24小时,中方发出终极警告

荷兰豆爱健康
2026-03-12 15:34:55
极狐全新阿尔法S5开启预售,补贴后售价11.28万元起

极狐全新阿尔法S5开启预售,补贴后售价11.28万元起

北京商报
2026-03-02 12:26:35
美国首批8600万桶战略原油将投放市场 采用借油还油溢价模式

美国首批8600万桶战略原油将投放市场 采用借油还油溢价模式

财联社
2026-03-15 16:32:52
苹果官方上架大量低价二手产品,这价格真意外啊!

苹果官方上架大量低价二手产品,这价格真意外啊!

XCiOS俱乐部
2026-03-14 14:10:56
15599元华为折叠屏手机才用三天就黑屏!华为服务中心:维修再掏1999

15599元华为折叠屏手机才用三天就黑屏!华为服务中心:维修再掏1999

中国能源网
2026-03-14 10:06:25
月入8000,正成为骑手们回不去的从前

月入8000,正成为骑手们回不去的从前

数读网约车
2026-03-15 18:19:48
降级区无事发生?英超15~18名四支球队本轮默契地各取一分

降级区无事发生?英超15~18名四支球队本轮默契地各取一分

懂球帝
2026-03-16 02:55:10
今年的315,比较毒

今年的315,比较毒

燕梳楼频道
2026-03-15 15:38:57
油价又将暴涨

油价又将暴涨

东阳日报
2026-03-15 10:24:32
中建五局掀桌子,一口气举报了14家央企!

中建五局掀桌子,一口气举报了14家央企!

巢客HOME
2026-03-13 17:51:43
火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

空间展示知识
2026-03-15 20:42:34
我开了十八年出租车,发现深夜打车的女人,几乎都有一个共同点

我开了十八年出租车,发现深夜打车的女人,几乎都有一个共同点

千秋文化
2026-03-08 20:08:26
你知道古人如何养“死士”的?看完让人头皮发麻

你知道古人如何养“死士”的?看完让人头皮发麻

史政先锋
2026-03-13 17:17:54
台湾统一的风向:赖清德由独转统,或能成就统一功绩

台湾统一的风向:赖清德由独转统,或能成就统一功绩

混沌录
2026-03-15 16:17:03
大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

毒sir财经
2025-11-16 23:08:08
精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

精神小妹的生活原来是这样的!网友:终于知道她们为啥都这么瘦了

深度报
2026-02-11 23:35:03
安徽女赴芭提雅泳池派对工作 离奇昏迷遭神秘男拖走弃尸水沟

安徽女赴芭提雅泳池派对工作 离奇昏迷遭神秘男拖走弃尸水沟

环球趣闻分享
2026-03-15 13:25:10
打国王竟然直接哑火了!快船后场大闸的表现令人有些担心?

打国王竟然直接哑火了!快船后场大闸的表现令人有些担心?

稻谷与小麦
2026-03-16 01:25:16
震惊!网传50%已婚男人活成老婆的供养血包者,网友:至少90%吧

震惊!网传50%已婚男人活成老婆的供养血包者,网友:至少90%吧

火山詩话
2026-03-10 15:39:53
2026-03-16 05:03:00
中国经营报 incentive-icons
中国经营报
中国经营报微博由《中国经营报》社有限公司运营,与中国企业同步成长
22069文章数 30192关注度
往期回顾 全部

科技要闻

传裁员20%,新模型难产:Meta AI仍没理顺

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

头条要闻

专家:若美宣布停火 伊朗或顺势接受并宣布取得"胜利"

体育要闻

卢卡绝杀掘金:湖人有季后赛氛围了?

娱乐要闻

周小闹回应刘文祥塌房:我晚上吃啥啊

财经要闻

3·15晚会曝光7大乱象 这些企业被点名!

汽车要闻

倾听用户声音 东风奕派三款新车亮相

态度原创

房产
数码
本地
时尚
军事航空

房产要闻

销量扑街!建鑫·如意芳华,为何成了全荔湾卖得最差的新盘?

数码要闻

AWE2026海信空调诠释智慧空气新范式

本地新闻

坐标北京,过敏季反向迁徒

内娱小白花,公然模仿某巨星却被全网夸爆?

军事要闻

伊朗船只逼近美航母 美连开数炮全打空

无障碍浏览 进入关怀版