网易首页 > 网易号 > 正文 申请入驻

全新模型基座架构TTT: 下一个Transformer?

0
分享至

今天大家都被一个TTT模型架构刷屏了,号称彻底改变现有语言模型,全新架构超越Transformer,那么这个架构到底行不行?

我们来一起分析看看?相信看完后你会给出自己答案


TTT是什么‍‍‍‍

来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta团队发了一个论文

这篇论文讨论了一种新型的序列建模层,称为测试时训练(Test-Time Training, TTT)层。这些层在测试序列上更新隐藏状态,相当于在测试时进行模型训练‍

论文提出了两种具体实现:TTT-Linear 和 TTT-MLP,分别使用线性模型和两层MLP作为隐藏状态。在125M到1.3B参数规模下,TTT层的性能与Transformer和现代RNN Mamba相比,匹配或超越了它们。尤其是TTT-Linear在处理长上下文时,比Transformer更快,并且在8k上下文时匹配了Mamba的速度

创新了什么‍‍‍‍‍‍

TTT层替代了Transformer的自注意力层,通过自监督学习和实际梯度下降来更新隐藏状态。这种方法提供了一种新的压缩和记忆机制,有望改善长上下文序列建模的效率

潜力:如果TTT层在更大规模的模型和更多应用场景中能够保持其性能优势,那么它确实可能对现有的语言模型方法带来根本性的改变

可扩展性‍‍‍‍‍‍‍‍

任务和领域:TTT层的基本思想——利用实际梯度下降更新隐藏状态——在其他任务(如图像处理、时间序列分析)中可能也有应用潜力。然而,具体的实现和优化可能需要根据不同任务进行调整

实现和优化:论文中提到的双重形式优化方法,显著提高了TTT层在GPU和TPU上的运行效率。这种优化可能在其他硬件平台和应用场景中也同样有效

‍‍‍‍

行业接受度‍‍‍‍

学术界:论文的作者来自斯坦福大学、UC Berkeley、UCSD和Meta等知名机构,他们的研究成果在学术界引起了广泛关注,该论文作者之一 Karan Dalal 表示,他相信这将根本性的改变语言模型方法,其他大佬好像没怎么发表意见

工业界:TTT层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对TTT层的接受度也将逐步提升,换句话说工业界八字还没一撇呢

对比“Attention Is All You Need“



背景与动机

Attention Is All You Need:

  • 背景:提出于2017年,该论文介绍了一种全新的序列到序列架构——Transformer。这种架构旨在解决传统RNN(如LSTM和GRU)在长序列建模中的计算效率和并行化能力不足的问题

  • 动机:通过引入自注意力机制,Transformer大幅提升了并行处理能力和长上下文捕捉能力,消除了RNN在处理长序列时的瓶颈

TTT层:

  • 背景:在Transformer取得巨大成功后的背景下,TTT层论文试图进一步提升长上下文序列建模的性能和效率,特别是在硬件资源有限的情况下

  • 动机:通过实际梯度下降来更新隐藏状态,TTT层旨在提供一种新的信息压缩和模型记忆机制,具有线性复杂度的潜力,试图在长上下文处理和硬件效率方面超越Transformer。


架构设计

Transformer:

  • 核心机制:自注意力机制,能够计算输入序列中每个元素之间的依赖关系,捕捉全局信息

  • 结构:多头自注意力层和前馈神经网络层的堆叠。通过并行计算,自注意力机制能够显著提升计算效率

  • 复杂度:自注意力机制的计算复杂度为O(n^2),其中n为序列长度

TTT层:

  • 核心机制:通过自监督学习和实际梯度下降来更新隐藏状态,将输入token的实际梯度作为隐藏状态的一部分进行更新

  • 结构:TTT层包括TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。TTT层可以直接替代自注意力层,集成到任何网络架构中并进行端到端优化

  • 复杂度:TTT层的复杂度为线性O(n),有望在长上下文处理中提高硬件效率

性能对比

Transformer:

  • 优势:在众多自然语言处理任务中表现出色,包括机器翻译、文本生成、文本分类等。广泛应用于大规模语言模型(如GPT、BERT)

  • 局限:在处理长序列时,计算复杂度较高,导致计算资源需求大,特别是在硬件资源有限的情况下

TTT层:

  • 优势:在125M到1.3B参数规模下,TTT-Linear和TTT-MLP在性能上匹敌或击败了Transformer和Mamba。TTT层在长上下文处理和硬件效率方面表现出色,具有线性复杂度的潜力

  • 局限:TTT层虽然在实验中表现出色,但其在更多应用场景和更大规模模型中的表现还有待进一步验证。

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

八字还没一撇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最新计划!贝克汉姆将迎来第一个长孙,但不是布鲁克林的亲生血脉

最新计划!贝克汉姆将迎来第一个长孙,但不是布鲁克林的亲生血脉

喜欢历史的阿繁
2026-02-08 11:33:28
放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

放进冰箱变毒药,这7种食物千万不能放在冰箱里!尤其是第六种!

路医生健康科普
2026-02-06 16:16:28
伊朗已被包围,外媒:中国反隐身雷达开机,美以一举一动在掌握中

伊朗已被包围,外媒:中国反隐身雷达开机,美以一举一动在掌握中

補懂事的孩紙
2026-02-08 00:32:56
黄俄,突然集体汉化,背后藏着一个被遗忘的真相

黄俄,突然集体汉化,背后藏着一个被遗忘的真相

正直小墨
2026-02-08 16:41:44
曝华为Mate 80 Pro Max正在加速生产 争取春节前发布

曝华为Mate 80 Pro Max正在加速生产 争取春节前发布

CNMO科技
2026-02-08 12:33:53
进度神速!004航母高清卫星图曝光,明年就能下水?

进度神速!004航母高清卫星图曝光,明年就能下水?

兵国大事
2026-02-08 00:05:09
慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

慌了手脚,赖清德抛出所谓“四个不变”,岛内舆论喊话:睁眼看清世界

环球网资讯
2026-02-07 06:44:11
瑞幸咖啡实控人黎辉:父亲是原兰州军区副司令,妻子是知名主持人

瑞幸咖啡实控人黎辉:父亲是原兰州军区副司令,妻子是知名主持人

小莜读史
2025-12-16 14:58:18
乌1吨弹头巡航导弹,打击俄军榛树导弹测试场,改写俄乌战场格局

乌1吨弹头巡航导弹,打击俄军榛树导弹测试场,改写俄乌战场格局

小蚁讲故事
2026-02-08 15:05:11
北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

北京国安二队?重庆铜梁龙太精了,连续官宣国安弃将,保级稳了!

罗掌柜体育
2026-02-08 06:00:15
3-0!哲凯赖什梅开二度,阿森纳9分领跑,静候利物浦死磕曼城

3-0!哲凯赖什梅开二度,阿森纳9分领跑,静候利物浦死磕曼城

我的护球最独特
2026-02-08 01:00:21
特朗普想搞“五国集团”:由美国、中国、俄罗斯、印度和日本组成,取代七国集团

特朗普想搞“五国集团”:由美国、中国、俄罗斯、印度和日本组成,取代七国集团

扬子晚报
2026-02-07 15:20:27
薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

薄一波打断原副总理姬鹏飞的电话,说:别执迷不悟,他罪该万死

抽象派大师
2026-01-26 19:07:26
许家印害惨3位女人:1个亏百亿、1个被全球追债,白珊珊最冤

许家印害惨3位女人:1个亏百亿、1个被全球追债,白珊珊最冤

社会日日鲜
2026-02-07 13:01:20
张柏芝大儿子疑恋爱,谢振轩和女生澳洲坐地铁,满脸宠溺望着对方

张柏芝大儿子疑恋爱,谢振轩和女生澳洲坐地铁,满脸宠溺望着对方

娱乐团长
2026-02-06 16:35:51
vivo X300 Ultra顶配版通过认证,支持北斗短信

vivo X300 Ultra顶配版通过认证,支持北斗短信

三易生活
2026-02-08 17:25:32
北京美女王博谷:嫁小7岁演员巴图,婚后生两子,风光背后有辛酸

北京美女王博谷:嫁小7岁演员巴图,婚后生两子,风光背后有辛酸

夏末moent
2026-02-02 17:42:14
第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

奇思妙想草叶君
2026-02-07 03:21:25
C929客机有多大?与C919放一起才明白,为何能称干线客机

C929客机有多大?与C919放一起才明白,为何能称干线客机

花寒弦絮
2026-01-01 19:07:45
戏子误国!离春节不到20天,4位明星相继塌房,一个比一个荒唐

戏子误国!离春节不到20天,4位明星相继塌房,一个比一个荒唐

往史过眼云烟
2026-02-06 16:40:38
2026-02-08 18:00:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1032文章数 396关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

外媒:由于"作战"需要 美军两架F-22退出"超级碗"表演

头条要闻

外媒:由于"作战"需要 美军两架F-22退出"超级碗"表演

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

艺术
手机
房产
本地
公开课

艺术要闻

这是崇祯皇帝的字,恢弘雄健、有帝王之气,网友:可惜生错了年代!

手机要闻

澎湃OS NEXT再次被确认:底层重构,让千元机起飞!

房产要闻

新春三亚置业,看过这个热盘再说!

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版