网易首页 > 网易号 > 正文 申请入驻

全新模型基座架构TTT: 下一个Transformer?

0
分享至

今天大家都被一个TTT模型架构刷屏了,号称彻底改变现有语言模型,全新架构超越Transformer,那么这个架构到底行不行?

我们来一起分析看看?相信看完后你会给出自己答案


TTT是什么‍‍‍‍

来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta团队发了一个论文

这篇论文讨论了一种新型的序列建模层,称为测试时训练(Test-Time Training, TTT)层。这些层在测试序列上更新隐藏状态,相当于在测试时进行模型训练‍

论文提出了两种具体实现:TTT-Linear 和 TTT-MLP,分别使用线性模型和两层MLP作为隐藏状态。在125M到1.3B参数规模下,TTT层的性能与Transformer和现代RNN Mamba相比,匹配或超越了它们。尤其是TTT-Linear在处理长上下文时,比Transformer更快,并且在8k上下文时匹配了Mamba的速度

创新了什么‍‍‍‍‍‍

TTT层替代了Transformer的自注意力层,通过自监督学习和实际梯度下降来更新隐藏状态。这种方法提供了一种新的压缩和记忆机制,有望改善长上下文序列建模的效率

潜力:如果TTT层在更大规模的模型和更多应用场景中能够保持其性能优势,那么它确实可能对现有的语言模型方法带来根本性的改变

可扩展性‍‍‍‍‍‍‍‍

任务和领域:TTT层的基本思想——利用实际梯度下降更新隐藏状态——在其他任务(如图像处理、时间序列分析)中可能也有应用潜力。然而,具体的实现和优化可能需要根据不同任务进行调整

实现和优化:论文中提到的双重形式优化方法,显著提高了TTT层在GPU和TPU上的运行效率。这种优化可能在其他硬件平台和应用场景中也同样有效

‍‍‍‍

行业接受度‍‍‍‍

学术界:论文的作者来自斯坦福大学、UC Berkeley、UCSD和Meta等知名机构,他们的研究成果在学术界引起了广泛关注,该论文作者之一 Karan Dalal 表示,他相信这将根本性的改变语言模型方法,其他大佬好像没怎么发表意见

工业界:TTT层在理论上和实验评估中表现出色,尤其是在长上下文处理和硬件效率方面。如果在实际应用中能够解决一些潜在的工程挑战,如大规模部署和集成问题,工业界对TTT层的接受度也将逐步提升,换句话说工业界八字还没一撇呢

对比“Attention Is All You Need“



背景与动机

Attention Is All You Need:

  • 背景:提出于2017年,该论文介绍了一种全新的序列到序列架构——Transformer。这种架构旨在解决传统RNN(如LSTM和GRU)在长序列建模中的计算效率和并行化能力不足的问题

  • 动机:通过引入自注意力机制,Transformer大幅提升了并行处理能力和长上下文捕捉能力,消除了RNN在处理长序列时的瓶颈

TTT层:

  • 背景:在Transformer取得巨大成功后的背景下,TTT层论文试图进一步提升长上下文序列建模的性能和效率,特别是在硬件资源有限的情况下

  • 动机:通过实际梯度下降来更新隐藏状态,TTT层旨在提供一种新的信息压缩和模型记忆机制,具有线性复杂度的潜力,试图在长上下文处理和硬件效率方面超越Transformer。


架构设计

Transformer:

  • 核心机制:自注意力机制,能够计算输入序列中每个元素之间的依赖关系,捕捉全局信息

  • 结构:多头自注意力层和前馈神经网络层的堆叠。通过并行计算,自注意力机制能够显著提升计算效率

  • 复杂度:自注意力机制的计算复杂度为O(n^2),其中n为序列长度

TTT层:

  • 核心机制:通过自监督学习和实际梯度下降来更新隐藏状态,将输入token的实际梯度作为隐藏状态的一部分进行更新

  • 结构:TTT层包括TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。TTT层可以直接替代自注意力层,集成到任何网络架构中并进行端到端优化

  • 复杂度:TTT层的复杂度为线性O(n),有望在长上下文处理中提高硬件效率

性能对比

Transformer:

  • 优势:在众多自然语言处理任务中表现出色,包括机器翻译、文本生成、文本分类等。广泛应用于大规模语言模型(如GPT、BERT)

  • 局限:在处理长序列时,计算复杂度较高,导致计算资源需求大,特别是在硬件资源有限的情况下

TTT层:

  • 优势:在125M到1.3B参数规模下,TTT-Linear和TTT-MLP在性能上匹敌或击败了Transformer和Mamba。TTT层在长上下文处理和硬件效率方面表现出色,具有线性复杂度的潜力

  • 局限:TTT层虽然在实验中表现出色,但其在更多应用场景和更大规模模型中的表现还有待进一步验证。

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

八字还没一撇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
再打下去可能灭国,四年前乌克兰还有4300多万人,如今还有多少?

再打下去可能灭国,四年前乌克兰还有4300多万人,如今还有多少?

古史青云啊
2026-02-18 09:27:23
真正决定孩子未来的,不是学区房,不是补习班,而是你家的家风

真正决定孩子未来的,不是学区房,不是补习班,而是你家的家风

青苹果sht
2026-02-13 06:20:39
完爆怀特塞德+碾压麦基!广东队瞄准2米08空间型内线,保底总决赛

完爆怀特塞德+碾压麦基!广东队瞄准2米08空间型内线,保底总决赛

绯雨儿
2026-02-18 17:02:56
除夕女儿看监控,发现母亲独自在客厅坐了一宿,画面曝光让人心酸

除夕女儿看监控,发现母亲独自在客厅坐了一宿,画面曝光让人心酸

瓜哥的动物日记
2026-02-18 03:45:24
美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

美国一富豪被冷冻50年,原定2017年苏醒,解冻时工作人员紧急叫停

蜉蝣说
2025-12-01 11:20:58
短道速滑男子500米1/4决赛:刘少昂/林孝埈分列第二第三组

短道速滑男子500米1/4决赛:刘少昂/林孝埈分列第二第三组

林子说事
2026-02-18 19:42:46
人闲车不闲!前奔驰首席设计师公布红猪300 SEL新构想

人闲车不闲!前奔驰首席设计师公布红猪300 SEL新构想

快科技
2026-02-17 22:21:16
北京警方刑拘30余人!

北京警方刑拘30余人!

美丽大北京
2026-02-18 17:16:34
邮报:阿莫林在柴郡的租房合同有中断条款,仅损失4.5万镑

邮报:阿莫林在柴郡的租房合同有中断条款,仅损失4.5万镑

懂球帝
2026-02-18 19:13:06
春晚飘过40载,今年春晚尤其难看

春晚飘过40载,今年春晚尤其难看

凤眼论
2026-02-16 22:50:18
我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

我就说像王菲怎么会喜欢上窦唯呢?看了这张照片我才明白

科学发掘
2026-02-16 10:58:02
奥莱报:欧足联将调查维尼修斯遭歧视事件,处罚或为至少10场禁赛

奥莱报:欧足联将调查维尼修斯遭歧视事件,处罚或为至少10场禁赛

懂球帝
2026-02-18 09:30:04
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
2026年嫖娼非犯罪但违法!拘留罚款标准明确,这几类人重罚

2026年嫖娼非犯罪但违法!拘留罚款标准明确,这几类人重罚

复转这些年
2026-02-11 22:23:18
戴安娜秘密录音曝光:和查尔斯一周三次夫妻生活,他却想当卡米拉卫生棉

戴安娜秘密录音曝光:和查尔斯一周三次夫妻生活,他却想当卡米拉卫生棉

小鱼爱鱼乐
2026-02-17 07:05:58
央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

古希腊掌管月桂的神
2026-02-16 23:36:38
建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

建行储蓄卡未离身却遭连续盗刷,近1.5万元流向三省,深圳警方向三地警方发协查函

大风新闻
2026-02-18 17:37:03
中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

中国队大捷添2金1铜金牌榜升5位 将挑战都灵成绩冲击队史第三佳绩

劲爆体坛
2026-02-18 22:26:20
勒布朗:不知道祖巴茨是否依然记恨湖人,失去戴维斯真的影响很大

勒布朗:不知道祖巴茨是否依然记恨湖人,失去戴维斯真的影响很大

稻谷与小麦
2026-02-18 23:22:31
2026-02-19 01:40:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

头条要闻

27岁女子上门做年夜饭月入4.5万:一桌10个菜1888元

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

家居
艺术
手机
健康
教育

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

手机要闻

三星预热S26系列全新相机功能,AI修复画面、切换昼夜场景

转头就晕的耳石症,能开车上班吗?

教育要闻

初二掉分不是偶然,是慢慢积累的结果

无障碍浏览 进入关怀版