网易首页 > 网易号 > 正文 申请入驻

AI 领域新动向!持续思考模型CTM横空出世:AI 向生物智能迈出重要一步

0
分享至

聊聊 AI 领域的一个新动向。虽然现在的大模型很强大,但在灵活性、效率,尤其是像人一样举一反三、理解世界方面,还是差了很多

来自东京的 Sakana AI (Transformer 作者之一Llion Jones联合创立)认为,关键可能在于我们简化 AI 模型时,丢掉了一个生物大脑的核心要素——时间

基于此Sakana AI 正式推出了他们研发的新型 AI 模型——持续思考机器(Continuous Thought Machine, CTM)。这个 CTM 的核心理念,就是重新将「时间」和「神经元动态」引入 AI 计算的核心

blog:

https://sakana.ai/ctm/
https://pub.sakana.ai/ctm/

paper:

https://arxiv.org/abs/2505.05522

code:

https://github.com/SakanaAI/continuous-thought-machines/

CTM 的创新之处

传统的神经网络(ANNs),比如我们熟悉的 CNN、Transformer,虽然也受大脑启发,但为了计算效率,往往将神经元的复杂动态过程简化为一个静态的激活值。神经元什么时候、以何种节奏、与其他神经元如何协同放电——这些丰富的时序信息,基本被忽略了

Sakana AI 的 CTM 试图改变这一点,它有几个关键的创新:

1.引入「内部思考维度」 (Internal 'Thinking' Dimension):CTM 可以在一个独立于外部数据输入节奏的内部时间维度上运行。想象一下,无论给它看一张静态图片,还是一个需要逐步解决的迷宫,CTM 都能在内部进行多步的“思考”和推理,迭代地构建和优化它的理解。这有点像我们人类在解决问题前,会先在脑子里“琢磨”一下

2.神经元级别的时序处理 (Neuron-Level Models, NLMs):CTM 里每个神经元不再是简单的激活函数(如 ReLU)。相反,每个神经元都有自己独立的、带参数的模型(比如一个小型 MLP),它会处理一小段历史的输入信号(pre-activations),来计算当前的输出(post-activation)。这意味着每个神经元都能根据近期的动态输入调整自己的行为,从而产生极其丰富和复杂的神经活动模式

3.神经同步作为核心表征 (Neural Synchronization as Representation):这是 CTM 最具颠覆性的一点。它不再仅仅依赖神经元的激活值向量作为信息载体。CTM 会追踪神经元在内部思考过程中的放电历史,计算不同神经元之间活动的同步程度(形成一个“同步矩阵”)。这个“同步信息”被直接用作模型的潜在表征 (latent representation),驱动模型进行注意力分配(看哪里)和最终的预测输出(是什么/怎么做)。换句话说,神经元之间如何协同“起舞”,这个动态模式本身,就是 CTM 用来理解世界和做出决策的核心依据

CTM 测试

由于新增了时间维度,CTM 的一大优势在于,可以观察并直观地看到它如何随着时间的推移解决问题。与传统的 AI 系统不同,传统的 AI 系统可能只需通过神经网络一次即可对图像进行分类,而 CTM 可以分多个步骤来“思考”如何解决任务

为了展示 CTM 的强大功能和可解释性,Sakana AI 在下面展示了两个任务:迷宫探索和照片中的物体分类

像人一样破解迷宫:在这个任务中,CTM 会被呈现一个二维自上而下的迷宫,并被要求输出解决迷宫所需的步骤。这种模式尤其具有挑战性,因为模型必须理解迷宫结构并规划解决方案,而不是简单地输出路径的视觉表示。CTM 内部连续的“思考步骤”使其能够制定计划,我们可以直观地看到它在每个思考步骤中关注迷宫的哪些部分。值得注意的是,CTM 学会了一种非常类似于人类的迷宫求解方法——我们可以在它的注意力模式中看到它沿着迷宫路径前进。

Sakana AI 还为此制作了交互式 Demo,你可以在浏览器里亲自“指挥”或观看 CTM 解迷宫!

CTM 通过观察(使用注意力机制)并直接生成步骤(例如,向左、向右等)来解决迷宫问题。它直接利用神经动力学的同步(即使用基于同步本身的线性探测)来实现这一点

实验结果显示,CTM 不仅仅能高效解决 39x39 的迷宫,远超 LSTM 等基线模型,甚至在面对从未见过的、路径更长、尺寸更大(如 99x99)的迷宫时,也能展现出惊人的泛化能力

更「懂」图像识别:在 ImageNet 和 CIFAR 图像分类任务上,CTM 虽然目前精度还没刷到 SOTA(研究团队也表示目标并非刷榜),但展现了独特的优势:

  • a.可解释性强:注意力机制的可视化显示,CTM 在识别图像时,其“注视点”会像人眼一样在不同显著区域(如动物的眼睛、鼻子、嘴巴)之间平滑移动,例如,在识别大猩猩时,CTM 的注意力会从眼睛转移到鼻子,再转移到嘴巴,这与人类的视觉注意力模式非常相似

  • b.优秀的校准度 (Calibration):CTM 对自己预测的置信度非常“诚实”,甚至比人类标注者的平均水平还要准。这意味着当它说“我很确定”时,你大概率可以相信它

  • c.自适应计算:对于简单的图像,CTM 会“觉得”差不多了,用较少的内部思考步骤就给出高置信度答案;而对于复杂的图像,它会自然地进行更多步的思考。这种能力是其架构和特殊损失函数(结合最低损失点和最高置信度点的预测)带来的涌现特性,无需额外复杂设计

  • d.丰富的神经动态:对比 CTM 和 LSTM 在处理图像时的神经元活动,你会发现 CTM 的神经元活动模式更加多样和复杂,呈现出类似生物神经信号的多尺度、甚至周期性振荡的行为(尽管没有外部驱动信号),这与 LSTM 相对单调的动态形成鲜明对比。研究者甚至观察到了类似大脑皮层中“行波 (traveling waves)”的现象

算法推理与记忆:在排序、奇偶校验 (Parity)、Q&A MNIST(看图回答计算题)等任务中,CTM 也表现出色。尤其是在 Q&A MNIST 任务里,即使需要回忆的数字已经超出了神经元模型的直接“记忆窗口”(输入的历史长度 M),CTM 依然能通过神经同步机制成功提取信息并进行计算,证明了同步表征在记忆和信息检索方面的潜力

持续交互:在强化学习(CartPole, Acrobot, MiniGrid)任务中,CTM 也能在与环境的持续互动中学习策略,展现出与 LSTM 基线相当的性能,但其神经动态依然更加丰富

AI 向生物智能迈出的重要一步?

CTM 的出现,至少给我们带来了几点思考:

弥合差距:它在 AI 的计算效率与生物智能的动态复杂性之间,架起了一座有趣的桥梁

表征:“神经同步”作为一种全新的信息表征方式,其潜力和应用场景值得深入探索,尤其是在需要整合长期依赖、进行复杂推理和记忆的任务中。同步矩阵本身提供了一个巨大的、无需额外参数成本的高维表征空间

涌现与可解释性:CTM 的许多能力(如自适应计算、路径追踪)是自然涌现的,而非刻意设计,并且其思考过程相对透明,这对于构建更值得信赖的 AI 系统至关重要。

未来方向:Sakana AI 提到,未来会将 CTM 应用于语言模型、视频等时序数据,探索在更自然的“连续世界”设定下进行训练,甚至结合生物可塑性原理(如 Hebbian 学习)进行梯度无关的优化

当然,CTM 并非完美:

训练速度:其内部的串行思考过程无法像传统模型那样大规模并行,训练时间会更长

参数开销:每个神经元都有自己的模型(NLMs),这会带来额外的参数量。

尽管现代人工智能以大脑为基础,形成“人工神经网络”,但即使在今天,人工智能研究与神经科学之间的重叠仍然少得惊人。人工智能研究人员选择沿用上世纪80年代开发的极其简单的模型,因为它简单易用、训练高效,并且在推动人工智能发展方面持续取得成功。另一方面,神经科学将创建更精确的大脑模型,但其主要目的是理解大脑,而不是试图创建更高级的智能模型(当然,两者之间也可能存在某种关联)。尽管这些神经科学模型更加复杂,但它们的表现通常仍不及我们目前最先进的人工智能模型,因此,它们或许在人工智能应用方面缺乏进一步研究的吸引力

如果现代人工智能在某些方面不继续向大脑靠拢,就错失了良机,我们或许可以通过这种方式找到更强大、更高效的模型。2012 年,人工智能能力的大幅提升,即所谓的“深度学习革命”,正是源于神经网络——一个受大脑启发的模型。为了延续这一进步,我们是否应该继续受到大脑的启发?CTM 是首次尝试弥合这两个领域之间的差距,它展现出一些更接近大脑行为的初步迹象,同时仍然是一个解决重要问题的实用人工智能模型

感兴趣的朋友,强烈建议去 Sakana AI 的项目主页体验交互式 Demo,并深入阅读他们的技术报告原文开源代码,链接如下:

项目主页 & 交互 Demo:

https://sakana.ai/ctm/ 或 https://pub.sakana.ai/ctm/

技术报告 (PDF):
[arXiv:2505.05522v1]

开源代码 (GitHub):

https://github.com/SakanaAI/continuous-thought-machines/

关于 Sakana AI 这家公司

Sakana AI 是一家专注于人工智能基础模型研究的公司,总部位于日本东京

创始团队:这家公司由两位 AI 领域的重量级人物于 2023 年创立:

  • David Ha:他之前在 Google Brain 和 Stability AI 工作,以其在 World Models、生成模型、神经进化以及探索 AI 创造力方面的工作而闻名

  • Llion Jones:他是著名的"Attention Is All You Need"论文的共同作者之一,这篇论文引入了 Transformer 架构,是当今绝大多数大型语言模型(LLMs)的基础。Llion Jones 之前也在 Google 工作

研究方向与理念:Sakana AI 的一个显著特点是其研究理念——从自然界和生物系统中汲取灵感来构建新一代的 AI

公司名字 "Sakana" 在日语中意为“鱼”,这象征着他们希望从鱼群等自然界的集体智能 (Collective Intelligence)和进化 (Evolution)过程中获得启发

他们探索的方向不仅仅是简单地扩大现有模型的规模,而是寻求新的架构和学习范式。例如,他们研究如何:

  • • 使用进化算法来自动发现合并或组合现有开源模型的方法,以创造新的能力。

  • • 探索来自人工生命 (Artificial Life)的概念

  • • 开发受生物学启发的模型,比如你刚了解到的持续思考机器 (CTM),它就明确地借鉴了大脑中神经元的时间动态和同步机制


⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏南京一模特太漂亮 身高177cm体重55kg五官精致到无懈可击

江苏南京一模特太漂亮 身高177cm体重55kg五官精致到无懈可击

陈意小可爱
2026-01-10 01:19:36
特朗普“不悦”又怎样?

特朗普“不悦”又怎样?

新民晚报
2026-01-10 09:22:22
闫学晶:中国没有穷人,穷就是懒,农民种地一年都有二十万收入

闫学晶:中国没有穷人,穷就是懒,农民种地一年都有二十万收入

小娱乐悠悠
2026-01-09 11:18:41
离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

离婚19年,朱玲玲每周三仍回霍家吃饭。不是复婚,也不是演戏。

百态人间
2026-01-10 05:15:03
特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

博览历史
2026-01-09 18:17:28
好久不见!广东旧将现身业余比赛 曾是杜锋爱徒 因伤遗憾退役

好久不见!广东旧将现身业余比赛 曾是杜锋爱徒 因伤遗憾退役

胖子喷球
2026-01-10 19:41:44
三十亿防空网七分钟瘫痪,败给的不只是美军

三十亿防空网七分钟瘫痪,败给的不只是美军

寰宇文创
2026-01-09 05:39:17
潜艇全军覆没式造假,200多家企业沦陷,道歉成遮羞布

潜艇全军覆没式造假,200多家企业沦陷,道歉成遮羞布

知法而形
2026-01-09 09:50:41
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
天助拜仁:3-3,两次领先都不赢,德甲第2遭德甲第7阻击,距榜首8分

天助拜仁:3-3,两次领先都不赢,德甲第2遭德甲第7阻击,距榜首8分

侧身凌空斩
2026-01-10 05:27:24
67岁千万富翁李幼斌:钱再多有何用?中老年人当醒悟

67岁千万富翁李幼斌:钱再多有何用?中老年人当醒悟

半身Naked
2026-01-09 23:07:33
超级世界波!罗德里轰足总杯处子球,破601天球荒,瓜帅面无表情

超级世界波!罗德里轰足总杯处子球,破601天球荒,瓜帅面无表情

奥拜尔
2026-01-10 23:40:12
中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

中国最后流失的领土,1994年正式脱离中国,如今风景绝佳美女无数

丰谭笔录
2026-01-02 09:29:55
一枚就能让世界众生平等,东风41洲际导弹一旦发射有多恐怖?

一枚就能让世界众生平等,东风41洲际导弹一旦发射有多恐怖?

南宗历史
2026-01-10 22:44:46
我国新增20万颗卫星申请

我国新增20万颗卫星申请

21世纪经济报道
2026-01-10 20:29:30
iPhone 换电池限时半价,仅限这些机型

iPhone 换电池限时半价,仅限这些机型

果粉俱乐部
2026-01-08 14:05:03
莱斯特城2-0切尔滕汉姆,帕森-达卡破门,马维迪迪锁定胜局

莱斯特城2-0切尔滕汉姆,帕森-达卡破门,马维迪迪锁定胜局

懂球帝
2026-01-10 22:15:33
鸡腿公主给科技大佬当外室

鸡腿公主给科技大佬当外室

毒舌扒姨太
2026-01-10 22:27:26
就在刚刚,被列“台独”顽固分子的刘世芳、陈舒怡做出回应:

就在刚刚,被列“台独”顽固分子的刘世芳、陈舒怡做出回应:

百态人间
2026-01-10 05:20:05
库里27+10勇士击退国王2连胜,巴特勒15+6+6德罗赞24分

库里27+10勇士击退国王2连胜,巴特勒15+6+6德罗赞24分

湖人崛起
2026-01-10 13:17:21
2026-01-11 01:44:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1027文章数 393关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

教育
家居
旅游
数码
手机

教育要闻

表现不好,还不接受批评的学生,怎么教育比较合适?

家居要闻

木色留白 演绎现代自由

旅游要闻

12.7亿元营收、15倍增长背后:谁在操盘万岁山武侠城?顶流景区直面“长红”之困|主题乐园资本论

数码要闻

音频硬件开始“长脑子”?直击CES 2026六大音频新品

手机要闻

魅族22Air、22 Next不开售发布,魅族23确认

无障碍浏览 进入关怀版