网易首页 > 网易号 > 正文 申请入驻

给机器人装上「虫脑」?非Transformer液态神经网络!

0
分享至

机器之心报道

机器之心编辑部

一个受线虫启发的全新架构,三大「杯型」均能实现 SOTA 性能,资源高度受限环境也能部署。移动机器人可能更需要一个虫子的大脑。

在大模型时代,谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。

然而,刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。

Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。

为了实现这一目标,Liquid AI 推出了其首批多模态 AI 模型:Liquid Foundation Models(LFM)。这是基于第一原理构建的新一代生成式 AI 模型,其 1B、3B 和 40B LFM 在各个规模上均能实现 SOTA 性能,同时保持更小的内存占用和更高效的推理。

Liquid AI 后训练主管 Maxime Labonne 在 X 上表示,LFM 是他职业生涯中最自豪的版本 ,LFM 的核心优势在于它们能够胜过基于 Transformer 的模型,同时占用更少的内存。



有人表示,LFM 是 Transformer 的终结者。



还有网友盛赞 LFM 是游戏规则的改变者。



更有网友认为「可能是时候放弃 Transformers 了,这种新架构看起来很有前途。」



Liquid AI 发布三款模型

LFM 系列拥有三种不同的尺寸和变体:

  • 密集型 LFM 1.3B(最小),非常适合资源高度受限的环境。
  • 密集型 LFM 3B,适合在边缘部署优化。
  • LFM 40.3B MoE 模型(最大,类似于 Mistral 的专家混合模型),专为处理更复杂的任务而设计。

SOTA 性能

LFM-1B 与同等规模模型的比较。LFM-1B 在各项基准测试中均取得最高分,成为该规模下最先进的模型。这是非 GPT 架构首次显著优于基于 Transformer 的模型。举例来说,LFM 1.3B 在第三方基准测试中优于 Meta 的 Llama 3.2-1.2B 和微软的 Phi-1.5。



LFM-3B 实现了令人难以置信的性能,在与 3B transformer 模型、混合模型和 RNN 模型的比较中名列第一。在多个基准测试中也与 Phi-3.5-mini 相当,同时规模小了 18.4%。可以看出 LFM-3B 是移动和其他边缘文本应用的理想选择。



LFM-40B 在模型大小和输出质量之间实现了新的平衡。它在运行时可以激活 12B 参数,其性能媲美更大的模型,而 MoE 架构可实现更高的吞吐量,并可在更具成本效益的硬件上进行部署。



内存高效

与 Transformer 架构相比,LFM 占用的内存更少。对于长输入尤其如此,因为基于 Transformer 的 LLM 中的 KV 缓存会随着序列长度线性增长。通过高效压缩输入,LFM 可以在相同硬件上处理更长的序列。与其他 3B 类模型相比,LFM 占用的内存最少。举例来说,LFM-3B 仅需要 16 GB 内存,而 Meta 的 Llama-3.2-3B 则需要超过 48 GB 内存。



LFM 真正利用了上下文长度

下表比较了几种模型在不同上下文长度下的表现。



这种高效的上下文窗口首次在边缘设备上实现了长上下文任务。对于开发者来说,它解锁了新的应用,包括文档分析和摘要、与上下文感知聊天机器人进行更有意义的交互,以及改进的检索增强生成 (RAG) 性能。

这些模型不仅在原始性能基准方面具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从金融服务、生物技术和消费电子产品领域的企业级应用程序到边缘设备的部署。

用户可以通过 Lambda Chat 或 Perplexity AI 等访问。

Liquid 如何超越生成式预训练 Transformer (GPT)

Liquid 使用了一种混合的计算单元,这些计算单元深深植根于动态系统理论、信号处理和数值线性代数的理论中。结果就是开发出了通用的人工智能模型,这些模型能够用来模拟任何类型的序列数据,包括视频、音频、文本、时间序列和信号,以此来训练其新的 LFM。



早在去年,Liquid AI 就使用了一种名为 LNN(Liquid Neural Networks)的方法,与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 表明,更少的神经元(结合创新的数学公式)可以实现相同的结果。

Liquid AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整, 而不会带来传统模型相关的计算开销。可以高效处理多达 100 万个 token,同时将内存使用量降至最低。

例如,在推理内存占用方面,LFM-3B 模型的表现优于 Google 的 Gemma-2、Microsoft 的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在 token 长度扩展的情况下。



虽然其他模型在处理长上下文时内存使用量会急剧增加,但 LFM-3B 占用的空间却小得多,因此非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。

Liquid AI 已将其基础模型构建为跨多种数据模态(包括音频、视频和文本)的通用模型。

凭借这种多模态能力,Liquid 旨在解决从金融服务到生物技术和消费电子产品等各种行业特定挑战。

Liquid AI 正在为多家硬件制造商的产品优化其模型,包括 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras。

Liquid AI 正在邀请早期用户和开发者测试他们的新模型并提供反馈。虽然目前模型还不完美,但公司计划利用这些反馈来改进产品。他们将于 2024 年 10 月 23 日在麻省理工学院举行正式发布会。

为了保持透明度和推动科学进步,公司计划在发布会前发表一系列技术博客文章。他们还鼓励用户进行红队测试,探索模型的极限,以帮助改进未来版本。

Liquid AI 推出的 LFM 结合了高性能和高效的内存使用,为传统的基于 Transformer 的模型提供了一个有力的替代选择。这使得 Liquid AI 有望成为基础模型领域的重要玩家。



Liquid AI :从一条小虫子开始

这家公开与 OpenAI 和其他大语言模型公司竞争的创业公司,由 MIT 计算机科学和人工智能实验室 CSAIL 孵化,成立于 2023 年 3 月。

2023 年 12 月,公司拿到种子轮融资 3750 万美元,估值达到 3 个亿。

投资人包括 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 、 Red Hat 联合创始人 Bob Young,等。

MIT CSAIL 主任 Daniela Rus 是公司创始人之一,这位著名的机器人学家和计算机科学家也是该实验室的首位女性主管。

除了 Daniela Rus,Liquid AI 另三位联合创始人都曾是 MIT CSAIL 博士后研究人员。

联合创始人兼 CEO Ramin Hasani 在 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( Vanguard )的首席人工智能科学家。

联合创始人兼 CTO Mathias Lechner 早在维也纳工业大学读书时,就和 Hasani 一起研究过线虫的神经结构。

联合创始人兼首席科学官 Alexander Amini 曾是 Daniela Rus 的博士生。



四位创始人(从左到右)CEO Ramin Hasani,Daniela Rus,首席科学官 Alexander Amini 和 CTO Mathias Lechner

2017 年,Daniela Rus 将 Hasani 和 Lechner 「挖到 」MIT CSAIL,Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。

Daniela Rus 指出,生成式 AI 在安全、可解释性以及算力等方面存在明显局限性,很难被用于解决机器人问题,特别是移动机器人。

受科研界的「常客」秀丽隐杆线虫的神经结构启发,Daniela Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。



秀丽隐杆线虫也是唯一完成连接组(connectome)测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多。

秀丽隐杆线虫体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为。

它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。

近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作,Daniela Rus 等人设计出一种「液态时间常数网络」( Liquid Time-constant Networks):

一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。

如果说,标准的神经网络犹如一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重),计算的洪流每流经一层水坝,都要透过这些阀门,汇总后再奔向下一层。

那么,液态神经网络不需要水坝,因为,每个神经元都由微分方程 (ODE)控制。

这种网络的特点是时间常数可变,输出通过求解微分方程得到。研究表明,它在稳定性、表达能力和时间序列预测方面都优于传统模型。

后来,Daniela Rus 等人又提出一种近似方法,可以用闭式解来高效地模拟神经元和突触之间的相互作用( Closed-form continuous-time neural networks ),不仅大大提高了模型的计算速度,也显示出更好的可扩展性,在时间序列建模方面表现出色,优于许多先进的循环神经网络模型。

Liquid AI 团队成员曾声称,该架构适合分析任何随时间波动的现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。

除了像液体一样的灵活性,与动辄数十亿参数规模的生成 AI 模型相比,液态神经网络的另一个特点是规模小得多。

例如,可在资源高度受限环境中部署的 LFM 1.3B,参数仅 1.3B(与 GPT-2 最大版本 1.5B 相近),同时保持了更小的内存占用和更高效的推理,可以在各种机器人硬件平台上运行。

另外,由于尺寸小、架构简单,液态神经网络也有可解释性方面的优势。

不过,全新架构将如何与 OpenAI 等竞争对手的主流模型相抗衡还有待观察。

Hasani 曾表示,目前 Liquid AI 没有计划为消费者开发像 ChatGPT 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。

https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/

https://arxiv.org/abs/2106.13898

https://arxiv.org/abs/2006.04439

https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=Liquid%20AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
10月5日俄乌最新:朝鲜军官6死3伤

10月5日俄乌最新:朝鲜军官6死3伤

西楼饮月
2024-10-05 20:26:25
港媒痛批大陆游客在地铁席地而坐,网友反问:欧美人坐会怎么说?

港媒痛批大陆游客在地铁席地而坐,网友反问:欧美人坐会怎么说?

喜欢农家生活的阿律
2024-10-05 15:57:10
27岁清华高才生硅谷杀妻,最新庭审画面流出:胖若两人,流言坐实

27岁清华高才生硅谷杀妻,最新庭审画面流出:胖若两人,流言坐实

温柔看世界
2024-10-05 11:46:24
旅行社将大量游客滞留兵马俑门口,文旅部门回应

旅行社将大量游客滞留兵马俑门口,文旅部门回应

鲁中晨报
2024-10-05 21:25:07
真主党开创历史,一周之内,三任领导人被炸死,副秘书长辞职

真主党开创历史,一周之内,三任领导人被炸死,副秘书长辞职

山河路口
2024-10-05 19:42:05
凌晨美再引爆两岸!俄罗斯将军:中国40年没轰炸过别人是时候动手

凌晨美再引爆两岸!俄罗斯将军:中国40年没轰炸过别人是时候动手

华人星光
2024-10-04 13:12:53
无缘中网决赛!郑钦文进账390分+228万元,只差108分,进年终有戏

无缘中网决赛!郑钦文进账390分+228万元,只差108分,进年终有戏

侃球熊弟
2024-10-05 19:45:54
真脏!上海女律师自曝与上司开房性爱,尺度惊人,本人被扒出!

真脏!上海女律师自曝与上司开房性爱,尺度惊人,本人被扒出!

阿伧说事
2024-09-29 14:44:36
俄罗斯的错误绝不能再犯!中美对抗越激烈,中国就更需咬死这一点

俄罗斯的错误绝不能再犯!中美对抗越激烈,中国就更需咬死这一点

议纪史
2024-10-05 06:40:03
太悲壮了!拘留15天无所谓!烧!农民网上发视频,公开焚烧秸秆!

太悲壮了!拘留15天无所谓!烧!农民网上发视频,公开焚烧秸秆!

晴晴给你讲故事
2024-10-05 16:38:09
绝对不能拿14亿人当赌注!国防大学马俊:打仗得师出有名

绝对不能拿14亿人当赌注!国防大学马俊:打仗得师出有名

大风文字
2024-10-05 12:23:36
江苏对4千百岁老人长寿调查:报告结果颠覆所有人三观!!!

江苏对4千百岁老人长寿调查:报告结果颠覆所有人三观!!!

诗词中国
2024-10-04 13:05:32
东北雨姐早期照片曝光,身材前凸后翘,长相清纯,与现在判若两人

东北雨姐早期照片曝光,身材前凸后翘,长相清纯,与现在判若两人

最名人
2024-10-05 22:01:15
你敢加税,我就敢撤资!欧盟最终投票结果出炉,27国分歧越闹越大

你敢加税,我就敢撤资!欧盟最终投票结果出炉,27国分歧越闹越大

说故事的阿袭
2024-10-06 00:29:32
隔着屏幕都感觉到老人味,竟然还敢穿少女裙。年纪大了一定要认老

隔着屏幕都感觉到老人味,竟然还敢穿少女裙。年纪大了一定要认老

人情皆文史
2024-10-06 01:10:45
大爆冷,孙颖莎决赛不敌国乒队友,没能够完成夺冠,可惜

大爆冷,孙颖莎决赛不敌国乒队友,没能够完成夺冠,可惜

保持热爱0263
2024-10-05 22:05:44
随着穆霍娃2:0完胜郑钦文,赛后3句肺腑之言,值得被点赞!

随着穆霍娃2:0完胜郑钦文,赛后3句肺腑之言,值得被点赞!

田先生篮球
2024-10-05 23:31:10
颁奖礼:钱天一喜笑颜开,陈幸同、孙颖莎、王艺迪淡定面对输赢

颁奖礼:钱天一喜笑颜开,陈幸同、孙颖莎、王艺迪淡定面对输赢

全言作品
2024-10-05 21:22:48
中东大反攻,以色列伤亡惨重到全网封杀视频

中东大反攻,以色列伤亡惨重到全网封杀视频

远方青木
2024-10-05 00:09:55
真主党高层团灭后,下一代掌权人呼之欲出,与苏莱曼尼关系紧密

真主党高层团灭后,下一代掌权人呼之欲出,与苏莱曼尼关系紧密

空天力量
2024-10-04 18:13:22
2024-10-06 06:08:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9519文章数 142033关注度
往期回顾 全部

科技要闻

十一直击:鸿蒙智行、小米汽车人气高涨

头条要闻

以色列3个月后才通报穆什塔哈之死 其去年曾躲过轰炸

头条要闻

以色列3个月后才通报穆什塔哈之死 其去年曾躲过轰炸

体育要闻

郑钦文摔倒受伤 0-2告负无缘中网决战

娱乐要闻

肖战晒照庆33岁生日,阳光帅气有活力

财经要闻

“抢筹”中国资产!外资巨头发声!

汽车要闻

售17.78万元 蒙迪欧1.5T混动舒雅型上市

态度原创

教育
时尚
旅游
亲子
健康

教育要闻

【高考分析】2021年高考全国甲卷文综地理部分、中国高考报告2024命题聚焦关键能力,突出思维品质

2024秋冬最火的5种内搭!尤其是最后一种,巨时髦巨显瘦!

旅游要闻

凌晨3点还有人排队 长沙坡子街派出所有何魔力?

亲子要闻

家中地毯藏隐患,幼儿吸入微塑料危险重重

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版