研究人员设计了一种新型的大型语言模型(LLM),他们提议该模型可以弥合人工智能(AI)与更人性化的认知之间的差距。
该模型被称为“龙幼崽”,旨在更准确地模拟大脑中神经元如何通过学习经验连接和增强,来自AI初创公司Pathway的研究人员表示。他们将其描述为第一个能够“随时间进行概括”的模型,这意味着它可以根据新信息自动调整自身的神经网络。
在9月30日上传至预印本数据库arXiv的一项研究中,团队将该模型框架视为现有架构的继任者,该架构支撑着像ChatGPT和Google Gemini这样的生成性AI工具。此外,他们还建议该模型可以提供今天的AI技术与更先进的、受大脑启发的智能模型之间的“缺失环节”。
“关于具体推理模型和合成推理模型的讨论仍在继续,今天它们是否能够将推理扩展到超出它们在保留数据中所见的模式,是否能够将推理概括到更复杂和更长的推理模式,”Adrian Kosowski,Pathway的联合创始人兼首席科学官,在10月7日的SuperDataScience播客上说。
“证据在很大程度上是不确定的,答案通常是‘没有’。目前,机器的推理能力并不像人类那样具备概括性,这是我们提出的架构可能会产生真正差异的重大挑战。”
迈向AGI的一步?
让AI像人类一样思考是该领域最受珍视的目标之一。然而,要达到这种模拟认知的水平——通常称为人工通用智能(AGI)——依然很困难。
一个关键挑战是人类思维本质上是混乱的。我们的思维很少以整齐、线性的相关信息序列出现。相反,人脑更像是一个混乱的纠结,里面充满了重叠的思想、感觉、情感和冲动,它们不断争夺我们的注意力。
近年来,LLM(大型语言模型)让人工智能行业更接近模拟人类的推理能力。LLM通常由变换器模型(transformers)驱动,这是一种深度学习框架,使人工智能模型能够在对话中建立单词和思想之间的联系。变换器是生成性人工智能工具(比如ChatGPT、Gemini和Claude)的“大脑”,使它们能够与用户互动并以令人信服的“意识”水平(至少,大多数时候)作出回应。
尽管变换器极其复杂,但它们也标志着现有生成性人工智能能力的边界。原因之一是它们不会持续学习,一旦LLM被训练,其控制参数就会被锁定,这意味着任何新知识都需要通过重新训练或微调才能添加。当LLM遇到新事物时,它只是根据已有知识生成回应。
想象中的龙
另一方面,Dragon Hatchling被设计成能够动态适应超出训练数据的理解。它通过在处理每个新输入时实时更新内部连接来实现这一点,类似于神经元随时间的强化或削弱。研究人员表示,这可能有助于持续学习。
与典型的变换器架构不同,它们通过堆叠的节点层顺序处理信息,Dragon Hatchling 的架构更像是一个灵活的网络,随着新信息的出现而不断自我重组。微小的“神经元粒子”不断交换信息并调整它们的连接,增强某些连接、削弱其他连接。
随着时间的推移,新的路径逐渐形成,帮助模型记住所学的内容并将其应用于未来的情况,有效地赋予它一种短期记忆,从而影响新的输入。然而,与传统的大型语言模型(LLM)不同,Dragon Hatchling 的记忆来自于其架构的持续适应,而不是来自于其训练数据中存储的上下文。
在测试中,Dragon Hatchling 在基准语言建模和翻译任务中的表现与 GPT-2 相似——这是一个令人印象深刻的成就,研究团队指出,这是一种全新的原型架构。
尽管这篇论文尚未经过同行评审,但团队希望该模型能够作为朝着能够自主学习和适应的人工智能系统的基础性步骤。从理论上讲,这可能意味着 人工智能模型在线的时间越长,变得越聪明 — 这可能会带来好处,也可能会有坏处。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.