![]()
这项由哈尔滨工业大学与中关村研究院等多家机构联合开展的研究发表于2026年1月,论文编号为arXiv:2601.14133v1。研究团队开发出了名为TwinBrainVLA的创新架构,首次在机器人AI系统中实现了类似人类大脑左右半球分工的智能模式。
想象一下,你正在学习开车。一开始,你需要同时掌握交通规则、识别路标,还要学会精确控制方向盘和油门踏板。这就像是让一个人的大脑同时处理高级思考和精细动作控制——结果往往是顾此失彼,要么忘记交规,要么控制不好车辆。
目前的机器人AI系统也面临着同样的困境。它们需要一边理解复杂的语言指令和场景,一边学习精确的机械操作。就像一个学生试图在同一时间既当文科尖子生又当体育健将,结果往往是在学习新技能时忘记了原本掌握的知识——科学家们称这种现象为"灾难性遗忘"。
研究团队从人类大脑的工作原理中获得灵感。众所周知,人类大脑的左半球主要负责语言和逻辑思维,右半球则专注于空间感知和动作协调。这种天然的分工让人类既能进行复杂思考,又能执行精细动作。
基于这个思路,研究团队设计了TwinBrainVLA系统。这套系统就像给机器人配备了两个协同工作的大脑:一个"左脑"专门保持对世界的语言理解和推理能力,它始终保持清醒并负责语义理解;另一个"右脑"则专门学习机器人的动作控制,它可以向左脑请教语义知识,同时专注于掌握精确的物理操作技能。
两个"大脑"之间的协作机制被研究团队称为"不对称变换器混合机制"。简单来说,就像是一个经验丰富的老师傅(左脑)在旁边提供指导,而一个专门的学徒(右脑)负责具体的操作练习。学徒可以随时向老师傅请教"这个工具怎么用"或"这个动作的要领是什么",但老师傅不会被学徒的练习过程干扰,始终保持着自己的知识体系完整。
为了验证这套系统的效果,研究团队在两个不同的机器人仿真环境中进行了大量测试。第一个环境名为SimplerEnv,包含了四种日常操作任务:把勺子放在毛巾上、把胡萝卜放在盘子里、把绿色积木叠在黄色积木上,以及把茄子放进黄色篮子里。在这些测试中,TwinBrAInVLA系统表现出了显著优势,平均成功率达到了62%,超过了目前最先进的机器人AI系统。
第二个测试环境RoboCasa则更加复杂,包含了24种不同的桌面操作任务,比如把瓶子放进柜子并关上门、操作微波炉和烤面包机等。在这个更具挑战性的环境中,TwinBrainVLA系统的平均成功率达到了54.6%,比其他先进系统高出了6-10个百分点。
更重要的是,研究团队验证了系统在学习新技能时不会忘记原有知识的能力。传统的机器人AI系统在学习精确操作后,往往会失去对复杂语言指令的理解能力,就像一个人专心练习技术动作后忘记了比赛规则。而TwinBrainVLA系统通过"左脑"的保护机制,成功保持了对语言和视觉场景的综合理解能力。
这项研究的创新之处在于首次在机器人AI领域实现了真正意义上的"专业化分工"。左脑负责保持通用知识和语言理解,右脑专门学习具体的操作技能,两者通过巧妙的信息交换机制实现协同工作。这种设计不仅提高了机器人的学习效率,还解决了长期困扰该领域的"学新忘旧"问题。
从技术实现角度来看,研究团队采用了当前最先进的视觉-语言模型作为基础架构,并在此基础上创新性地引入了双流处理机制。左脑使用冻结的预训练模型权重,确保其语言理解能力不受干扰;右脑则可以自由学习和更新,专门优化机器人的动作控制能力。两个处理流之间通过注意力机制实现信息共享,让右脑能够获取左脑的语义知识,同时避免反向干扰。
在动作生成方面,系统采用了流匹配算法,这种方法能够生成更加平滑和精确的机器人动作序列。相比传统的离散化动作生成方法,流匹配算法能够产生连续的动作控制信号,使机器人的动作更加自然流畅。
研究团队在论文中详细描述了训练过程的技术细节。他们使用了包含大量机器人操作演示的开放数据集进行训练,并采用了严格的参数更新策略确保左脑权重保持冻结。整个训练过程在16块NVIDIA H100 GPU上进行,总共训练了4万步,采用了AdamW优化器和余弦退火学习率调度。
值得注意的是,当前的实现方式要求左右两个"大脑"具有相同的模型架构,这限制了系统设计的灵活性。研究团队在论文中指出,未来的改进方向包括支持不同规模和架构的模型组合,比如让一个大型通用模型与一个轻量级专用控制模型协同工作。
此外,目前的研究主要基于仿真环境进行验证,团队表示正在进行真实机器人环境下的测试。他们还计划扩展到更大规模的训练数据,并在更多不同类型的机器人任务上验证系统的通用性。
这项研究的意义远不止于技术创新。它为解决人工智能系统在学习新技能时的"遗忘"问题提供了一条全新的思路。在人工智能快速发展的今天,如何让AI系统既能保持已有能力又能持续学习新技能,一直是该领域的核心挑战。TwinBrainVLA系统通过借鉴生物学原理,为这个问题提供了一个优雅的解决方案。
从更广泛的应用前景来看,这种双脑协同的设计理念可能会影响未来AI系统的整体架构。不仅在机器人领域,在其他需要同时处理复杂认知任务和具体执行任务的AI应用中,这种分工协作的模式都可能发挥重要作用。
研究团队已经将相关代码开源,为其他研究者提供了进一步探索和改进的基础。他们希望这项工作能够推动整个机器人AI领域朝着更加智能和实用的方向发展,最终实现既具备高级认知能力又拥有精湛操作技能的通用机器人系统。
这项研究表明,有时候解决复杂技术问题的最佳方法就是回归自然,从生物系统中寻找灵感。正如人类大脑通过左右半球分工实现了认知与行动的完美结合,机器人AI系统也可以通过类似的架构设计达到更高的智能水平。未来,我们或许会看到更多模仿生物智能原理的AI系统设计,为人工智能的发展开辟新的道路。
Q&A
Q1:TwinBrainVLA系统的左脑和右脑是如何分工合作的?
A:TwinBrainVLA系统的左脑负责保持语言理解和场景认知能力,始终保持冻结状态不被训练干扰;右脑专门学习机器人的具体操作技能,可以向左脑请教语义知识。两者通过不对称变换器混合机制实现信息共享,让右脑获得左脑的知识指导,同时避免学习过程中的相互干扰。
Q2:这套系统解决了机器人AI的什么核心问题?
A:系统解决了机器人AI的"灾难性遗忘"问题。传统系统在学习新的操作技能时会忘记原有的语言理解和认知能力,就像学生专注练习技术动作后忘记比赛规则。TwinBrainVLA通过双脑分工,让机器人既能学会精确操作,又能保持对复杂指令和场景的理解能力。
Q3:TwinBrainVLA系统的实际表现如何?
A:在SimplerEnv环境测试中,系统平均成功率达到62%,超过了当前最先进的机器人AI系统。在更复杂的RoboCasa环境中,24种桌面操作任务的平均成功率为54.6%,比其他先进系统高出6-10个百分点,同时成功保持了原有的语言理解和视觉认知能力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.