网易首页 > 网易号 > 正文 申请入驻

北大ProAct:首个双系统「主动社交」智能体,不做提线木偶

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有的具身智能大多是「你说我做」的被动响应者。如何让机器人像人类一样拥有「主动性」?北京大学VCL实验室针对当前具身智能体「被动响应」的局限,提出了一个基于「双系统」架构的主动社交智能体框架ProAct,模仿人类「快思考」与「慢思考」的认知机制,使机器人不仅能够进行流畅自然的对话,还能基于情境理解主动发起互动,从而具备真正的「社交心智」。

在与机器人交互时,你是否常有这种感觉:如果你不说话,它就永远沉默;如果你不发指令,它就「呆若木鸡」。

这是因为目前的交互式系统绝大多数都是反应式的,它们被困在一个短暂的时间窗口里,只能根据当前的语音或视觉输入做出反馈,这种机制使得智能体难以基于积累的长期语境来推断意图,更无法发起主动行为。

然而,生活中的人类社交本质上是双向且主动的。

在日常互动中,人们不仅是对他人的话语做出反应,更会运用意向性去预测需求、掌握主动权并在未被请求时采取行动。

例如,当朋友显得犹豫不决时给予鼓励,或在看到空杯子时主动倒水。这种由内部目标驱动而非被动响应外部刺激的「主动性」,是区分真正的伙伴与简单问答机器人的关键。

想在具身智能体上实现这一点,还得解决一个核心矛盾:时间尺度。主动行为需要深思熟虑的推理和长程语境分析,也就是要「慢想」;而实时交互要求极低的延迟,必须「快回」。单一的端到端模型往往难以兼顾二者,因为深度推理会阻塞实时响应,而追求速度则会牺牲行为的合理性和准确性。

受认知科学中双重加工理论的启发,北京大学研究团队提出了一种双系统架构ProAct,核心思路在于快慢分离, 即将即时的反应与慢速的推理分离,使得ProAct兼具响应速度与主动的深度社交能力。


论文地址:https://arxiv.org/abs/2602.14048

项目主页:https://proactrobot.github.io/

其中,行为系统(Behavioral System)作为「快系统」,负责维持高频、低延迟的多模态交互流;认知系统(Cognitive System)作为「慢系统」,配备记忆与推理模块,负责长程推理并生成高层主动意图。


图1. ProAct 双系统框架概览。(a) 系统架构整合了快速的行为系统与慢速的认知系统;(b) 实时交互中,智能体在用户离开时主动发起挽留与提醒。

为了弥合两者的时间差,ProAct进一步提出了一种基于流匹配(Flow Matching)的流式生成模型,支持通过 ControlNet 异步注入语义意图,这样一来,机器人在保持流畅交互的同时,也能无缝地从「被动反应」切换到「主动出击」。

文章的技术贡献主要体现在以下三点:

  1. 提出了一种用于具身社交智能体的双系统架构,成功将实时反应与语境驱动的主动行为融为一体。

  2. 提出一种基于流匹配的流式生成模型,支持将高层语义意图异步注入实时动作流,实现了反应式与主动式行为的平滑切换。

  3. 将该系统部署于Unitree G1人形机器人,在真实世界中验证了其主动交互的有效性。

下方的演示视频可以直观地感受ProAct如何让机器人像人类一样拥有「社交心智」:


视频1. 在生活管家场景中,ProAct 发现用户有急事后停止说话,并主动提醒用户离开时忘记拿书包。


视频2. 在情感支持场景中,ProAct 检测到用户剧烈的情绪波动,主动询问缘由并安慰用户。


视频3. 在寻找物品场景中,ProAct在用户寻找物品时,回忆起用户之前放置药品柜的经过,主动提醒用户药瓶放在了哪里。

方法简介

ProAct采用双系统并行运行的机制:行为系统维持实时交互闭环,认知系统在后台进行周期性推理。

行为系统:流式多模态交互

行为系统充当着「快系统」的角色,负责处理用户音频与视觉流,生成低延迟的语音与动作反馈,由一个流式Omni-LLM和一个流式动作生成器级联而成。

语音方面,系统利用GPT-4o Realtime模型处理用户语音和第一视角图像,实现了支持随时打断的实时对话。动作方面,为了维持具身的「存在感」,动作必须连续且流畅。

为此,ProAct提出了一种基于流匹配的生成模型,具备极高的实时性,首次响应时间与真实社交场景中的人类相当。通过「重叠-缓存」机制,ProAct保证每一帧动作的生成时间小于播放时间,并且能完美衔接上一帧的动作,满足实时流式输出的要求。

此外,模型还能同时接收双方的语音流进行双人交互建模,这让机器人不仅在说话时有手势,在倾听时也能有自然的身体晃动等反馈。


图2. 认知系统架构。(a) 增量式多模态输入;(b) 上下文编码器与行为规划器并行工作;(c) 通过不同通道注入行为计划。

认知系统:社会语境推理

认知系统作为「慢系统」,通过一个基于 LLM 的智能体框架在后台运行,旨在解决「何时」以及「如何」发起主动行为的问题。如图 2 所示,该系统包含两个关键模块。

首先是上下文编码器 (Context Encoder)。为了防止随着对话进行导致推理延迟增加,该模块负责将累积的对话历史、视觉帧与过往行为压缩进一个「记忆库」。记忆库结构化地存储了用户分析(如心智理论)、情境追踪(如物体位置变化)以及机器人的历史行为。

其次是行为规划器 (Behavior Planner)。该模块依据当前的记忆与感知,进行动机评估。系统会从视觉场景变化、用户意图信号、对话状态、社会规范要求、情感响应需求这五个维度对当前状况进行打分。当任一维度的动机分数超过设定阈值时,系统将触发主动干预。

最终,认知系统的输出将通过三个通道注入行为系统:一是手势意图注入,通过 ControlNet 引导动作生成,例如「挥手打招呼」;二是对话干预,向 Omni-LLM 注入指令以打断对话或引导话题;三是移动控制,调整机器人的站位与朝向,例如「转向用户」。

实验结果与部署

研究者们将ProAct全栈部署在Unitree G1人形机器人上,实验设计了包括「海报讲解」、「讲故事」、「寻找物品」等多个交互场景。


图3. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


视频4. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


图4. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。


视频5. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。

如上述图片所示,在海报讲解任务中,ProAct 展现了超越简单问答的能力:它能主动捕捉路过的用户,建立眼神接触,并在用户表达错误观点时主动打断并纠正。在讲故事场景中,当检测到用户低头玩手机时,机器人并未继续自言自语,而是根据「社会规范」触发器,生成了不满的肢体语言(双手叉腰)并口头提醒用户专心。通过视频结果中的链接可以观看完整的社交视频。

视频6. ProAct的完整demo视频

结论

研究人员提出了一个用于主动具身社交智能体的双系统框架ProAct。

ProAct首先构建了一个支持语义意图注入的流式动作生成模型;在此之上,设计了能够解耦实时反应与长程推理的双系统架构。

可视化结果与用户研究表明,ProAct能够生成语境恰当的主动行为,显著增强了人机交互的自然度与参与感 。

尽管该方法在提升主动性方面取得了显著进展,仍存在一些局限性。首先,目前的触发机制基于固定频率与阈值,可能会错过最合适的干预机会 ;其次,当前系统主要依赖云端大模型,其网络延迟(约1-2秒)在一定程度上限制了对极速突发事件的响应能力 。未来研究者们将致力于端到端多模态模型的本地化部署与自适应触发策略的研究。

参考资料:

https://arxiv.org/abs/2602.14048

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明晚,成品油价或迎下调

明晚,成品油价或迎下调

财闻
2026-06-03 12:11:34
2000万欧元!皇马白菜价拿下蓝黑飞翼 国米买替代者需5000万欧

2000万欧元!皇马白菜价拿下蓝黑飞翼 国米买替代者需5000万欧

雪狼侃体育
2026-06-03 12:12:58
乌克兰承不承认俄罗斯对克里米亚和乌东四州的主权,都没什么意义

乌克兰承不承认俄罗斯对克里米亚和乌东四州的主权,都没什么意义

空想之喵
2026-05-09 01:21:47
山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

凡知
2026-05-25 13:54:50
最近,广州骑警摩托上多了一个“小白箱”,专门抓拍电动自行车这些行为……

最近,广州骑警摩托上多了一个“小白箱”,专门抓拍电动自行车这些行为……

番禺台
2026-06-02 18:01:27
今天,ChatGPT+Codex官宣合体!10亿人喜提「超级Agent」

今天,ChatGPT+Codex官宣合体!10亿人喜提「超级Agent」

新智元
2026-06-03 06:06:02
15万人排队!NBA历史首次!父子同队打进总决赛

15万人排队!NBA历史首次!父子同队打进总决赛

篮球教学论坛
2026-06-03 11:16:25
烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

削桐作琴
2026-06-02 15:27:07
零跑汽车爆卖80000台,打脸全行业

零跑汽车爆卖80000台,打脸全行业

科技头版Pro
2026-06-02 14:54:41
男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

红星新闻
2026-06-02 17:40:41
古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

史之铭
2026-05-28 00:48:09
“亚姐血泪秘闻”!

“亚姐血泪秘闻”!

文刀万
2026-06-03 07:00:07
成都一校长怒批成人礼:你们是成人了,不是成婚了!

成都一校长怒批成人礼:你们是成人了,不是成婚了!

今朝牛马
2026-06-02 21:03:42
刘少奇之子刘源身陷困境求助宋庆龄,九字回复令他动容

刘少奇之子刘源身陷困境求助宋庆龄,九字回复令他动容

唠叨说历史
2026-05-29 14:16:53
苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

苏州大学薛艳华去世,年仅37岁,毕业于西南政法大学,履历很优秀

180视角
2026-06-03 08:57:37
乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

乡村爱情王小蒙变化好大,丰乳肥臀的,不再是当年清纯的小姑娘了

南万说娱26
2026-06-02 12:25:07
电影《1941》演员阵容公开 成龙李连杰甄子丹首次同框

电影《1941》演员阵容公开 成龙李连杰甄子丹首次同框

3DM游戏
2026-06-01 21:58:07
广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

醉卧浮生
2026-06-02 21:32:14
《主角》今晚大结局:忆秦娥重回舞台,刘忆病被治好,米兰出狱

《主角》今晚大结局:忆秦娥重回舞台,刘忆病被治好,米兰出狱

临云史策
2026-06-03 11:12:20
奚梦瑶、何猷君豪门婚礼:100克拉Graff、Dior高定婚纱、PP钻表!

奚梦瑶、何猷君豪门婚礼:100克拉Graff、Dior高定婚纱、PP钻表!

商务范
2026-06-02 14:57:48
2026-06-03 12:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66897关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

头条要闻

女生被"卖"大18岁男子生娃后领证 逃离后再婚生子获刑

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

瑞虎8 PLUS/PRO非凡冠军上市 限时10.19万元起售

态度原创

家居
教育
房产
健康
军事航空

家居要闻

江畔轻奢 观云大宅

教育要闻

1933年齐鲁大学自招考试,数学之部第一题,还是简单的

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

违规干细胞应用,暗藏致命隐患!

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版