网易首页 > 网易号 > 正文 申请入驻

北大ProAct:首个双系统「主动社交」智能体,不做提线木偶

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有的具身智能大多是「你说我做」的被动响应者。如何让机器人像人类一样拥有「主动性」?北京大学VCL实验室针对当前具身智能体「被动响应」的局限,提出了一个基于「双系统」架构的主动社交智能体框架ProAct,模仿人类「快思考」与「慢思考」的认知机制,使机器人不仅能够进行流畅自然的对话,还能基于情境理解主动发起互动,从而具备真正的「社交心智」。

在与机器人交互时,你是否常有这种感觉:如果你不说话,它就永远沉默;如果你不发指令,它就「呆若木鸡」。

这是因为目前的交互式系统绝大多数都是反应式的,它们被困在一个短暂的时间窗口里,只能根据当前的语音或视觉输入做出反馈,这种机制使得智能体难以基于积累的长期语境来推断意图,更无法发起主动行为。

然而,生活中的人类社交本质上是双向且主动的。

在日常互动中,人们不仅是对他人的话语做出反应,更会运用意向性去预测需求、掌握主动权并在未被请求时采取行动。

例如,当朋友显得犹豫不决时给予鼓励,或在看到空杯子时主动倒水。这种由内部目标驱动而非被动响应外部刺激的「主动性」,是区分真正的伙伴与简单问答机器人的关键。

想在具身智能体上实现这一点,还得解决一个核心矛盾:时间尺度。主动行为需要深思熟虑的推理和长程语境分析,也就是要「慢想」;而实时交互要求极低的延迟,必须「快回」。单一的端到端模型往往难以兼顾二者,因为深度推理会阻塞实时响应,而追求速度则会牺牲行为的合理性和准确性。

受认知科学中双重加工理论的启发,北京大学研究团队提出了一种双系统架构ProAct,核心思路在于快慢分离, 即将即时的反应与慢速的推理分离,使得ProAct兼具响应速度与主动的深度社交能力。


论文地址:https://arxiv.org/abs/2602.14048

项目主页:https://proactrobot.github.io/

其中,行为系统(Behavioral System)作为「快系统」,负责维持高频、低延迟的多模态交互流;认知系统(Cognitive System)作为「慢系统」,配备记忆与推理模块,负责长程推理并生成高层主动意图。


图1. ProAct 双系统框架概览。(a) 系统架构整合了快速的行为系统与慢速的认知系统;(b) 实时交互中,智能体在用户离开时主动发起挽留与提醒。

为了弥合两者的时间差,ProAct进一步提出了一种基于流匹配(Flow Matching)的流式生成模型,支持通过 ControlNet 异步注入语义意图,这样一来,机器人在保持流畅交互的同时,也能无缝地从「被动反应」切换到「主动出击」。

文章的技术贡献主要体现在以下三点:

  1. 提出了一种用于具身社交智能体的双系统架构,成功将实时反应与语境驱动的主动行为融为一体。

  2. 提出一种基于流匹配的流式生成模型,支持将高层语义意图异步注入实时动作流,实现了反应式与主动式行为的平滑切换。

  3. 将该系统部署于Unitree G1人形机器人,在真实世界中验证了其主动交互的有效性。

下方的演示视频可以直观地感受ProAct如何让机器人像人类一样拥有「社交心智」:


视频1. 在生活管家场景中,ProAct 发现用户有急事后停止说话,并主动提醒用户离开时忘记拿书包。


视频2. 在情感支持场景中,ProAct 检测到用户剧烈的情绪波动,主动询问缘由并安慰用户。


视频3. 在寻找物品场景中,ProAct在用户寻找物品时,回忆起用户之前放置药品柜的经过,主动提醒用户药瓶放在了哪里。

方法简介

ProAct采用双系统并行运行的机制:行为系统维持实时交互闭环,认知系统在后台进行周期性推理。

行为系统:流式多模态交互

行为系统充当着「快系统」的角色,负责处理用户音频与视觉流,生成低延迟的语音与动作反馈,由一个流式Omni-LLM和一个流式动作生成器级联而成。

语音方面,系统利用GPT-4o Realtime模型处理用户语音和第一视角图像,实现了支持随时打断的实时对话。动作方面,为了维持具身的「存在感」,动作必须连续且流畅。

为此,ProAct提出了一种基于流匹配的生成模型,具备极高的实时性,首次响应时间与真实社交场景中的人类相当。通过「重叠-缓存」机制,ProAct保证每一帧动作的生成时间小于播放时间,并且能完美衔接上一帧的动作,满足实时流式输出的要求。

此外,模型还能同时接收双方的语音流进行双人交互建模,这让机器人不仅在说话时有手势,在倾听时也能有自然的身体晃动等反馈。


图2. 认知系统架构。(a) 增量式多模态输入;(b) 上下文编码器与行为规划器并行工作;(c) 通过不同通道注入行为计划。

认知系统:社会语境推理

认知系统作为「慢系统」,通过一个基于 LLM 的智能体框架在后台运行,旨在解决「何时」以及「如何」发起主动行为的问题。如图 2 所示,该系统包含两个关键模块。

首先是上下文编码器 (Context Encoder)。为了防止随着对话进行导致推理延迟增加,该模块负责将累积的对话历史、视觉帧与过往行为压缩进一个「记忆库」。记忆库结构化地存储了用户分析(如心智理论)、情境追踪(如物体位置变化)以及机器人的历史行为。

其次是行为规划器 (Behavior Planner)。该模块依据当前的记忆与感知,进行动机评估。系统会从视觉场景变化、用户意图信号、对话状态、社会规范要求、情感响应需求这五个维度对当前状况进行打分。当任一维度的动机分数超过设定阈值时,系统将触发主动干预。

最终,认知系统的输出将通过三个通道注入行为系统:一是手势意图注入,通过 ControlNet 引导动作生成,例如「挥手打招呼」;二是对话干预,向 Omni-LLM 注入指令以打断对话或引导话题;三是移动控制,调整机器人的站位与朝向,例如「转向用户」。

实验结果与部署

研究者们将ProAct全栈部署在Unitree G1人形机器人上,实验设计了包括「海报讲解」、「讲故事」、「寻找物品」等多个交互场景。


图3. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


视频4. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


图4. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。


视频5. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。

如上述图片所示,在海报讲解任务中,ProAct 展现了超越简单问答的能力:它能主动捕捉路过的用户,建立眼神接触,并在用户表达错误观点时主动打断并纠正。在讲故事场景中,当检测到用户低头玩手机时,机器人并未继续自言自语,而是根据「社会规范」触发器,生成了不满的肢体语言(双手叉腰)并口头提醒用户专心。通过视频结果中的链接可以观看完整的社交视频。

视频6. ProAct的完整demo视频

结论

研究人员提出了一个用于主动具身社交智能体的双系统框架ProAct。

ProAct首先构建了一个支持语义意图注入的流式动作生成模型;在此之上,设计了能够解耦实时反应与长程推理的双系统架构。

可视化结果与用户研究表明,ProAct能够生成语境恰当的主动行为,显著增强了人机交互的自然度与参与感 。

尽管该方法在提升主动性方面取得了显著进展,仍存在一些局限性。首先,目前的触发机制基于固定频率与阈值,可能会错过最合适的干预机会 ;其次,当前系统主要依赖云端大模型,其网络延迟(约1-2秒)在一定程度上限制了对极速突发事件的响应能力 。未来研究者们将致力于端到端多模态模型的本地化部署与自适应触发策略的研究。

参考资料:

https://arxiv.org/abs/2602.14048

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:40%的消费者希望中国品牌汽车进入美国市场

外媒:40%的消费者希望中国品牌汽车进入美国市场

环球网资讯
2026-03-24 13:45:12
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
米切尔28分6板4助 NBA骑士103-120热火 诺曼-鲍威尔19分

米切尔28分6板4助 NBA骑士103-120热火 诺曼-鲍威尔19分

环球体坛啄木鸟
2026-03-26 21:22:20
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
匈牙利外长:即日起逐步停止向乌克兰输送天然气

匈牙利外长:即日起逐步停止向乌克兰输送天然气

财联社
2026-03-26 00:09:09
CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

北纬的咖啡豆
2026-03-26 20:24:16
WCBA季后赛:张茹三大国手对决,35分惨败国手6中0,外援16中2

WCBA季后赛:张茹三大国手对决,35分惨败国手6中0,外援16中2

体娱荒原
2026-03-26 21:27:54
巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

巨石强森壮汉穿假体演半神,这半遮半掩的曲线,谁能顶得住?

娱乐领航家
2026-03-26 20:00:03
沪指失守3900点,跌近0.9%

沪指失守3900点,跌近0.9%

每日经济新闻
2026-03-26 13:14:13
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

出大事了,特朗普通报全球,美头号敌人已亮相,担心的事即将发生

策略述
2026-03-26 13:45:17
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
CBA常规赛第30轮 上海男篮客场112-80大胜山西 李弘权27分

CBA常规赛第30轮 上海男篮客场112-80大胜山西 李弘权27分

环球体坛啄木鸟
2026-03-26 21:26:35
被美国点名后,巴基斯坦意识到了现实的残酷:不可能在中美间骑墙

被美国点名后,巴基斯坦意识到了现实的残酷:不可能在中美间骑墙

鸢飞九天
2026-03-26 20:21:07
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

3.73-1.79!国足传来好消息,2-1爆冷世界杯鱼腩队?比赛时间如下

侃球熊弟
2026-03-26 21:09:11
国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

国民党大乱!马英九紧急发声、与郑丽文决裂?萧旭岑恐遭牢狱之灾

沧海一书客
2026-03-25 12:07:49
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

梦史
2026-03-26 19:42:17
泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

泪目!全红婵这张红金海报藏深意:从湛江渔村到全球代言人

TVB的四小花
2026-03-26 12:18:20
2026-03-26 21:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
手机
艺术
亲子

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

上新|| 她们说,找到了自己的人生裙子!

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

艺术要闻

哪一座桥不是风景?

亲子要闻

你好,我是馒头,快开门!

无障碍浏览 进入关怀版