香港大学推出TokenHSI：让虚拟人物一样熟练地与环境互动|实验|计算机|tokenhsi

分享至

这项由香港大学计算机科学系的潘亮教授团队领导的突破性研究发表于2025年4月，论文题为《TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization》。研究团队还包括来自上海AI实验室、东南大学、Feeling AI等机构的研究人员。感兴趣的读者可以通过项目主页https://liangpan99.github.io/TokenHSI获取更多详细信息。

想象一下，如果有一天你打开电脑游戏或者观看动画电影时，发现里面的虚拟角色不再像木偶一样僵硬地重复固定动作，而是能够像真人一样灵活自如地坐下、爬上高台、搬运物体，甚至同时完成多项复杂任务。这正是香港大学研究团队最新开发的TokenHSI系统所实现的革命性突破。

传统的虚拟角色控制系统就像是专门训练的单项运动员——一个系统只能让角色学会坐椅子，另一个系统只能让角色搬箱子，还有一个系统只能让角色爬梯子。如果你想让角色一边搬着箱子一边坐到椅子上，就需要从头开始训练一个全新的系统，这个过程既耗时又复杂。更糟糕的是，这些系统往往只能在特定环境下工作——稍微改变椅子的形状或者楼梯的高度，整个系统就可能失效。

TokenHSI的诞生改变了这一切。这个系统就像是培养了一个真正的"多面手"，它能够在单一的智能框架内掌握坐立、攀爬、搬运、路径跟踪等多种基础技能，更重要的是，它还能灵活地将这些技能组合起来，应对各种复杂的现实场景。

一、TokenHSI的核心创新：把复杂技能变成可组合的"积木"

TokenHSI最巧妙的地方在于它采用了一种全新的"任务符号化"策略。可以把这个过程想象成制作乐高积木的过程。传统方法就像是为每种搭建需求都制作一套完全不同的积木，而TokenHSI则是创造了一套标准化的"万能积木"系统。

在这个系统中，研究团队首先创建了一个叫做"本体感知符号化器"的核心组件，它专门负责理解和处理虚拟角色的身体状态信息，比如每个关节的位置、速度、角度等等。这就像是给虚拟角色装上了一套精密的身体感应系统，让它能够随时了解自己的姿态和运动状态。

接下来，针对每种具体任务，系统会创建对应的"任务符号化器"。坐椅子任务有自己的符号化器，搬箱子任务有自己的符号化器，爬梯子任务也有自己的符号化器。每个任务符号化器就像是一本专门的"操作手册"，详细记录着完成该任务所需的环境信息和目标要求。

最关键的创新在于，TokenHSI使用了一种叫做"掩码机制"的巧妙方法来协调这些不同的符号化器。这个机制就像是一个智能的任务调度员，能够根据当前需要执行的任务，自动选择相关的符号化器进行组合，同时屏蔽掉不相关的信息。当角色需要一边搬箱子一边坐椅子时，系统就会同时激活搬运任务和坐立任务的符号化器，让它们协同工作。

二、多技能统一学习：打造真正的"全能选手"

TokenHSI的训练过程就像是培养一个优秀的杂技演员。研究团队首先让系统掌握四项基础技能：路径跟踪（让角色能够沿着指定路线行走）、坐立交互（让角色能够准确地坐到各种椅子上）、攀爬技能（让角色能够爬上不同高度的平台）以及物体搬运（让角色能够抓取和移动各种物品）。

在传统方法中，每项技能都需要单独训练一个专门的控制器，就像是培养四个不同专业的运动员。而TokenHSI采用了多任务联合训练的策略，在同一个智能网络中同时学习所有技能。这种方法的巧妙之处在于，不同技能之间可以相互借鉴和强化。比如，在学习坐立技能时掌握的平衡控制经验，同样可以帮助系统更好地完成攀爬任务。

研究团队设计了一个巧妙的训练环境，系统会随机接受不同类型的任务指令。在某一时刻，它可能需要让角色沿着弯曲的路径行走；下一时刻，它可能需要让角色爬上一个高台；再下一时刻，它又需要让角色搬运一个箱子到指定位置。通过这种变化丰富的训练方式，系统逐渐学会了在不同任务之间灵活切换，并且能够充分利用共享的身体控制经验。

更重要的是，由于所有技能都共享同一个本体感知符号化器，系统能够建立起统一的身体控制基础。这就像是一个优秀的运动员，无论是打篮球、踢足球还是游泳，都能够充分利用自己对身体协调性的理解。

三、灵活适应新挑战：从基础技能到复杂应用

TokenHSI真正令人惊叹的能力在于它的适应性。一旦掌握了基础技能，系统就能够通过相对简单的"策略适应"过程来应对各种新的挑战，而不需要从头开始重新训练。

在技能组合方面，TokenHSI展现出了令人印象深刻的能力。当需要让角色完成"一边搬箱子一边坐椅子"这样的复杂任务时，系统会智能地重用之前学会的搬运和坐立技能。研究团队只需要添加一个新的任务符号化器来描述这种组合任务的具体要求，然后通过相对少量的训练就能让系统掌握这种复杂行为。

在物体形状变化适应方面，TokenHSI同样表现出色。最初，系统是通过搬运方形箱子来学习搬运技能的。但当环境中的箱子被替换成椅子、桌子等不规则物体时，系统只需要对相应的任务符号化器进行微调，就能够成功适应新的物体形状。这种适应过程就像是一个有经验的搬家工人，即使面对从未见过的家具，也能够快速判断如何安全有效地搬运它们。

地形变化适应是另一个重要的应用场景。TokenHSI最初是在平坦地面上学习各种技能的，但现实世界中的地形往往更加复杂。当需要让角色在楼梯、斜坡等不平整地形上执行任务时，系统会引入一个专门的"高度感知符号化器"来处理地形信息。这个新组件就像是给角色装上了地形雷达，让它能够感知和适应复杂的地面环境。

四、长期任务执行：编排复杂的"动作剧本"

在现实应用中，往往需要角色执行一系列连续的复杂任务。TokenHSI在这方面也展现出了强大的能力。研究团队设计了一个包含多个步骤的长期任务：角色首先需要沿着指定路径行走到达一个箱子旁边，然后搬起箱子并将其运送到一个高台附近，接着爬上箱子再攀登到高台上，最后坐到高台上的椅子里。

这个任务的复杂性在于每个步骤都有明确的前后依赖关系，而且每个步骤的成功执行都会影响后续步骤的起始条件。TokenHSI通过一个智能的状态机制来协调这些复杂的任务序列。这个机制就像是一个经验丰富的导演，能够根据当前的场景状态自动选择下一个应该执行的动作，并确保各个技能之间的平滑过渡。

更令人惊喜的是，TokenHSI在执行长期任务时还展现出了很强的环境感知和避障能力。当角色需要在复杂的三维环境中移动时，系统能够自动规避各种障碍物，选择合适的行进路线，并在必要时调整动作策略以适应环境变化。

五、技术突破的深层意义：重新定义虚拟角色控制

TokenHSI的技术创新不仅仅是在现有方法基础上的改进，而是代表了虚拟角色控制领域的一次范式转变。传统的"一任务一模型"approach就像是工业革命前的手工作坊模式，每种产品都需要专门的工具和工艺流程。而TokenHSI则开创了类似现代工业生产线的模式，通过标准化的模块和灵活的组装方式，能够高效地生产出各种不同的"产品"。

这种模块化设计的优势是多方面的。从计算效率角度来看，TokenHSI避免了为每个新任务都训练专门模型的巨大计算开销。从维护角度来看，当需要改进某个特定技能时，开发者只需要更新相应的任务符号化器，而不需要重新训练整个系统。从扩展性角度来看，添加新技能变得非常简单，就像是在现有的积木套装中增加新的组件一样。

研究团队通过大量的对比实验证明了TokenHSI的优越性。在基础技能测试中，TokenHSI的成功率普遍高于专门训练的单任务模型。在技能组合任务中，TokenHSI显著优于现有的最先进方法。特别是在最具挑战性的"攀爬+搬运"组合任务中，传统方法的成功率只有26.8%到68.3%，而TokenHSI达到了99.2%的惊人成功率。

六、实验验证：数据说话的说服力

为了验证TokenHSI的有效性，研究团队设计了一系列严格的实验。这些实验就像是对一个新产品进行全方位的质量检测，从基础功能到复杂应用场景，每个方面都经过了仔细的测试和评估。

在基础技能评估中，研究团队比较了TokenHSI与传统专项训练模型的性能。结果显示，TokenHSI在所有四项基础技能上都达到或超过了专项模型的表现。在路径跟踪任务中，TokenHSI的成功率达到99.7%，略高于专项模型的98.7%。在坐立任务中，TokenHSI的成功率为99.6%，同样超过了专项模型的98.2%。最令人印象深刻的是搬运任务，TokenHSI的成功率达到92.2%，显著高于专项模型的83.1%。

这些结果证明了多任务联合学习不仅没有影响单项技能的表现，反而通过技能间的相互强化提升了整体性能。这就像是一个接受过全面训练的运动员，虽然同时练习多个项目，但在每个项目上的表现都可能超过只专注单项的运动员。

在策略适应实验中，TokenHSI展现出了令人瞩目的学习效率。当需要适应新的物体形状时，TokenHSI只需要传统重新训练方法十分之一的训练时间就能达到相同的性能水平。当需要适应新的地形环境时，TokenHSI同样表现出了卓越的适应速度和稳定性。

七、技术细节：精巧设计的内在逻辑

TokenHSI的成功离不开其精心设计的技术架构。整个系统采用了当前最先进的Transformer神经网络作为核心，这种网络结构特别擅长处理序列信息和注意力分配，非常适合处理复杂的多任务场景。

本体感知符号化器是整个系统的"神经中枢"，它将角色的222维身体状态信息压缩成64维的标准化特征。这个过程就像是将复杂的生理信号转换成计算机能够理解和处理的数字语言。任务符号化器则负责将各种不同的任务要求转换成相同维度的特征表示，确保不同任务能够在统一的框架内进行处理。

掩码机制的设计尤其巧妙。它使用简单的二进制标识来控制哪些任务符号化器应该被激活，哪些应该被忽略。这种设计既简单又高效，避免了复杂的任务调度逻辑，同时确保了系统的响应速度和稳定性。

在策略适应阶段，TokenHSI采用了一种叫做"适配器"的轻量级扩展机制。这些适配器就像是系统的"插件"，可以在不影响核心功能的情况下添加新的能力。这种设计确保了系统的稳定性，同时大大降低了扩展新功能所需的计算资源和训练时间。

八、应用前景：虚拟世界的无限可能

TokenHSI的应用前景极其广阔，几乎涵盖了所有需要虚拟角色的领域。在游戏产业中，这项技术能够让非玩家角色(NPC)表现得更加智能和自然。玩家可能会发现，游戏中的虚拟角色不再是按照预设脚本重复固定动作的木偶，而是能够根据环境变化和任务需求灵活调整行为的智能体。

在电影和动画制作领域，TokenHSI能够大大简化角色动画的制作流程。传统的动画制作需要动画师为每个动作场景精心设计和调整，这是一个极其耗时的过程。有了TokenHSI，制作团队只需要提供高层次的任务描述，系统就能自动生成相应的角色动作，并且这些动作会自然地适应具体的场景环境。

在虚拟现实和增强现实应用中，TokenHSI能够创造更加沉浸式的体验。用户可能会在虚拟环境中遇到能够进行复杂交互的虚拟角色，这些角色能够理解用户的意图，并做出相应的回应。这种技术对于虚拟培训、教育模拟等应用具有重要意义。

在机器人控制领域，TokenHSI的理念也具有重要的借鉴价值。虽然当前的研究主要关注虚拟环境中的角色控制，但其多任务学习和技能组合的方法可能为实体机器人的控制提供新的思路。

九、挑战与局限：技术发展的现实考量

尽管TokenHSI取得了重要突破，但研究团队也坦诚地指出了当前技术的一些局限性。最主要的挑战在于奖励函数的设计。目前，为了让系统学会每项技能，研究人员仍然需要手工设计复杂的奖励函数来指导学习过程。这个过程就像是为一个学生制定详细的学习计划和评分标准，需要大量的专业知识和反复调试。

在长期任务执行方面，当前的系统仍然需要人工设计的状态机来协调不同技能之间的切换。这意味着系统还不能完全自主地规划和执行复杂的长期任务，仍然需要一定程度的人工指导。

另一个技术挑战是计算资源的需求。虽然TokenHSI比传统方法更加高效，但训练和运行这样复杂的系统仍然需要大量的计算资源。这可能会限制其在资源受限环境中的应用。

系统的泛化能力虽然已经得到了显著提升，但在面对与训练环境差异较大的新场景时，仍然可能需要额外的适应训练。这就像是一个在特定环境中训练的运动员，到了全新的环境中可能需要一段时间的适应。

十、未来发展方向：技术演进的可能路径

TokenHSI的成功为虚拟角色控制技术的未来发展指明了方向。研究团队提出了几个重要的发展方向，这些方向可能会进一步推动该领域的进步。

首先是自动化奖励函数设计。未来的研究可能会探索使用大型语言模型或者从人类演示中学习来自动生成奖励函数，这将大大降低系统开发的门槛，使得非专业人员也能够训练复杂的虚拟角色控制系统。

其次是更加智能的长期任务规划。研究团队设想开发能够自主理解高层次任务描述并自动分解成具体执行步骤的系统。这种系统可能会结合符号推理和神经网络的优势，实现真正的自主任务规划和执行。

在多角色协作方面，未来的系统可能会扩展到多个虚拟角色之间的协调合作。这将为创建更加复杂和真实的虚拟社会场景提供技术基础。

在实体机器人应用方面，研究团队也在探索将TokenHSI的方法迁移到真实机器人控制的可能性。这种迁移可能会为机器人技能学习和多任务执行提供新的解决方案。

说到底，TokenHSI代表的不仅仅是一个技术突破，更是对人工智能如何学习和应用复杂技能的深刻思考。就像人类能够灵活地将各种基本技能组合起来应对复杂情况一样，TokenHSI让虚拟角色也具备了这种能力。这种技术不仅会改变游戏和娱乐产业，更可能为机器人技术、虚拟现实、人工智能等领域的发展带来深远影响。

虽然目前还存在一些技术挑战和局限性，但TokenHSI已经为我们展示了一个令人兴奋的未来图景：在这个未来中，虚拟角色将变得更加智能、灵活和自然，它们能够像真实的生物一样适应环境、学习技能并完成复杂任务。对于那些对这项技术感兴趣的读者，可以通过研究团队提供的项目主页了解更多技术细节，并期待在不久的将来看到这项技术在各种实际应用中的精彩表现。

Q&A

Q1：TokenHSI是什么？它能解决什么问题？ A：TokenHSI是香港大学开发的虚拟角色控制系统，它能让虚拟角色在单一智能框架内掌握多种技能（如坐立、搬运、攀爬等），并灵活组合这些技能完成复杂任务。它解决了传统方法中每个任务都需要单独训练专门控制器的问题，大大提高了开发效率和角色行为的自然度。

Q2：TokenHSI会不会取代传统的角色动画制作？ A：不会完全取代，但会显著改变制作流程。TokenHSI主要用于生成基于物理规律的角色交互行为，传统动画制作在艺术表现、情感传达等方面仍有独特价值。未来更可能是两种技术的结合应用，TokenHSI负责基础动作生成，传统技术负责艺术加工。

Q3：普通人能使用TokenHSI技术吗？有什么要求？ A：目前TokenHSI还是研究阶段的技术，需要专业的计算机图形学知识和大量计算资源。普通用户暂时无法直接使用，但未来可能会集成到游戏引擎、动画软件或VR平台中，让普通用户通过友好界面间接使用这项技术。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.