《现代电影技术》｜陈焱松等：空间智能技术在VR电影空间映射中的应用探索|算法|空间智能技术在vr电影空间映射中的应用探索

分享至

本文刊发于《现代电影技术》2025年第2期

专家点评

人工智能（AI）的第三次浪潮正以空间智能（Spatial Intelligence）为核心掀起新一轮变革。空间智能即AI在三维空间中感知、推理和行动的能力，其核心在于赋予机器理解物理世界的深度、距离、方位及动态关系，从而在复杂环境中实现自主决策。VR电影作为空间智能技术的重要应用场景，其借助计算机系统及传感器技术生成三维环境，创造出一种崭新的人机交互方式，模拟人的视觉、听觉、触觉等感官功能，使观众沉浸在虚拟境界中。VR电影的全景式立体成像、环绕音响和人景交互，彻底冲破了传统影院的维度，使观众在视觉和听觉上完全浸润于影片内容，为观众带来崭新的沉浸式交互式观影体验。随着空间智能技术的发展与应用，AI技术与VR技术的耦合程度越来越深，未来VR电影将通过复杂运动模拟、多模态数据融合和智能体动态叙事等技术的综合应用，推动其走向更加交互、更加沉浸和更富个性化的影像体验，并持续推动叙事方式和交互模式的革新。《空间智能技术在VR电影空间映射中的应用探索》一文针对VR电影创制中面临的如何在虚拟空间中实现对现实空间的动态映射这一困境，基于空间定位、空间认知和空间涌现的逻辑层级，从实时追踪、多模态映射、三维生成和空间推理等维度，构建VR电影的空间智能技术路径，为VR电影中虚拟空间与现实空间的复杂交互问题提供了解决思路，对相关研究人员具有较高的参考价值。

——潘志庚

教授

南京信息工程大学人工智能学院院长

作者简介

陈焱松

北京师范大学艺术与传媒学院数字媒体系助理研究员、励耘博士后，主要研究方向：数字影像技术与艺术、AI生成艺术。

北京师范大学艺术与传媒学院硕士研究生在读，主要研究方向：数字媒体。

蔡若彤

摘要

伴随人工智能技术的持续发展迭代，以空间智能为核心的技术集群逐渐改变虚拟现实（VR）电影中对于现实空间和虚拟空间的双重认知方式，使VR电影创制进入全新阶段。为解决VR电影创制面临的运动映射、身体映射、动态交互映射等空间困境，本文通过对空间智能技术与VR电影间的关系梳理，基于空间定位技术、空间认知技术与空间涌现技术的逻辑层级，从实时追踪技术、多模态映射技术、三维生成技术、空间推理技术等维度，初步构建VR电影的空间智能技术路径，一定程度上解决了VR电影中虚拟空间与现实空间的复杂交互问题，有助于持续推动VR电影创制技术在空间映射中的革新，构筑一个更富沉浸性的虚拟空间环境。

关键词

空间智能；VR电影；空间映射；空间涌现；智能体（AI Agent）

1 引言

2024年4月，斯坦福大学教授李飞飞在温哥华TED大会上首次向公众详细阐释了空间智能（Spatial Intelligence）的相关概念[1]。这一概念最初来源于心理学，由霍华德·加德纳（Howard Gardner）在其著作《心智框架》（Frames of Mind: The Theory of Multiple Intelligences, 1983）中的多元智能理论[2]所提出，主要指人类理解和利用空间关系的能力，包括空间感知、空间推理、空间表征和空间想象等。此后在人工智能技术与心理学的耦合下，结合计算机视觉（CV）、图像处理、深度感知、空间映射以及机器学习（ML）和神经网络等技术，赋予机器感知、理解和导航物理世界的能力。与以往人工智能技术主要处理二维图像（包含静态和动态）不同，空间智能相关概念及其支撑技术将人工智能技术带入新的深水区，逐步发展出能够解释和推理三维空间的算法能力，迈向对于动态实时环境的深度感知与交互。

空间智能的认知过程涉及对现实世界与抽象世界中的视觉信息进行理解，以及对信息进行想象的能力，其技术突破不仅推动了智能导航、自动驾驶和虚拟现实（VR）等领域的迅速发展，还为从科学研究到艺术创作的广泛应用场景提供了更多可能。尤其对VR电影而言，深度感知和空间映射技术为其提供了高度逼真的场景建模能力，机器学习则提升了VR电影系统实时优化内容生成与交互方式的能力。可以说，以空间智能为核心的系列技术逐渐改变了VR电影中对于现实空间和虚拟空间的双重认知方式，同时为各类媒介与技术的融合带来深远影响。正如当前的电影概念不再被简单定义为图像与声音的组合，不再局限于传统线性叙事或非线性叙事，而是成为一个更具开放属性、更富多维动态、更能复杂交互的涌现性影像系统[3]。VR电影的表达形式也伴随技术发展不断迭代，通过整合实时空间计算、人工智能及多模态交互技术，全面步入空间智能的新阶段。

2 VR电影的空间困境

虚拟现实电影作为一种新兴媒介，其核心在于构建一个独特且具备影像吸引力的数字世界，使观众能产生身临其境的感受。然而，这种沉浸感的实现并非简单依赖于VR媒介本身的技术特性，而是建立在虚拟空间与现实空间之间复杂的交互技术机制之上。从认知科学角度来看，沉浸感并非单纯来源于虚拟空间所提供的构想属性，而是需建立在现实空间感知与大脑映射的和谐统一基础之上。相关研究表明，无论是通过触觉增强模拟物理触感以提升虚拟环境中的真实感[4]，还是通过虚拟空间与现实空间的动态对齐以减轻认知负担[5]，虚拟对象与物理对象的双向交互能够实现真实行为映射，进而显著增强沉浸感。

因此，当前VR电影创制中面临的重要空间困境在于如何在虚拟空间中实现对现实空间的动态映射，即当VR创造出完全虚拟的环境时，观众的真实身体仍存在于现实世界中，如何弥合这种虚拟与现实、具身性与意向性之间的裂隙。从本质来看，VR电影的空间困境实际是一个系统性的问题，涉及计算机科学、认知科学、电影学等多重领域，当前空间智能技术能够从空间定位、空间认知、空间涌现等方面对VR电影空间进行优化设计，使观众能够清晰地认识“我”在虚拟情境中的位置、角色及规则，解决“观众是谁、观众在哪、观众要到哪里去”等问题。

2.1 空间定位技术与运动映射

运动映射是指将观众在现实世界中的运动行为（如行走、旋转、跳跃）映射到虚拟环境中，使虚拟角色运动、视角等保持与真实运动一致。在VR电影的空间移动中，由于VR定位和追踪技术的限制，观众常被限制为一个静态的观察者，对于360°影像进行全景观看，缺少观众在这一空间中的位置感知与运动映射。此后，部分VR电影采用“瞬移式”交互，通过手柄点击完成位置跳转，以实现在VR空间中的大幅度移动。这样设计虽可解决虚拟空间的运动问题，但缺乏现实运动的连续性，可能降低沉浸感，同时也容易引发观众的眩晕感或晕动症[6]，从而影响观众的体验。因此，静态式观察、程序化交互都限制了观众身体在VR空间中的实际移动，从而降低了观众的运动映射感。

空间定位技术集群引入VR电影后，能将观众的真实运动与在虚拟空间中的运动进行精准映射，实现观众与虚拟世界间的空间一致性，被广泛用于解决“观众在哪”的问题，极大地推动观众在场感的塑造。一般而言，空间定位技术涉及感知空间中的物体位置、自己的运动轨迹以及相对于周围环境的关系。在基于人体的运动映射中，涉及旋转、跳跃等复杂肢体运动的检测，对精准动作捕捉技术提出了更高要求。然而，这种高精度追踪往往需要额外的硬件支持，比如多个传感器、摄像头、惯性测量单元（IMU）或外骨骼设备。这会导致观众需佩戴较笨重的设备，可能也会限制观众的运动范围，影响自然的跳跃或旋转动作。

2.2 空间认知技术与身体映射

身体映射是指将观众在现实世界中的身体感知（如视觉、听觉、触觉等感觉）行为映射到虚拟环境中，使虚拟角色的感知过程与观众的真实感知类似。在VR技术发展的初期，身体映射的设计和实现能力有限，尤其感官一致性是身体映射的难题之一。以触觉设备为例，早期触觉设备的功能多采用简单的振动反馈，主要用于模拟单一的触碰事件或物体边缘的感知，缺乏对物体纹理、形状和动态变化的精细模拟，使观众的触觉体验片面而生硬。而在触觉之外的视觉、听觉等其他感官，也常会出现感知不同步的问题。例如，观众在虚拟环境中抓取物体时，视觉上物体已移动，但触觉反馈可能延迟或完全缺失。这种感官不协调削弱了观众的沉浸感，甚至引发不适[7]。

当空间定位技术解决了“观众在哪”的问题之后，空间认知技术需解决“观众是谁”的问题。空间认知技术集群引入VR电影可增强观众对虚拟世界空间结构、虚拟物品等之间的理解与感知。通过诸如认知地图映射[8]等技术框架，空间认知技术能够对用户感知模式和认知偏好进行建模，实现虚拟场景的实时生成。例如，根据观众的视线焦点和注意力模式，动态调整虚拟场景中的灯光、色彩或布局，确保观众的注意力集中在关键叙事点上。

2.3 空间涌现技术与动态交互映射

动态交互映射是指将观众在现实世界中的交互逻辑、交互动作映射至动态变化的虚拟环境及虚拟角色之上。以往 VR电影往往是运用单一的交互反馈来表现虚拟环境的动态属性，但虚拟环境并非单一“触发-反馈”的线性世界，而是随着观众行为和叙事进程实时变化的开放世界。然而，构建一个能够动态交互的虚拟空间，不仅需要庞大的数字资产支持，还要依托强大的计算能力，以实现从空间设计到交互响应的完整功能。

当空间定位技术解决了“观众在哪”问题，空间认知技术解决“观众是谁”问题之后，空间涌现技术实际上解决了“观众要到哪里去”的问题。空间涌现技术集群引入VR电影后，通过实时的数据分析与模拟算法，提前预测出虚拟世界中的变化，并生成合适的环境反馈；与此同时，虚拟角色通过实时感知观众行为并生成相应反馈，可使虚拟叙事系统更具沉浸感和交互性。然而，这种高度动态、个性化的叙事反馈对开发者提出了极高的技术要求，尤其是在复杂的交互场景下，如何保持动态空间的一致性和降低复杂性，是一项技术难题。

3 构建VR电影的空间智能技术路径

针对VR电影的空间困境，本文基于空间智能技术集群进行梳理，并从空间定位、空间认知和空间涌现三个维度展开探讨。通过实时追踪技术实现精确的空间定位，借助多模态映射技术优化空间认知，结合三维生成与空间推理技术推动空间涌现。基于此，本文构建了VR电影的空间智能技术路径，为VR电影的空间制作提供了系统性的技术框架（图1）。

图1　构建VR电影的空间智能技术路径

3.1 实时追踪技术完成空间定位与地图生成

在虚拟现实环境中，高精度实时追踪技术是实现沉浸式体验的核心，其可通过追踪观众的头部、手部及全身姿态，定位观众在VR电影场景中的位置和方向，还可根据观众在虚拟环境中自由走动、随机运动和视角动态调整进行自适应变化，将观众的物理运动与虚拟世界进行精准对接，从而保证虚拟环境与现实世界之间的无缝交互。

从技术路线上看，实时追踪技术包含定位（Localization）、建图（Mapping）、同步（Simultaneous）三个逻辑层级。以新近出现的VR SLAM算法为例，VR/AR代表性产品中微软HoloLens、谷歌ProjectTango以及Magic Leap都应用了同步定位与建图（Simultaneous Localization and Mapping, SLAM）技术作为视觉增强手段，SLAM算法生成VR空间地图的过程涉及感知环境、构建地图和优化位姿等多个步骤[9]。

（1）定位，即确定VR头显在真实环境中的具体位置和方向。一方面需感知环境，SLAM在生成VR空间地图时需采集环境信息，可通过深度相机、激光雷达等传感器提供空间内的环境数据，消费级VR设备主要通过RGB摄像头和IMU采集环境数据、几何特征和位置关系。另一方面是特征提取与匹配，SLAM通过分析采集的数据，在深度学习（DL）支持下提取环境中的关键特征点，并进行匹配以实现定位和建图。

（2）建图，即根据环境中的传感器数据，构建环境的动态空间地图。基于传感器数据和特征匹配结果，使用深度信息与位置数据将环境特征转换为三维点云，并通过逐帧叠加生成初步的三维模型，再进行网格化处理，逐步完善VR大空间地图，同时通过算法优化提高地图和定位的精度。

（3）同步，即定位和建图是同步进行的，建图依赖定位的准确性，而定位需基于实时更新的地图。SLAM基于地图建图阶段所输出的三种类型地图，包括三维点云地图（记录空间中每个点的位置和颜色信息）、网格地图（适用于VR系统，提供连续的三角化表面）、语义地图（标注区域功能和物体类别，便于交互设计）。随后，相关地图被导入VR引擎（如Unity或Unreal Engine），结合设备的实时位置和方向，实现用户在虚拟空间中的精准定位与交互[10,11]。

以VR大空间体验《消失的法老》（Horizon of Khufu）为例，整个体验区域超过500平方米，可同时容纳80余名观众在以1∶1比例还原的金字塔内部场景中自由探索，与其他参与者实时交互，这需要实时精准的空间定位、高效的网络同步和低延迟的数据传输技术，以确保多人体验的流畅性和一致性。此后，2024年国内相继推出的VR大空间项目如《巴黎舞会》《永远的巴黎圣母院》《苍兰决》《秦潮觉醒》等都采用了空间定位技术，体验空间达几十到几百平方米不等。SLAM系统的空间支持范围从数十平方米的室内环境到数千平方米的室外场景，随着技术的不断进步，SLAM在更大空间中的应用也在持续拓展。

3.2 多模态映射技术增强空间映射的具身体验

在虚拟现实环境中，感知空间映射是一项关键的设计与技术挑战。从根本上来说，人类感知空间的过程深受海马体映射的影响，诸如Aronov等[12]、Bao等[13]和Killian等[14]的研究表明，海马体不仅可处理空间导航信息，还可结合多种感官输入（如视觉图像、声音频率、气味等），将这些信息嵌入一个由感知特性定义的多维感知空间中。而从技术层面来看，前述对海马体的影响实际上是以多模态映射的技术完成的，尤其是通过多模态感觉的输入（如视觉、听觉、触觉等）构建沉浸式空间体验，帮助观众形成更自然的空间知觉，从而为VR环境中的感知空间映射提供了理论基础。

（1）在视觉模态上，高分辨率图像、动态光影效果和三维深度感知技术，能够增强视觉输入与虚拟空间之间的位置关系，而实时调整视点、焦距和透视投影，可使用户感受到真实的空间深度和物体间的距离关系。

（2）在听觉模态上，基于头相关传递函数（HRTF）的三维音频技术，VR系统能够模拟声音的空间位置及其在环境中的传播特性[15]；在低光照或视觉信息不完整的情况下，空间化听觉可增强观众定向感，通过声音的方向、强度和频率变化来感知物体的远近和方位[16]；此外，动态声音设计还可引导观众的注意力到特定的虚拟场景区域，优化空间探索体验。

（3）在触觉模态上，通过力反馈设备和触觉模拟技术，为观众提供与虚拟物体的直接触感。例如，当用户在虚拟环境中触碰墙壁、拾取物体或感受水流时，触觉设备可实时传递对应的振动、压力或温度信息。这种感知不仅增强了观众的具身体验，还能通过触觉的反馈细节进一步丰富感知空间的层次感。

（4）在其他感官模态上，诸如嗅觉上，通过气味模拟技术，能够将由感受器激活的电信号传递至大脑，并调节大脑功能，包括记忆、想象与情绪等[17]。

正如早期的VR技术大多仅提供沉浸式的视觉体验，受制于有限的物理空间及无法充分发挥的交互技术之间的矛盾，而在沉浸式大空间创制中，观者的身体动作，如脚步行走、奔跑、跳跃等，都能通过触觉和视觉的动态协作映射至虚拟空间，从而生成一种空间知觉与身体运动的真实整合。以VR大空间作品《风起洛阳》为例，灯光爆闪，震动模拟爆炸，风感模拟风雪和下降，温感与气味模拟环境变化等多模态感官刺激与映射，加速了叙事的情绪节奏。综上所述，通过整合视觉、听觉、触觉、嗅觉等多模态感知输入，VR环境能够帮助观众建立一个动态而多维的感知空间。这种感知空间映射不仅提升了观众的沉浸感和存在感，还可优化虚拟叙事与交互体验。但多模态输入的同步性与实时性需要更高效的技术支持，跨模态感知的设计还需深入研究观众的认知特性，如何避免感官过载以优化观众体验也是关键问题之一。

3.3 三维生成技术构建虚拟影像场景

VR电影中的虚拟影像场景综合文本、图像、视频和三维模型等多种媒介形式，是一个融合多种媒介特征的复杂信息场域。其除了算力、资源、网络等基础要求外，往往同时需要算法驱动，来完成快速生成高质量的虚拟场景、动态角色以及环境细节，从而为VR电影创造了可流动、可动态、可涌现的虚拟世界。当前的空间智能技术集群为三维生成技术构建虚拟影像场景提供了多重解决方案。

（1）图像转三维模型的技术集群，包括运用摄影测量（Photogrammetry）、深度映射（Depth Mapping）、基于图像的建模（Image⁃Based Modeling）等方式，以实现将二维图像转换为三维模型。首先，摄影测量通过拍摄多角度的照片来重建三维模型，算法通过识别单张图像中的共视点和特征点，推算出它们在三维空间中的位置，进而重建物体的三维形态，同时为了提高精度，使用多张图片的结合最终构建出完整的三维模型。其次，深度映射则通过为每个像素赋予一个深度值（即从观察点到物体的距离），实现二维图像向三维图像的转换。常见的深度映射方法包括立体视觉技术（Stereo Vision）和结构光（Structured Light）扫描。基于图像的建模技术通过分析单一或多张图像的纹理、形状和光照变化，推断物体的深度和几何特征，最终生成三维模型。这些技术通常依赖于计算机视觉和机器学习算法来识别和匹配图像中的关键特征点，进而推算三维结构。再次，基于图像的建模是将一组照片转化为三维空间的逻辑，一方面它依赖于运动恢复结构（Structure from Motion, SfM）[18]，即一种基于多个二维图像推导三维结构的技术，通过检测图像间的匹配特征点来估算相机的相对位置和姿态以恢复场景中的三维点云或粗略表面模型。另一方面，它依赖于多视图立体视觉（Multi⁃View Stereo, MVS）[19]底层算法，MVS在SfM基础上进一步优化，通过对多个视角图像中的每个像素高精度深度计算，生成更高分辨率的三维模型。两种技术结合显著提高了图像到三维模型的转换精度和效率。

（2）自然语言转化为三维空间的技术集群。密歇根大学的研究人员提出了一个名为VRCopilot的系统，将预先训练的生成式 AI 模型集成至沉浸式创作中，以促进 VR 中的人机共创[20]。VRCopilot系统利用自然语言处理（NLP）技术将人类语言描述转化为三维空间布局。例如，用户可通过语音命令描述“创建一把椅子”，系统会基于AI模型生成多个供用户选择的模型线框，用户随后可通过语音命令进一步优化设计，或在虚拟地板使用手柄调整线框细节，最后将线框变成具体的椅子。目前的生成系统还处于需多模态规范生成内容的阶段，三维影像生成AI技术仍需更进一步提升对人类自然语言描述的理解能力，以识别空间概念、物体关系以及布局要求。

（3）以神经辐射场（NeRF）为代表的基于深度学习的三维空间生成方法。其通过神经网络建模场景中每个点的辐射属性，从稀疏的二维图像中重建逼真的三维场景，是完全区别于传统三维模型生成路径的电影空间场景建构新方式。

3.4 空间推理技术模拟复杂运动与路径

空间推理的核心是使模型能够理解并处理关于物体、环境及其相互关系的三维空间信息，尤其是其赋予智能体（如虚拟角色、机器人或其他虚拟对象）理解三维空间环境、识别物体及其相互关系的能力，这不仅包括物体的静态位置和方向，还涵盖了动态场景中的物体运动趋势、路径规划及与环境的交互。在VR电影中，智能体（AI Agent）的行为模拟与运动路径生成是增强沉浸感和交互性的关键因素之一，虚拟角色通常需在复杂的三维环境中自由移动，并与其他物体或角色进行交互。整体而言，空间推理技术通过深度学习、强化学习以及视觉-语言模型的结合，能够实时生成合理的运动轨迹和行为路径。

（1）大模型空间语义推理。大语言模型不仅需识别图像或视频中的物体，还需基于语言指令或语境描述推断物体的空间关系，如位置、方向、距离等。在动态场景中，模型需进一步理解物体的运动趋势、预测未来位置，并结合时间序列信息进行逻辑推理，为虚拟场景中的复杂行为生成提供了可能性。在这些能力的基础上，空间技术可进一步融合视觉信息与语言模态，通过多模态预训练架构（如CLIP或Flamingo）学习跨模态的语义对齐关系，从而理解诸如“红色苹果在桌子上”这样的描述[21,22]。这种语义理解不仅限于静态认知，还可用于动态推理。例如，模型可基于语句“跟随那个移动的黄色方块”实时生成跟踪路径，展现对场景的动态感知与反应能力。

（2）机器人语言智能交互。目前最大的开源真实机器人数据集Open X⁃Embodiment Dataset[23]，由 DeepMind 和斯坦福大学等机构联合开发，整合了来自全球 34 个实验室的 60 个机器人数据集。基于该数据集，研究人员训练了两个核心模型：一是RT⁃1 (Robotics Transformer 1)[24]，一个基于 Transformer 的高效架构，专为机器人控制设计，能够通过传感器输入和环境状态计算智能体的最佳行动路径。图2展示了RT⁃1模型从多个机器人收集数据时的训练方法，其中，蓝色框内表示机器人在日常任务（如桌面整理或物品分类）中收集视觉数据，红色框表示使用 KUKA 机械臂收集的抓取任务数据。二是RT⁃2 (Robotics Transformer 2)[25]，一种视觉-语言模型，将机器人动作与自然语言相结合，不仅生成运动路径，还能生成与这些动作相关的自然语言描述，提升了模型的理解和交互能力。利用这一模型，研究人员可在3D环境中训练机器人学习基于语言指令的操作（如“把苹果放在布料旁边、上面、罐头和橙子中间”）。在这一训练过程中，机器人不仅能够识别环境中的空间结构，还能动态规划路径，根据实时环境的变化完成复杂任务。这项技术为虚拟角色（如机器人或其他虚拟智能体）提供类似人类的空间认知能力，有助于其在VR电影等复杂环境中自然移动和交互。

图2　RT⁃1模型从多个机器人收集数据时的训练方法[24]

（3）AI驱动的智能体交互。智能体行为驱动技术通过空间推理能力赋予虚拟角色类似人类的行动能力。在虚拟环境中，智能体可根据剧情需求和场景特性生成动态行为。例如，在VR电影或游戏中，角色行为可基于空间推理技术实时调整，如在追逐、探索或战斗场景中，智能体会根据环境变化（如障碍物、目标位置）生成合理的行为路径。智能体不仅依赖于视觉信息来感知空间，还能通过多模态的听觉输入（如指令或对话）驱动行为，使角色的动作更具交互性和情感表达。在多人交互场景中，智能体之间的协同动作更依赖于空间推理技术，确保多个角色间协调并高效完成复杂任务。在VR作品《半衰期：爱莉克斯》（Half⁃Life: Alyx）中，每个智能体都拥有各自的记忆模块，能够将体验玩家与其交互的方式（如选择对话的内容、玩家的情绪反应）进行记忆储存，同时反馈出个性化的对话选项和动态反应。

4 VR电影技术展望

随着人工智能技术与虚拟现实技术的耦合程度越来越深，未来VR电影技术将通过复杂运动模拟、多模态数据融合和智能体动态叙事等技术的综合应用，推动其走向更加交互、更加沉浸和更富个性化的影像体验，并持续推动叙事方式和交互模式的革新。尤其是在虚拟世界复杂性不断增强的当下，如何在保证沉浸感的同时提升交互的连贯性和响应速度，成为VR电影技术发展的关键挑战。

（1）人工智能技术实现对观众运行路径的预测及预渲染。在VR电影空间中，系统可基于观众的历史行为数据（如移动路径、交互频率、动作偏好）和当前的动态空间交互运载环境，建立个性化的观众行为模型，预测观众将要转向、驻足观察某物体或继续前行的可能性，进而基于路径预测的结果，提前渲染观众可能接触到的虚拟场景和反馈机制，从而避免因加载延迟导致的视觉卡顿、反馈错位及沉浸感下降等问题，提升交互连贯性和沉浸感。

（2）动作捕捉技术持续提升模拟复杂运动的能力。传统VR电影的运动映射十分有限，只能停留在相对小幅度的运动范围，如行走、骨骼运动等。而VR大空间则运用了线下大空间娱乐技术(Location⁃Based Entertainment, LBE)，其运动映射体验涉及射击、大规模行走、跳跃等更为复杂的肢体动作，但现有动作捕捉技术存在精准性和实时性等问题，难以支撑具有复杂人物运动的叙事情节，如奔跑、跳跃、旋转等。未来的运动映射技术需更加关注虚拟空间中运动的连续性，通过引入更先进的路径规划算法与场景自适应技术，以实现虚拟角色在空间中的平滑运动。当然，在技术发展的同时相关设备需向小型化和轻量化方向迈进。例如，通过整合可穿戴传感器与嵌入式IMU，减少对外部摄像头的依赖，实现更便捷的动作捕捉。同时，探索无接触的动作识别技术，以显著减少观众的佩戴负担，为自由运动提供更大的可能性。

（3）智能体驱动实现涌现叙事。智能体可结合真实机器人轨迹与虚拟环境，模拟复杂运动模式，学习如何绕过障碍物、与物体或角色交互，或依据虚拟场景特征（如重力、地形）调整行动策略。这使VR电影叙事中的动态行为生成成为可能。进一步而言，智能体可根据剧情实时生成行动路径，并同时生成与这些行为相关的语言描述（如指令或对话）。例如，在追逐、逃跑、探索等场景中，角色的行为可由模型动态生成，使叙事更具交互性和随机性。

5 结语

在空间智能技术的驱动下，VR电影正在逐渐突破传统影像的“空间困境”，构建起与人类感知深度耦合的叙事范式，并通过实时追踪技术、多模态映射技术、三维生成技术及空间推理技术等手段，使虚拟环境能够更加自然地与观众的感知模型对接，从而带来更加真实、连贯的沉浸体验。面向未来，在可持续发展与跨学科协作的深度框架下，VR电影也将不断与人工智能、计算机视觉、空间计算、多模态交互等多领域技术相融合，并真正意义地全面迈入空间智能的新阶段，成为VR电影创制的重要驱动力。尤其是伴随以DeepSeek为代表的AI大模型与多模态交互的底层技术转型，空间智能技术集群不仅使虚拟世界能够“理解”并“适应”观众的凝视逻辑，更在深层次上重构影像创作的本体论框架，为影像艺术的发展注入更多的前沿科技属性。

参考文献

（向下滑动阅读）

[1] LI F. With spatial intelligence, AI will understand the real world[EB/OL]. [2025⁃01⁃03].https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_

understand_the_real_world?subtitle=en.

[2] GARDNER H. Frames of Mind: The Theory of Multiple Intelligences. 10th Anniversary Edition (2nd ed.) [M]. New York: Basic Books, 1983: 179⁃215.

[3] 陈焱松,周雯.人工智能影像叙事的涌现化生成[J].当代电影,2024(05):14⁃20.

[4] HOFFMAN H G. Physically touching virtual objects using tactile augmentation enhances the realism of virtual environments[C]//IEEE Virtual Reality Annual International Symposium. Atlanta, GA, USA: IEEE, 1998:59⁃63.

[5] THOMAS J, ROSENBERG E S. Reactive Alignment of Virtual and Physical Environments Using Redirected Walking[C]//IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Atlanta, GA, USA: IEEE, 2020:317⁃323.

[6] HEESEOK O, WOOKHO S. Cybersickness and Its Severity Arising from Virtual Reality Content: A Comprehensive Study[J]. Sensors (Basel), 2022, 22(4):1314.

[7] CREEM-REGEHR S H, STEFANUCCI J K, BODENHEIMER B. Perceiving distance in virtual reality: theoretical insights from contemporary technologies[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2023, 378.

[8] 吴际,李会杰.认知空间映射及其神经机制[J].心理科学进展,2025,33(01):62⁃76.

[9] KAUR D P, BHARDWAJ V, MALHOTRA P, et al. Vision⁃based intelligent systems: State of the art and perspectives[J]. AIP Conf. Proc., 2024, 3209(1).

[10] NGUYEN T H, YUAN S, XIE L. VR⁃SLAM: A Visual⁃Range Simultaneous Localization and Mapping System using Monocular Camera and Ultra⁃wideband Sensors[EB/OL].[2025⁃01⁃21]. https://arxiv.org/pdf/2303.10903.

[11] LAI T. A Review on Visual⁃SLAM: Advancements from Geometric Modelling to Learning⁃based Semantic Scene Understanding[EB/OL].[2025⁃01⁃21]. https://arxiv.org/pdf/2209.05222.

[12] ARONOV D, NEVERS R, TANK D W. Mapping of a non⁃spatial dimension by the hippocampal⁃entorhinal circuit[J]. Nature, 2017, 543(7647):719⁃722.

[13] BAO X, GJORGIEVA E, SHANAHAN L K, et al. Grid⁃like neural representations support olfactory navigation of a two⁃dimensional odor space[J]. Neuron, 2019, 102(5).

[14] KILLIAN N J, JUTRAS M J, BUFFALO E A. A map of visual space in the primate entorhinal cortex[J]. Nature, 2012, 491(7426):761⁃764.

[15] ZHAO J, ZHANG C. Acoustic rendering and spatialization of 3D sound in virtual environments[C]// Proceedings of the 11th Sound and Music Computing Conference, 2015: 85⁃91.

[16] KUMAR S, GREEN M. The impact of binaural audio cues on spatial perception in virtual reality[J]. Journal of Virtual Reality and Broadcasting, 2020, 17(2): 61⁃73.

[17] 陈焱松,王之纲.嗅觉的景观：“气味电影”的记忆、情感与叙事[J].艺术传播研究, 2022(01):31⁃38.

[18] SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: Exploring photo collections in 3D[C]//ACM SIGGRAPH 2006 Papers. ACM, 2006:835⁃846.

[19] GOESELE M, SCHINDLER K. Multi⁃View Stereo[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):625⁃633.

[20] ZHANG L, PAN J, GETTIG J, et al. VRCopilot: Authoring 3D Layouts with Generative AI Models in VR[EB/OL].(2024⁃08⁃18)[2025⁃01⁃21].https://arxiv.org/pdf/2408.09382.

[21] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748⁃8763.

[22] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few⁃shot learning[J]. Advances in neural information processing systems, 2022, 35: 23716⁃23736.

[23] O'NEILL A, REHMAN A, GUPTA A, et al. Open x⁃embodiment: Robotic learning datasets and rt⁃x models[EB/OL].[2025⁃01⁃21]. https://arxiv.org/pdf/2310.08864.

[24] BROHAN A, BROWN N, CARBAJAL J, et al. Rt⁃1: Robotics transformer for real⁃world control at scale[EB/OL].[2025⁃01⁃21]. https://arxiv.org/pdf/2212.06817.

[25] BROHAN A, BROWN N, CARBAJAL J, et al. Rt⁃2: Vision⁃language⁃action models transfer web knowledge to robotic control[EB/OL].[2025⁃01⁃21]. https://arxiv.org/pdf/2307.15818.

【项目信息】中央高校基本科研业务费专项资金资助项目“智能媒体时代中国文化对外传播叙事策略与效果研究”（123330009）。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.