时间整合作为视觉感知、注意与工作记忆中的适应性过程|字母|持久性|连续性

分享至

视知觉、注意和工作记忆中的时间整合适应性过程

Temporal integration as an adaptive process in visual perception, attention,and working memory

https://www.sciencedirect.com/science/article/pii/S0149763425000417

摘要

我提出，时间整合在视觉感知中是普遍存在的，因为它发挥着一种适应性作用。为支持这一观点，我整合了来自历史上相互分离、且针对不同时间尺度的研究领域的证据。在一个极端上，这涉及在小于四分之一秒的时间间隔内对连续刺激进行检测与辨别。在中间层面，与注意片段相关，考虑的是介于半秒到数秒之间的时间间隔。最后，在另一个极端上，这涉及跨越数秒甚至数分钟时间间隔的高层级概念性事件。在这样的不同时间间隔下，时间整合的性质及其所产生的感知事件显然是不同的。然而，我 nevertheless 提出，时间整合应被理解为一个连续的过程，其服务于一个共同的适应性目标：以最小的代价，最大化有用信息的获取，并根据观察者当前的需求与情境进行定制。从这一视角出发，衍生出若干关于时间整合及其对感知与记忆之影响的研究方向，值得进一步探索。

关键词：时间整合；视觉持久性；图像记忆；注意瞬脱；事件知觉；工作记忆

引言

时间整合，即连续刺激在知觉上被结合为单一事件的过程，并非源于补偿感知迟滞的需要。人类视觉系统完全能够感知节奏极快的输入。近150年前，Exner（1875）观察到，当两个连续刺激呈现于不同位置时，间隔小于20毫秒即可检测到其不连续性（参见 Hirsh 与 Sherrick，1961）；若呈现于同一位置，则该间隔小于50毫秒。Exner 还通过直接向自身眼睛施加电流观察到，即使在60赫兹的振荡频率下，不连续性仍然明显（即他体验到了闪烁）。后续研究采用更为保守的刺激方法，证实了这些估计值（Hecht 与 Shlaer，1936；Hecht 与 Verrijp，1933a）。关于感知不同位置刺激之间顺序（且常常伴随illusory movement，即错觉运动）所需的最小时间间隔，Westheimer 与 McKee（1977）报告了最低的时间估计值：在某些情境下仅为3毫秒。

然而，人们也早已认识到，这些快速的检测速率并非全部事实。Bloch（1885）早已观察到，在极短的刺激持续时间下，恒定强度的光的亮度会随着持续时间增加而增强，仿佛其在知觉上发生了累加。时间summation（累加）的另一个显著案例见于颜色知觉：快速的连续颜色刺激（例如红色与绿色）在20–200毫秒的时间间隔内，并非被分别感知，而是融合为单一颜色（例如黄色）（Burr 与 Morrone，1993；Hecht 与 Verrijp，1933b；Regan 与 Tyler，1971；Smith 等人，1984；Uchikawa 与 Ikeda，1986；Wisowaty，1981）。同样在19世纪，Charpentier（1887）观察到，他无法区分7毫秒与60毫秒光的持续时间差异；平均而言，对于强度不同的类似定时光刺激，其可分辨的持续时间差异约为55毫秒，具体取决于其强度。

此类观察促使人们形成这样一种观点：任何单一刺激都关联着一个最小的加工时段，在此期间，其感觉信息会持续留存、与任何后续或正在进行的刺激发生整合，而只有整合后的结果被知觉到（Efron，1967）。这一时段已被以多种细微差异的方式概念化，例如知觉时刻（perceptual moment）、图像（icon）以及（视觉）持久性（persistence）（Allport，1968；Coltheart，1980；Dixon 与 Di Lollo，1994；Neisser，1967；Sperling，1960；Stroud，1956；C. T. White，1963）。尽管此类延迟间隔在神经机制上是合理的，并且作为对持续时间估计与颜色融合观察结果的解释颇具吸引力，但人们在远更快的速率下仍能体验闪烁与顺序的事实也表明，它作为一种关于感知速度的普适性解释仍显不足——感知的这些方面显然超出了该延迟的解释范围。

那么，我们如何才能调和这些关于我们所能感知的最小刺激持续时间的不同估计值呢？我将论证：它们都是正确的，甚至更长的最小间隔也同样适用，这取决于我们试图完成的知觉任务。重要的是，这些层层递进的整合间隔之所以存在，并非因为我们的知觉系统必然无法处理更短的间隔，而是因为整合后的知觉在感觉信息加工中发挥着一种适应性目的。

在回顾关于时间整合适应性性质的证据之前，我将首先描述我在此语境下所定义的"适应性"。首先，一个适应性的知觉过程应通过最大化有用信息、同时最小化代价来提供效率。"有用信息"指的是一种选择性筛选，即所筛选出的信息能够增强知觉理解，这蕴含着一种生态维度（Gibson，1979）。例如，当一只鸟飞过时，理解其飞行轨迹（这是一个延展的事件）可能比感知其翅膀的瞬间位置（极短暂的事件）对我们更有用。"代价"指的是加工信息所耗费的时间与能量，这在所有情况下都应被最小化，尤其当所述信息最终并无用处时更是如此。此外，代价还包括在知觉加工过程中可能丢失的信息（例如精细的时间细节）。其次，一个适应性过程应能根据当前情境进行调整。例如，一个固定的知觉采样速率或许能在某些情境下满足效率标准，但如果它无法根据环境变化进行调整，那就并非真正具有适应性。一个适应性过程还应具备灵活性，并允许产生可变的结果，具体取决于情境是需要更多的整合，还是更需要分离——因为在某些情况下，后者实际上可能提供最佳的知觉分析。因此，适应性的时间整合应能在多变的情境下展现出效率。

为论证时间整合的适应性解释，我将回顾跨越三个不同时间尺度的时间整合研究，并识别其共性。首先，我将讨论时间整合在其最基础的层面，即发生在最初四分之一秒内的整合。其次，我将呈现注意整合在介于半秒至多数秒时间间隔内的证据。第三，我将回顾跨越数秒至数分钟的事件整合研究。最后，我将提出一个从适应性视角审视时间整合所衍生出的新颖研究方向的纲要。

第一个四分之一秒
2.1. 视觉持久性

自亚里士多德以来，人们就知道单一刺激的视觉印象可以留存，他使用了看向太阳这种不明智的方法，以便观察它引起的后像（Allen, 1926）。在 18 世纪和 19 世纪，当燃烧的煤块在黑暗中挥舞时被感知到的发光轨迹，被报道为同一现象的证明。后来使用机械装置进行了更系统的个人观察，发现颜色和亮度的操作会影响视觉持久性的持续时间（Piéron, 1934; Plateau, 1829）。

这些效应最初被认为是纯粹视网膜性质的。正是 Sperling（1960）以及 Averbach 和 Coriell（1961）进行的一系列实验，将这种视觉持久性与认知信息加工联系了起来。在 Sperling 的实验中，由多个字母（例如 XVNKH）组成的刺激阵列在速示器上显示 50 毫秒，然后通过所谓的部分报告法对这些字母的回忆进行采样，其中某些字母位置被随机探测。Sperling 观察到，当探测在 300 毫秒内给出时，这些部分报告反映出比全部报告更高的准确率。为解释这种部分报告优势，Sperling 提出，刺激引起的感觉似乎会留存，允许信息在刺激物理终止后被读出并进入记忆（例如，Sperling, 1967）。随着这种视觉持久性随时间消退，部分报告优势也随之消退。

与持久性可能构成一种记忆形式的观点一致的是 Townsend（1973）一项研究的结果。Townsend 首先复制了 Averbach 和 Coriell（1961）的字母阵列实验，然后在第二个实验中对其进行了修改，以探测字母的身份，而不是它们的空间位置。在此改变之后，Townsend 观察到在 450 毫秒的延迟内，报告准确率没有可测量的下降。这一发现因此表明，（字母）身份信息被保留，而空间信息丢失，这是一种难以与简单的、低水平的持久性概念相协调的模式。类似地，Phillips（1974）观察到，呈现 1 秒的块状模式的保持，强烈依赖于该刺激与探测模式之间的刺激间间隔（ISI）。观察到高达 100 毫秒 ISI 的高保持率，此后出现急剧下降，降至一个在长达 600 毫秒内保持恒定的水平。因此，尽管这些数据支持短暂持久性的想法，第二种更有限类型的记忆也持续存在。

这些对可被视为时间整合间隔的经验测试只是对其的间接测量，因为它们集中于对一个关键刺激的感知及其产生的留存印象。随着 Eriksen 和 Collins（1967）；（1968）进行的研究，这种情况发生了改变。使用一种创新设计，其中两个连续的点模式，每个看似随机且无意义，可以在知觉上结合形成无意义音节，Eriksen 和 Collins 表明，来自一个刺激的留存印象可以与第二个刺激的印象合并，成为一个整合的知觉。他们还提供了第一个证据，表明持久性并非快速呈现刺激整合中的唯一因素。在他们的研究中，他们独立操纵了两个刺激的亮度，测试来自持久性视角的预测，例如更强的刺激应该更容易与（较弱的）后续刺激整合。这些数据并未证实这些预测，作者得出结论，似乎需要第二种机制来解释数据，即不连续性的检测。

Hogben 和 Di Lollo（1974）进一步完善了 Eriksen 和 Collins（1967）；（1968）采用的实验方法，用完全知识无关的点网格替换了有限的音节集和不规则点模式。在他们的范式任务中，24 个点以随机、不重叠的位置呈现，跨越两个或更多连续的刺激显示，排列在一个不可见的 5 × 5 矩阵上。参与者的任务是找到矩阵中保持空白的那个位置。由于连续的刺激显示实际上不可能被记忆并在心理上比较，且由于没有可用的概念知识（例如字母身份）来引导参与者，找到这个缺失点位置的唯一方法是通过显示的时间整合。通过操纵单个点的时间，Hogben 和 Di Lollo（1974）观察到，整合似乎不仅受到时间流逝的损害（这可以通过持久痕迹的消退来解释），还受到点之间时间间隙检测的损害（参见 Kinnucan 和 Friden，1981），这与 Eriksen 和 Collins（1967）；（1968）基于刺激强度的先前观察非常吻合（但也参见 Di Lollo 和 Wilson，1978）。

从这一范式中，也获得了反对长期存在的观点的第一个证据，该观点认为时间整合发生主要是因为刺激在消失后持续存在。Di Lollo（1977）；（1980）使用了带有修改后刺激序列的点阵列整合任务。24 个点现在呈现为两个连续的刺激显示，每个显示 12 个随机放置的点，其中第一个显示的持续时间被操纵。刺激间间隔（ISI）保持在 10 毫秒恒定，第二个显示的持续时间也保持在 10 毫秒恒定。研究结果表明，当第一个显示的持续时间增加超过 100 毫秒时，整合迅速瓦解。图 1A 展示了一个当代实现，即 MET，是“缺失元素任务”（Akyürek 等人，2010）的简称，图 1B 展示了典型的表现模式。

从经典的持久性观点来看，没有理由假设一个持续时间更长的第一个刺激会持久性更差，并阻碍与后续刺激的整合，然而数据显示的正是如此。Di Lollo（1977）得出结论，持久性并非与刺激的终止相关联，而是与刺激的起始相关联，此时神经过程被启动并持续一段时间，在此期间整合是可能的，并最终消退——无论实际刺激是否仍在呈现。这一解释也与 Efron（1970a, 1970b, 1970c）的发现一致，他发现视觉持久性与刺激持续时间成反比关系，直至 120–240 毫秒；这也与 Wilson（1983）报告的关于起始和终止持久性的更直接测量结果一致。

然而，并非所有旨在测量视觉持久性的任务都显示出刺激持续时间与整合可能性之间的反比关系，其中包括 Sperling（1960）的研究，以及其他使用部分报告法的研究（Long 和 Sakitt，1980；Yeomans 和 Irwin，1985）。在亮度对整合的影响方面也观察到了类似的不一致（Alpern，1954；Di Lollo 和 Bischof，1995；Haber 和 Standing，1969；Johnson 等人，1998；Long 和 Beaton，1982；Long 和 Sakitt，1980；Nisly 和 Wasserman，1989；Roufs，1963；Ueno，1983）。这引发了一些争议（Bowling 和 Lovegrove，1982；Loftus 等人，1992；Long，1980），但最终被采纳的解释是，视觉持久性并非一个单一过程，知觉系统的不同阶段，从视网膜到皮层，都可能起作用（Bowling 和 Lovegrove，1981；Di Lollo 和 Dixon，1988, 1992；Hawkins 和 Shulman，1979；Irwin 和 Brown，1987；Irwin 和 Yeomans，1986；Loftus 和 Hanna，1989；Long 和 McCarthy，1982）。

这一观点由 Coltheart（1980）有力地阐述，他提出视觉持久性由两个子成分组成：可见持久性和信息持久性，后者也被称为图像记忆。可见持久性是两者中持续时间更短、水平更低的（但不像视网膜后像那样低级；Di Lollo 等人，1988），而信息持久性持续时间更长，并与包含有关刺激身份信息的记忆存储相关。这两种持久性对实验操纵的反应也不同，例如刺激复杂性，它影响信息持久性，但不影响可见持久性（Irwin 和 Yeomans，1991）。有趣的是，这两种形式的持久性可能并非具有完全不同的神经位点；甚至更低水平的可见持久性也至少部分源自皮层，正如 Engel（1970）的立体视觉实验所示。

2.2. 时间整合

尽管关于各种形式持久性的研究催生了时间整合的概念，但重要的是要重申，这两者并不完全相同。时间整合是持久性的结果，但一个刺激是否会与后续刺激发生整合，取决于它们各自对应的神经活动之间的（时间）重叠量（Groner 等人，1988；Long 和 O'Saben，1989）。这种活动在不同层面（从空间分析到身份提取）滞后并持久存在的程度各不相同（Allik 和 Kreegipuu，1998），这确实使得整合成为可能（参见 van Rossum 等人，2008），但如图 2 所示，正是大脑中连续刺激之间表征所对应的加工过程及其结果活动的时间重叠¹，决定了它们知觉整合的可能性（Di Lollo 等人，1994；Dixon 和 Di Lollo，1994）。时间重叠假设统一了若干已被提出用以解释时间整合的观点。持久性显然是一个核心原则，但为了计算并跟踪时间重叠，也有必要维持视觉输入的“运行平均值”——这是一个滑动窗口，与滚动知觉时刻（rolling perceptual moment）的概念相当相似（Allport，1968）。计算时间重叠也是（反向的）不连续性检测的一种实现（Eriksen 和 Collins，1967；1968）。

持久性与时间整合之间的间接联系通过掩蔽现象得到了进一步阐明。如果一个后续刺激对其产生掩蔽，刺激的知觉加工和可见持久性可能会被截断（Spalek 和 Di Lollo，2022），这种效应在刺激呈现异步性（SOA）为 50–100 毫秒时最为显著（综述参见 Breitmeyer 和 Ogmen，2000；Enns 和 Di Lollo，2000）。相比之下，有证据表明时间整合并不会被掩蔽所废除。首先，在缺失元素任务及其同类任务中，尽管存在物体替代掩蔽（即刺激之间没有空间重叠的掩蔽），时间整合仍在相当程度上得以保留。其次，甚至有证据表明，即使当连续刺激在空间上重叠（这是发生模式掩蔽的条件）时，也存在时间整合。在快速序列视觉呈现（RSVP）任务中，一系列刺激以典型的 100 毫秒 SOA 连续呈现在屏幕中心，如图 3A 所示。值得关注的是，观察者在此类序列中识别目标（通常为两个）的能力程度，是如何作为它们之间间隔（"lag"，即滞后）的函数而变化的。

图 3B 展示了在三个关键滞后点上通常观察到的表现模式。在滞后 8（Lag 8），观察者在正确识别第一个目标（T1）之后，能够很好地正确识别第二个目标（T2），但在较短的滞后点上，情况发生了显著变化。在滞后 3（或更普遍地说，在低于约半秒的 SOA 处），T2 识别表现非常低，这种现象被称为注意瞬脱（AB；Broadbent 和 Broadbent，1987；Raymond 等人，1992）。AB 本身可能是注意性、情节性整合的结果，将在下文更详细地讨论。在第一个四分之一秒内，即在滞后 1 处，观察者似乎逃脱了 AB，表现良好（关于这种所谓的滞后 1“保留”现象及其发生条件的综述，参见 Visser 等人，1999）。最初被假设为一种纯粹的注意效应（Potter 等人，2002），但后来变得明显的是，时间整合在滞后 1 处发挥着主要作用。在经典的 RSVP 任务中，目标和干扰物通常是字母数字字符，因此时间整合无法在其中直接测量。因此，时间整合的证据最初是间接获得的，源于这一发现：与目标身份错误相反，目标顺序错误在滞后 1 处异常频繁（Akyürek 和 Hommel，2005；Hommel 和 Akyürek，2005）。在被感知为单一事件组成部分的目标之间丢失顺序信息，这在直观上似乎是合理的，即使时间整合不太可能是时间顺序判断中的唯一因素（例如，Akyürek 和 de Jong，2017；Hilkenmeier 等人，2012；Olivers 等人，2011）。通过使用可以以整合形式报告的目标符号（例如，将 / 和 O 报告为 Ø），后来证实了整合后的目标对确实在滞后 1 处被频繁报告为单一单元，如图 3C 所示（Akyürek 等人，2012）。

RSVP 中滞后 1 处的时间整合证据尤为显著，因为它表明即使在存在相当程度掩蔽的情况下，它仍然发生。尽管字母数字字符平均而言并非彼此完美的模式（或元对比）掩蔽，但它们之间仍存在相当程度的空间重叠，且 RSVP 的时间安排与后向掩蔽的最佳间隔相吻合。RSVP 中的时间整合发生在可见持久性应受限制之时，这一事实表明两者之间存在分离。因此可以设想，RSVP 中的时间整合主要是信息持久性的结果。从这一视角来看，值得注意的是，尽管任务指令要求识别两个单独的目标（与之相反），但在滞后 1 处整合后的目标报告仍以相当高的频率出现，这表明在这些试次中整合是不可避免的。

RSVP 中的时间整合也对最终的意识及所产生的知觉的记忆产生若干显著影响。首先，RSVP 中的整合知觉在主观体验报告中相当清晰（Simione 等人，2017）。这一发现强调了知觉通过时间整合得以增强的观点，即收获了在更长时间段内积累感官输入的好处。其次，来自瞳孔扩张的证据表明，时间整合减少了与处理目标刺激相关的心理努力，并将工作记忆负荷从两个项目减少至接近单个项目的水平，这是通过 ERP 的 CDA 成分幅度来测量的（Jolicœur 等人，2008；Klaver 等人，2001；Vogel 和 Machizawa，2004），且并未伴随目标识别方面的相应损失（Akyürek 等人，2017；Wolff 等人，2015）。这种节省证明了时间整合对认知过程具有有意义且有益的影响，远远超出了视觉感知的最初步骤。更普遍地说，如果要将时间整合理解为一种适应性过程，那么此类效应的存在无疑是其先决条件。

2.3. 持久性与时间整合的心理生理学

与关于视觉持久性和时间整合丰富的行为文献相比，神经生理学研究较为匮乏，尤其是后一个主题。尽管事实如此，现有研究显示与行为研究相当程度的一致性。神经持久性的证据早期由 Hartline（1934）报告。在他的研究中，总能量相等、可变持续时间长达 100 毫秒的单一刺激，被报告在鲎（horseshoe crab）的光感受器中引发不变的反应。这些反应显示出与关于亮度对持久性的（反向）效应的行为报告一致的活动模式，尽管它们不能解释时间整合的所有方面（Nisly-Nagele 和 Wasserman，2001；Wasserman 和 Nisly-Nagele，2001）。在猫中，视网膜神经节细胞活动的测量同样显示了持久性，因为这些细胞被发现发放固定时期 50–70 毫秒，即使引发该反应的刺激短于该时间（Levick 和 Zacks，1970）。

在视觉加工系统更上游，在猫初级视觉皮层，神经元在刺激消失后也继续发放，且该时期的长度受反向持续时间效应影响（Duysens 等人，1985）。这些持久反应的累加在某些细胞中持续长达 320 毫秒（Duysens 等人，1991）。在猕猴中，初级视觉皮层活动的皮层内测量对应于刚刚超过 60 毫秒的可见持久性的属性和时间过程（Teeuwen 等人，2021）。在另一项研究中，猕猴前上颞沟的单细胞记录在 RSVP 序列的 93 毫秒间隙期间表现出持续发放，响应引发刺激的总时间超过 170 毫秒（Keysers 等人，2005）。神经反应与无间隙 RSVP 条件下的反应无法区分。在人类中，对可变持续时间闪光引发的事件相关电位（ERP）的分析表明，对低于 125 毫秒持续时间的重叠起始和终止反应产生了瞬时闪光的印象，而非持久闪光（Servi`ere 等人，1977）。内侧颞叶的单细胞记录显示，对（熟悉）面部图像也有类似的持续尖峰发放，甚至在刺激起始后长达 300 毫秒（Quiroga 等人，2008）。

尽管这些生理学研究为神经持久性提供了明确证据，但它们尚未调查大脑随后如何随时间整合连续刺激。然而，一系列关于 MET 中阵列整合的 ERP 研究直接针对了这一点（Akyürek 等人，2010；Akyürek 和 Balta，2024；Akyürek 和 Meijerink，2012；Akyürek 和 van Asselt，2015；Akyürek 和 Wijnja，2019）。比较整合成功或失败的 MET 试次显示，几个 ERP 成分的幅度受时间整合调节。其中第一个是 N1 成分（Akyürek 等人，2010；Akyürek 和 van Asselt，2015；Akyürek 和 Wijnja，2019），它与注意和刺激辨别相关（Luck 等人，1990；Vogel 和 Luck，2000）。N1 幅度在注意位置呈现的刺激中增强，但仅当这些刺激需要辨别而非检测时（即不是简单地响应任何刺激的存在，而是响应特定刺激）。第二个成分是 N2pc（Akyürek 和 Meijerink，2012；Akyürek 和 van Asselt，2015；Akyürek 和 Wijnja，2019），它通常被解释为反映注意的横向转移，但更可能参与任一视觉半视野内任务相关刺激特征的注意加工（Eimer，1996；Kiss 等人，2008；Luck 和 Hillyard，1994a）。第三个成分是后部 N2（Akyürek 等人，2010；Akyürek 和 Meijerink，2012），它与视觉目标的检测和空间分组相关，特别是同质性（Folstein 和 Van Petten，2008；Luck 和 Hillyard，1994b；Schubö 等人，2007）。第四个也是最后一个在 MET 中受时间整合调节的成分是 P3（Akyürek 等人，2010；Akyürek 和 Balta，2024；Akyürek 和 Meijerink，2012；Akyürek 和 van Asselt，2015；Akyürek 和 Wijnja，2019），它涉及注意、工作记忆更新和反应决策的监控（Nieuwenhuis 等人，2005；Polich，2007；Verleger 等人，2005）。在 MET 之外，P3 也被涉及概念上类似的字母 - 单词整合任务中（Forget 等人，2010）。

ERP 在时间整合期间的这些幅度调节似乎与视觉持久性的神经生理相关性广泛兼容；两者都表明广泛的认知和知觉过程受到影响。注意，这些普遍效应并不意味着因果关系，因为晚期 ERP 效应可能是早期效应或多或少被动的结果。更重要的是，承认更具推测性的是，ERP 结果允许对时间整合的性质进行一些独特的推断。首先，迄今为止没有任何研究涉及早于 N1 的成分，如 P1 或 C1：MET 中的连续刺激引发相同的 ERP，直到 N1，无论它们最终是否被整合。就 EEG 能检测到这一点而言，整合似乎并未发生在这一早期阶段。其次，第一个刺激持续时间 40–100 毫秒的偏移，从而 SOA 的偏移，根本不改变 ERP 成分的潜伏期。事实上，第二个刺激似乎没有引发任何属于它自己的成分，至少直到 P3 都是如此（Akyürek 和 Balta，2024；Akyürek 和 Meijerink，2012）。这可能可能反映连续刺激被共同加工，即使它们最终没有成功整合。

由于 ERP 主要反映刺激引发的效应，观察者瞬时状态的可能作用更容易通过 EEG 的时频分析来评估。虽然它并不总是直接与时间整合 linked，目前一个有影响力的提议认为，知觉和注意由周期性、振荡性大脑活动介导——这一想法源于兔视觉皮层对重复视神经刺激的循环反应（Bishop，1932）。更近期的人类研究表明，短暂视觉刺激的知觉（检测）由先前的 alpha 功率、相位以及 alpha、beta 和 gamma 频段的相位耦合介导（Busch 等人，2009；Ergenoglu 等人，2004；Hanslmayr 等人，2007；Mathewson 等人，2009）。同样，刺激 timing 和感知到的同时性被报告依赖于瞬时 alpha 相位（Chota 等人，2021；Kristofferson，1967；Milton 和 Pleydell-Pearce，2016；Varela 等人，1981）。此类发现促使了这样的想法，即（alpha）振荡可能反映知觉的时间分辨率，或更具体地说，其离散采样窗口（Cecere 等人，2015；Ronconi 等人，2017；Samaha 和 Postle，2015；Samaha 和 Romei，2024；VanRullen 和 Koch，2003；Wutz 等人，2014）。必须注意，离散知觉采样窗口的想法受到了批评（P. A. White，2018）。一种替代解释认为，知觉本身是连续、无意识地发生的，而当这一过程的输出作为单一事件出现时，离散意识才发生（Herzog 等人，2016, 2020）。然而，由于 alpha 频段的周期性对应于 100 毫秒窗口，它也将很好地符合关于可见持久性和时间整合占主导的间隔的经典行为估计（例如，Dixon 和 Di Lollo，1994）。

虽然离散采样窗口不必对应于整合周期（VanRullen 和 Koch，2003），两者之间通常假设存在密切关系（例如，Karvat 和 Landau，2024；VanRullen，2016）。MET 中的 EEG 和 MEG 测量确实提供了大脑振荡在时间整合中作用的证据。Geerligs 和 Akyürek（2012）发现，在 S1 持续时间为 70 毫秒的试次中（其中整合与分离的可能性大致相等），刺激起始前 beta 频段较高的功率预测成功的整合。类似的刺激前 beta 频段效应似乎也发生在视觉（元对比）掩蔽中，其中错误试次表现出增加的功率（Wutz 等人，2014），且 beta 频段的相位偏移预测目标和掩蔽是否被感知为同时（Kraut 和 Albrecht，2022）。theta 振荡的相位也被发现预测整合和分离行为，且这一节奏与眼睛注视对齐（Wutz 等人，2016）。theta 振荡相对较慢，将轻松覆盖长达四分之一秒的整合周期。似乎，取决于所执行的知觉任务，不同的节奏（例如 alpha, theta）从而整合周期可能被涉及（Ronconi 等人，2024）。所有这些频段的共同原则如图 4 所示：落入一个振荡周期内的连续刺激被视为同时且整合的，而未落入的则被视为连续且分离的。

2.4. 第一个四分之一秒内的适应性整合

从迄今为止总结的文献来看，人们可能会倾向于将第一个四分之一秒内的时间整合视为早期视觉感知中一个可能有益、但仍然主要是硬连线（hard-wired）的步骤，其输出先于进一步加工，并作为进一步加工的单位（参见 Efron, 1967；另见 Haber, 1983）。即使是“晚期”效应的生理证据（例如，在 P3 上，或在内侧颞叶中）也可以被解释为早期效应的下游后果，无法受到适应性调节。同样，刺激出现之前预测后续整合行为的振荡模式可能反映与任务无关的大脑状态。在我看来，这种关于时间整合的观点尽管如此仍然是误导性的。首先，一些信息在整合中得以保留并保持知觉上的可访问性。来自点阵列整合任务的主观印象表明，尽管在较短的 SOA 下整合显然正在发生，但闪烁的知觉即使在那时也依然存在。其次，整合并非一个固定的、统一的过程。这在更自然的观看条件下显而易见，在这种条件下，我们在观看快速运动时可能会感知到运动涂抹，但其持续时间远短于根据整合延迟期长度所预测的值（Burr, 1980）。关于这一悖论的研究表明，时间整合随连续刺激之间的空间接近度而变化，较短的距离比较长的距离产生持续时间更短的整合，这被归因于侧抑制（Di Lollo 和 Hogben, 1985, 1987; Farrell, 1984; Francis, 1996a, 1996b; Francis 等人，1994; Hermens 等人，2009）。

关于刺激呈现速度的期望似乎也调节整合的可能性。在快速序列视觉呈现（RSVP）任务中（但可能不适用于缺失元素任务（MET）；Balta 等人，2020），当观察者期望相对较慢的刺激呈现节奏时，他们倾向于扩展其整合的时间窗口，从而导致更多的目标顺序报告错误（Akyürek 等人，2008）。此外，与指示优先考虑连续目标的出现顺序相比，指示优先考虑连续目标的组成特征也会增加整合目标报告的频率（Akyürek 和 Wolff, 2016）。在可整合刺激之前不久呈现的用于引导注意的线索也被发现能够延长整合时间（Megna 等人，2012）。

此类时间期望体现在生理测量中，例如 alpha 频段去同步化，它跟随刺激事件的预期时间，并增强后续任务表现（Rohenkohl 和 Nobre, 2011）。确实，符合大脑可能不断尝试预测传入物体和事件（及其节奏）的观点（A. K. Engel 等人，2001; Nobre 等人，2007），整合任务中刺激开始之前发生的许多振荡变化似乎易于受到调节，无论是注意性的还是其他方面的。例如，Wutz 等人（2018）观察到，当参与者预期需要整合即将到来的刺激时，alpha 频段振荡减慢；而对于需要分离的刺激，则加速。这些预期整合和分离的 alpha 频段调节似乎具有空间特异性并由注意介导（Sharp 等人，2018, 2022）。

因此，即使在这些相对较短的间隔下，整合似乎也是适应性的：它产生有用的知觉，而不丢失其原始输入的所有方面（例如闪烁），最大化全局信息增益，同时最小化底层细节的损失。整合在有用时发生得更多，在无用时发生得更少，例如当它会导致有害的运动模糊时。即使这种调节仅基于观察者对即将到来的刺激节奏的期望，它也会发生。就此而言，更普遍地说，时间整合或许更应被视为一种主动的、适应性的平衡行为，介于保留和分离不属于一起的输入的需要，与整合属于一起的输入的需要之间（Dixon 和 Di Lollo, 1994; Loftus 和 Irwin, 1998）。

注意片段
3.1. 快速序列视觉呈现及更远范围内的事件

超过第一个四分之一秒的时间整合证据已在最初旨在研究时间注意的研究中被揭示，即注意在时间上分布的目标刺激上的连续分配。如上简要提及并在图 3A 中所示，如果第二个目标在距离第一个目标约半秒内到达，且未在滞后 1 处被保留和/或在紧密的时间邻近性中整合，观察者在感知两个目标中的第二个时会经历困难。这种 T2 缺陷即 AB 现象（Broadbent 和 Broadbent，1987；Raymond 等人，1992），可在包含多个目标的 RSVP 序列中观察到（参见图 3），以及在更稀疏的目标 - 掩蔽范式中观察到（Duncan 等人，1994）。尽管 AB 标签在事实并非不正确（即缺陷本质上是注意性的），但它同时也可能掩盖其重要的情节性质量，而这对当前的讨论至关重要。

关于 AB 的理论在其对导致缺陷原因的描述上各不相同。最初的解释表明，感知目标项目涉及一个两阶段过程。第一阶段可以并行处理多个项目，但仅将这些项目处理到有限程度，使得个别特征可能被感知（例如，红色、圆形），而无需将它们绑定到连贯的对象上（例如，一个苹果）。第二阶段涉及这种绑定，这需要注意，且容量有限。第二阶段也是观察者能够响应目标并将其巩固在短时或工作记忆中所必需的。这一想法具有广泛的吸引力，事实上，巩固中的瓶颈已被提出用以解释一般的双任务表现（Jolicœur 和 Dell'Acqua，1998）。在两阶段理论中，当 T1 占据第二阶段时，T2 无法进入，其短暂的第一阶段表征可能易于衰退和干扰，从而完全丢失（Broadbent 和 Broadbent，1987；Chun 和 Potter，1995）。这些功能阶段被提出是由蓝斑神经递质去甲肾上腺素的相位放电引起的，这导致刺激处理的瞬间增强，但随后是不应期（Nieuwenhuis 等人，2005）。根据这一提议，第二阶段处理被认为依赖于去甲肾上腺素驱动的增强，当 T2 在不应该期内到达时，这种增强将无法用于 T2。

两阶段理论中关于需要一个注意阶段来适当绑定视觉场景中存在的刺激特征的观点与空间注意理论相吻合，特别是 Treisman 的特征整合理论（Treisman，1996；Treisman 和 Gelade，1980；但参见 Desimone 和 Duncan，1995，以了解不同观点）。绑定的必要性具有神经动机，源于需要“解决”大脑处理不同感官特征的物理分布方式（Reynolds 和 Desimone，1999；Serences 和 Yantis，2006）。特征整合可被视为时间整合的空间兄弟，两者都是构建连贯时空对象和事件所必需的（参见 Zivony 和 Eimer，2024）。事实上，在 RSVP 中，在时间上邻近目标刺激出现的干扰物特征侵入在目标报告中相当频繁地发生（Botella 等人，1992, 2001；Botella 和 Eriksen，1991；Lawrence，1971）。因此，在这些呈现速率下，绑定过程似乎不完美。注意在时间特征绑定中的参与已由研究表明注意缺乏（例如在 AB 期间发生）会加剧侵入错误的研究证明（Botella 等人，2011；Chun，1997；Vul 等人，2008）。

AB 的两阶段理论可以说在同时类型、序列标记（STST; Bowman 和 Wyble, 2007）模型及其密切相关的“情节”版本（eSTST; Wyble 等人，2009, 2011）中达到了顶峰。正如后一个名称特别透露的那样，片段的概念是这些模型的核心。（e）STST 的核心在于类型和标记之间的划分，这映射到先前提出的两个处理阶段。然而，存在一个细微差别，即第一阶段的类型表征不仅仅是被激活的、分离的特征；它们可以反映刺激的身份，包含其集体语义和视觉特征。尽管如此，第一阶段的表征是短暂的，且非特定于实例。相反，标记表征是情节性的，或者说，是一个时间整合的事件。（e）STST 假设只有标记可以在工作记忆中巩固和维持。在此框架中，AB 出现是因为创建独立片段根据定义是一个序列过程。

另一类历史悠久的 AB 模型似乎，至少乍一看，避开了情节瓶颈的概念。这些模型假设干扰是瞬脱的根本原因。在此，直接在 T1 之后到达的刺激被识别为非目标，可能会侵入正在进行的处理以识别和巩固工作记忆中的 T1（Raymond 等人，1992；Shapiro 等人，1994）。为了保护 T1，注意门暂时关闭，或施加注意控制以抑制目标检测（Taatgen 等人，2009），以牺牲在该间隔期间到达的任何 T2 为代价。在此解释中，也有两阶段理论的元素，即识别和巩固需要保护，因为它一次只能安全地为一个目标事件进行。在 Di Lollo 等人（2005）的暂时控制丧失理论中，这种容量限制被重新定义为由 T1 启动的脆弱处理期，在此期间注意控制被占用。因此，T1 后的项目通过外源性重置注意过滤器而干扰，使其与 T2 不匹配，导致 AB。

脆弱（第二阶段）过程的概念后来在 Olivers 和 Meeter（2008）的干扰模型中被完全抛弃。在这种“增强与反弹”理论中，AB 由注意增强和抑制的动态引起。注意被认为遵循两个一般原则。首先，被识别为任务相关的感官输入被增强，这首先发生在 T1 被感知时。其次，与任务无关的输入，例如干扰物项目，被抑制。重要的是，增强不是立即的，而是需要约 100 毫秒来建立，这意味着在典型的 RSVP 条件下，实际上被增强的不是 T1，而是跟随其后的干扰物。因此被增强的任务无关项目反过来引发强烈的抑制反应，防止后续项目进入工作记忆，包括如果在短滞后处到达的 T2。模型中的注意反应被认为不是为了缓解记忆巩固（或绑定）中的任何容量相关瓶颈。然而，瓶颈确实存在，即在注意的速率限制中，使其无法在 100 毫秒内行动——这是一个显著的时间长度，也在知觉时刻（Efron, 1967）、视觉持久性和时间整合（Dixon 和 Di Lollo, 1994）以及 alpha 频段振荡（Wutz 等人，2018）的估计中遇到。因此可以认为，即使在增强与反弹模型中，与一个事件相关的处理最终延迟了下一个事件。

总之，尽管存在差异，AB 模型因此都汇聚于这样一个概念，即不可能连续处理两个独立的目标事件（参见 Schneider, 2013 中的竞争片段）。单个目标事件在适当情况下可以在时间上扩展，但一旦创建了一个事件，它不能立即跟随另一个事件。AB 现象因此提供了证据，表明存在一个超越第一个四分之一秒的事件结构。在这些片段层面所需的“停机时间”（无论它们是否被解释为注意性的；Snir 和 Yeshurun，2017），似乎是该典型时间整合周期的两倍长。换句话说，一整秒的时间间隔最多容纳两个整合的四分之一秒，而不是四个。

关于 AB 的研究也提供了重要证据，表明单个注意片段可以超过四分之一秒，即 beyond 经典持久性任务（如 MET）中观察到时间整合的间隔。支持这些长达四个目标项目或 400 毫秒的更长间隔的证据来自表明 T1 之后出现的连续目标保留（即无论报告顺序如何，正确的目标身份报告）的研究。发生这种情况的条件是这些目标之间没有中断；流中没有干扰物或间隙，其中任何一个都会信号化片段的结束，并触发 AB（Di Lollo 等人，2005；Kawahara 等人，2006；Nieuwenstein 和 Potter，2006；Olivers 等人，2007）。这些扩展序列的情节性质量由这一发现证明，即其中目标之间的顺序错误频繁发生（Wyble 等人，2011），表明目标之间的情节独特性丧失。

仅因其时间范围，注意事件整合似乎在性质上不同于在第一个四分之一秒期间观察到的更短暂类型的事件，后者可能更多是知觉性而非注意性的。此外，注意事件包含可能情节性地属于一起的个别刺激，但它们本身也是独特的且可如此报告。这种个体化在跨较短间隔的时间整合中未发现。然而，有证据表明跨这些不同尺度的时间整合过程共享共同空间。例如，倾向于在滞后 1 处整合更多的观察者也倾向于产生更明显的 AB（Willems 等人，2016）。事实上，可以设想时间整合位于一个包含这两个时间尺度的连续体上（但参见 White, 2024，以了解不同观点）。

支持这一观点的进一步证据来自关于超过第一个四分之一秒的信息保留和整合的研究，这不涉及注意的明确操纵。人们早已知道，来自（短暂）视觉暴露的信息可以很容易地持续至少半秒（Irwin 和 Yeomans，1986；Phillips，1974；Townsend，1973），甚至长达 5 秒（Irwin 和 Yeomans，1991）。这种“持久性”可能与工作记忆中信息的巩固和维持相关，虽然它不一定意味着时间整合本身，但它为其提供了必要条件。Brockmole 等人（2002）, （2003）提供了记忆中的信息如何与后续视觉输入整合的直接证明，他们测试了 MET 中的表现，S1 和 S2 呈现持续时间为 33 毫秒，作为 ISI 持续时间的函数。在 100 毫秒 ISI 处的初始低谷之后，表现几乎在更长的 ISI 处完全恢复，达到一个持续长达 5 秒的稳定平台。使用类似设计，Jiang 和 Kumar（2004）也发现了视觉工作记忆中整合表征的证据，ISI 长达 500 毫秒。在 MET 之外，Gao 等人（2016）也报告了跨约 1–2 秒间隔的空间信息的时间整合。在他们的任务中，两个或三个连续的、掩蔽的刺激显示 featuring 部分格式塔线索，指向其元素的整体组织，如果它们可以在刺激序列上整合，这将促进记忆表现。格式塔线索确实在所有情况下都产生了更优的表现。同样长的时间常数也在全球运动的（跨眼跳）时间整合中观察到（Burr 和 Santoro，2001；Melcher 和 Morrone，2003）。

除了相对缓慢刺激序列的整合之外，还有证据表明仅非常短暂显示的刺激存在持久的时间整合。在标准游标融合实验中，两个连续的垂直线对以不同偏移量非常短暂地显示，通常每个仅 30 毫秒，具有可变的 ISI。在知觉上，偏移量被融合，且感知到整合的、有偏的平均偏移量。尽管这种效应看似低水平，但已显示它相当依赖于刺激如何分组。如果第二个显示包含不止一对线，融合可以被废除；五对导致第一对的掩蔽，而 25 对使第一对线显现出来（Herzog 和 Fahle，2002；Herzog 和 Koch，2001）。当游标融合确实发生时，它跨越数百毫秒的持续时间，且部分非视网膜拓扑（Scharnowski 等人，2007）。对游标融合相对缓慢时间过程的直接测试由 Scharnowski 等人（2009）执行，他们发现游标融合受到经颅磁刺激应用的影响，即使它是在游标线本身之后约 350 毫秒 delivered。后来的研究表明，此任务中的整合窗口似乎从刺激起始开始，并持续接近半秒（Drissi-Daoudi 等人，2019）。

此类相对持久的逆向效应的存在也导致了这样的想法，即意识觉察以离散的方式更新，节奏略高于每秒两次（Herzog 等人，2016, 2020）。在此期间聚合的时间长度允许对输入进行改进的知觉分析，包括在其中构建事件结构。注意和工作记忆在此时间尺度上处理和记忆事件的参与可能证明与意识觉察的联系是合理的（另参见 Faivre 和 Koch，2014）。然而，就当前目的而言，这一想法的主要含义是，在这一层面存在一种事件整合形式，它包含了以更精细分辨率发生的时间整合（例如，跨越 100 毫秒间隔）。

3.2. 事件整合的心理生理学

关于 AB 的电生理测量已提供明确证据，表明注意和工作记忆参与了 T2 的（未）成功报告。当在 AB 期间错过一个目标时，ERP 的 P3 成分幅度受到抑制，而较早的 P1 和 N1 成分不受影响，这表明加工位点相对较晚，可能与工作记忆中的巩固有关（Kranczioch 等人，2003；Rolke 等人，2001；Vogel 等人，1998）。有趣的是，如果 T2 未被掩蔽，例如当它出现在 RSVP 序列的末尾时，P3 的潜伏期在短滞后处被延迟，这表明 T2 事件的加工在大脑中实际上可能被延迟了。在 T2 之后没有干扰性干扰物到达的情况下，这种延迟随后也不影响 T2 识别表现，这与掩蔽目标发生的情况相反（Vogel 和 Luck，2002）。

3.2. 事件整合的心理生理学（续）

在早期的 P1 和 N1 成分与 P3 之间，有限的证据表明 N2 可能在 AB 中发挥作用。一方面，Sergent 等人（2005）发现 N2 成分并未显示出可能由 AB 引起的双峰幅度分布，即在未命中目标的低幅度与看到目标的高幅度之间存在尖锐分界，这在 P3 中观察到了。另一方面，他们也发现证据表明 T1 诱发的 P3 可能与时间上重合的 T2 诱发的 N2 竞争，导致 AB。在大致相同的时间窗口内，侧化 N2pc 成分确实明确地与 AB 对应。在目标位于侧向位置的 RSVP 范式中，当 T2 被瞬脱时，未观察到针对 T2 的 N2pc，反映了注意部署的失败（Dell'Acqua 等人，2006；Jolicœur 等人，2006）。

尽管这些 ERP 研究可能表明，鉴于它们不同的时间过程，AB 任务中注意事件整合的位点比 MET 中的稍晚，但来自振荡大脑活动的证据指出了这两种整合形式之间显著的共性。在 Gross 等人（2004）的 MEG 研究的 AB 条件中，发现额 - 顶 - 颞脑区内 beta 频段的相位同步性较低；这些区域也与患者中的时间特征绑定错误有关（Arend 等人，2011）。这种 beta 频段效应后来在 EEG 中也得到了复制（Kranczioch 等人，2007）。在 gamma 频段也观察到了类似效应，正确报告的目标之前出现同步性增加（Nakatani 等人，2005）。Alpha 频段也与 AB 有关，使得在目标呈现之前和期间相干性较低时，成功检测 T2 的机会增加（Kranczioch 等人，2007），且在静息状态下 alpha 功率较低时也是如此（MacLean 等人，2012）。当 RSVP 中的刺激被设定节奏以使得它们引导大脑中的振荡活动时，对应于 alpha 和 beta 频段的速度似乎也比其他频率引发更强的 AB（Shapiro 等人，2017）。因此，涉及注意片段的频段与介导第一个四分之一秒整合的频段在相当程度上对应。

这些共性引人注目，再次表明时间整合可能在不同时间尺度上基于共享原则或以类似方式运作。然而，必须注意，具体实现可能有所不同，且在不同时间常数的整合中可能涉及定量甚至定性不同的过程。这方面的一个例子见于双重漂移错觉，其中 Gabor 斑块沿直线运动路径移动，而其纹理垂直于该路径漂移，导致斜向运动的错觉。实际运动路径与漂移纹理的整合已被显示持续长达至少一秒（Tse 和 Hsieh，2006）。通过 fMRI，显示整合表征不存在于视觉皮层，而是存在于前脑区域（Liu 等人，2019）。后者的区域参与与在较短间隔整合中识别出的颞区形成对比（Keysers 等人，2005；Quiroga 等人，2008）。

3.3. 注意片段中的适应性整合

注意总体上是明显适应性的，因为它是高效的，它允许我们只选择与我们最相关的信息，这样我们就不必费力处理其余部分。注意可以在时间上“聚光灯”式地突出一个特别显著的事件，以牺牲其他较无趣味的事件为代价，就像它对场景中的特定区域或物体所做的那样。虽然空间中的注意聚光灯无疑是积极的，增强了对注意项目的加工（例如，Eriksen 和 Hoffman，1972；Posner，1980；Shiu 和 Pashler，1995；Yeshurun 和 Carrasco，1998, 1999），但它在时间上的效应似乎可能是有害的，至少乍一看是这样。注意可以使刺激看起来比实际出现得更早，这种现象称为先进入（prior entry）（Titchener，1908；综述参见 Spence 和 Parise，2010）。注意也延长了事件的感知持续时间（Enns 等人，1999；Herbst 等人，2012；Mattes 和 Ulrich，1998；Seifried 和 Ulrich，2011；Yeshurun 和 Marom，2008），这在某些情况下可能归因于感知刺激终止（offset）的延迟（Rolke 等人，2006）。作为这些效应的结果，区分连续刺激的能力受损，降低了我们的时间分辨率（Yeshurun 和 Levy，2003，但也参见 Chica 和 Christie，2009；Correa 等人，2006）。

然而，在将这些注意对时间加工的效应解释为负面之前，应考虑另一种观点：在自然主义观看条件下，最大化一个人的时间分辨率实际上可能并不是很有帮助或信息量。调整到较慢但足够快的节奏可能更有意义，并利用 thus 获得的时间来收集更多输入。这正是时间整合期间发生的情况，如果注意作用于增强事件层面的加工，而不是在我们知觉系统时间分辨率的顶点，上述效应实际上可被视为有益的。

确实有证据表明注意促进了时间整合。通过操纵空间注意，Hochmitz 等人（2021）表明，在双帧 Ternus 表观运动显示中，当注意可用时，时间整合被延长至总呈现时间长达 450 毫秒。在一个 RSVP 任务中，MET 作为第二个目标嵌入，Visser 和 Enns（2001）相当直接地表明，在长滞后处时间整合更容易，此时注意已从处理第一个目标事件中恢复。RSVP 中滞后 1 和 2 处两个目标的整合也受制于不同的任务集，以优先考虑整合或分离（Akyürek 和 Wolff，2016），以及对刺激流速度的期望（来自顺序错误的证据；Akyürek 等人，2008），以及目标被显示的可能性（来自保留的证据；Visser，2015）。

RSVP 中短滞后处发生的时间整合已被显示具有下游后果，特别是在事件被记忆的方式上。MEG 数据显示，当发生滞后 1 保留时，颞顶额皮层中出现单一神经反应，而不是在较长滞后处发现的一对 distinct 反应（Kessler 等人，2005）。类似地，Akyürek 等人（2007）观察到当滞后 1 处整合可能时，出现单一 N2 和 P3 峰。最后，在侧化双流 RSVP 中记录的 ERP 显示，在报告了整合目标对的试次上，P3 和 CDA 成分幅度低于两个目标被分别报告的试次，表明前者导致工作记忆负荷较低（Akyürek 等人，2017）。这些注意片段的神经相关物与时间整合提供了一种信息可被表征的高效方式的观点一致。实现这种效率将是视觉感知中任何适应性过程的主要目标，而时间整合的注意调节显然符合这一特征。

虽然 250 毫秒到几秒之间时间尺度的时间整合适应可以合理地被视为本质上是注意性的，但一些适应也可能以更隐式的方式发生。Ossmy 等人（2013）呈现了一个可变持续时间的目标信号，由平均亮度增量组成，位于亮度水平变化的噪声流中。为了检测信号，观察者必须随时间整合噪声信号，跨越 150 到 900 毫秒的间隔。结果表明，观察者根据信号持续时间的分布调整了他们的整合窗口，其中包含相对较多的短或长持续时间。因此，在包含更多短持续时间的块中，短持续时间的表现 improved，而在主要为长持续时间的块中情况相反。无论是否属于注意性的，这些结果都显示了时间整合中清晰的适应性变化，其中知觉证据的收集时间恰好与环境条件所要求的一样长。

4.长期事件

4.1. 概念性整合

事件也可以在更大的尺度上被定义，其持续时间甚至可以任意延长。在实验上，这些长时程事件中最易处理的是那些观察者能够从动态刺激呈现中识别（分割）出来的事件，从简单动画到幻灯片展示，再到最多持续数秒至数分钟的电影片段。Michotte（1946）通过一个旋转机械装置制作了此类动态呈现，以研究刺激运动中的因果知觉。在 Michotte 最简单的实验中，一个小方块刺激看似横向移动，朝向第二个相似的方块，直到两者接触，此时第二个方块开始沿相同方向移动。观察者感知到第一个刺激导致了第二个的运动；这种印象可以说捕捉到了最具生态效度的信息（Gibson, 1979）。因此，尽管存在对两个刺激及整个呈现序列的统一运动的知觉，其中也存在一个被感知为最大变化的点——即第一个刺激停止运动、第二个开始运动的时刻。在这一点上，出现了一个事件边界，表明知觉变化在分割这些相对较长的事件中具有重要作用。

对于遵循明确运动规则、更可识别的序列（如自由落体物体或生物运动模式），有意义事件的知觉更为强烈（Johansson 等人，1980）。然而，在这一层面的分割也受更概念性因素驱动，例如关于他人行为信息的组织方式。针对展示演员执行某些可操作活动（如填写问卷或修理摩托车）的电影片段分割的研究表明，事件边界在理解这些活动中起着关键作用，且观察者可能会调整其分割方式以更好地理解所观看的行为，例如当演员做出意外举动时缩短片段长度（Newtson, 1973；Newtson 和 Engquist, 1976）。还有研究提出，观察者的内部状态（如对正在进行情境的洞察发生改变）也可能影响事件分割（Y. C. Wang 等人，2024）。这类效应可被理解为概念性事件分割具有推理性本质的结果，有助于对事件如何展开做出适应性预测（Kurby 和 Zacks, 2008；Richmond 和 Zacks, 2017）。

尽管概念性事件在多个方面可能具有可变性，但在这一层面（事实上在任何层面）所构建的事件仍可简单地定义为：在特定位置上具有起点和终点的一段时间（Zacks 和 Tversky, 2001）。事件也可通过其外观来描述，例如不同观察者对其时空边界的共识、其与知觉变化的相关性，或较短事件如何聚合成较长事件的方式（Zacks, 2020）。另一种更具体、基于内容的事件描述，可将其定义为一种瞬态对象，具有动态性，并由特定的时空坐标所界定（Miller 和 Johnson-Laird, 1976）。实际上，对象的表征已被构想为一种显式的情节性表征，它将所有被感知的属性联系起来，并追踪和整合随时间发生的变化（Kahneman 等人，1992）。这种表征被称为“对象文件”（object file）或“标记”（token）——这一术语也出现在注意事件的表征中（Bowman 和 Wyble, 2007），并与早期提出的增量表征（Ullman, 1984）、“实例化指针”（fingers of instantiation；Pylyshyn, 1989）以及更近期的“事件编码”（event code）概念相似，后者还明确整合了该表征所支持的动作计划（Hommel, 2019；Hommel 等人，2001）。

在这些表征中，随着时间尺度的扩展，事件被紧密整合的程度逐渐减弱。一个经过视野的对象所绑定的特征（例如，一个圆形、红色的苹果）似乎比与“泡茶”这一事件相关联的属性联系得更紧密。然而，这并非概念性事件所独有。例如，即使在几十到几百毫秒内，缺失元素任务（MET）中连续阵列的整合已不如颜色融合任务中连续颜色的整合那么完整，前者感知到更多的不连续性（即闪烁）。此外，尽管不同时间整合层级之间存在明显的质性差异，其运作方式却表现出可比性。例如，通常与最短时间间隔相关的感官证据整合（Bloch, 1885）同样适用于数十秒的时间尺度（Waskom 和 Kiani, 2018），表明时间整合具有一种统一的、在某种程度上与时间无关的目的。

此外，发生在概念层面的时间整合也具有清晰的认知后果，类似于较低层级所见的后果。当物体出现在电影片段的事件边界处时，它们在记忆中的编码效果更好，表明这些是事件内部特别显著或信息丰富的时刻（Swallow 等人，2009）。进一步研究表明，当观察者（预期）穿越一个事件边界（在实验环境中由穿过一扇门标记）时，对先前遇到物体的记忆会变差（Radvansky 等人，2010；Radvansky 和 Copeland，2006；V. Wang 等人，2023），这可能反映了工作记忆中仅保留最近事件的内容（Radvansky 和 Zacks，2017）。这类记忆代价让人联想到 RSVP 中观察者报告两个独立目标（而非包含相同特征的整合目标）时观察到的工作记忆负荷增加（Akyürek 等人，2017）。

在概念性事件内部，其表征的整合性质也可能导致项目之间产生更多相互干扰。当单词列表中的所有词都属于同一事件时，其记忆效果比将它们分属多个事件更差——这是时间分离更有益的一个例子（Pettijohn 等人，2016）。类似地，在概念效应与注意效应的交界处，最近有研究显示，RSVP 中在中等滞后呈现的 T2 会受到其前一个 T1 以及前次试验中目标的影响，这被归因于跨试次和试次内的时序整合（Yildirim 等人，2024）。最后，还有研究显示，在（大幅简化版）足球比赛的动画序列中短暂呈现的一个简单视觉事件（一个红点）在事件边界处的检测受损（Huff 等人，2012）。这种可能是注意性的效应，让人联想到快速连续构建两个注意片段所产生的代价，即注意瞬脱（AB；Raymond 等人，1992）。

这些共性引出了一个问题：是否所有这些类型的事件都可以被置于单一的时间整合连续体上？在概念性事件的语境中，已有研究提出事件存在一种部分-整体层级结构（partonomic hierarchy），即较长事件可被细分为更小的组成事件（Cutting, 1981；Zacks、Tversky 等人，2001）。这与更广泛的时间整合连续体概念非常吻合，该连续体也包含了以分数秒为单位的最短事件。图 5 展示了这种整合事件的层级结构可能如何实例化。此处需特别指出两点：第一，该层级结构可能并非完全无缝，因为它可能在注意层面发生转折：当一个足够显著的刺激被感知（被注意）时，所有层级上都会启动一个事件；而当注意不可用时，较低层级的整合可能会暂时中止。第二，每个层级上事件的长度在一定程度上是可变的，取决于外源性和内源性因素。

4.2. 概念性整合的心理生理学

关于概念性整合的生理学研究主要依赖 fMRI 方法来识别参与分割持续输入的脑区。其中，处理运动信号的中颞视觉区（MT）以及参与眼动控制的额叶眼动区（FEF）是最早被识别的区域之一（Zacks、Braver 等人，2001）。随后，上颞沟（STS）、楔前叶、后外侧沟（LS）以及颞顶联合区（TPJ）也被发现参与其中（Hasson 等人，2008）。重要的是，类似于较短间隔内神经反应持续时间的较小尺度变化（Keysers 等人，2005；Quiroga 等人，2008；Teeuwen 等人，2021），这些区域的反应似乎也存在一种时间层级结构。楔前叶和 STS 对约 12 秒的间隔反应最为显著，而 LS、TPJ 和 FEF 似乎能够整合长达 36 秒的信息。支持皮层中存在事件层级结构想法的证据在后续研究中得到了证实，这些研究涵盖了不同的脑区以及大脑中的广泛网络，其中注意可能将事件边界跨不同间隔传播（Baldassano 等人，2017；Geerligs 等人，2022）。

在知觉之后，Swallow 等人（2011）表明，检索 5 秒前在电影片段中显示的与物体相关的信息会以不同方式激活脑区，这取决于是否跨越了事件边界。除其他效应外，当跨事件检索靠近事件边界的物体时，与同一事件内出现的物体相比，海马体和部分下顶叶（IPL）被更强地激活。此外，观看期间的海马体活动不仅在更高层级的事件边界处增加，而且这种活动还能预测后来的回忆（Baldassano 等人，2017）。这些与检索相关的差异表明，事件在长期结构化（情节性）记忆中起着重要作用。当观察者反复暴露于相同的电影片段时（即使这些片段最初是打乱的），海马体与楔前叶、角回以及后扣带皮层之间的功能耦合也会增加，进一步表明海马体及这些相连区域参与了时间结构的学习（Aly 等人，2018）。这种对时间结构的渐进式经验可能有助于情节性记忆以及生成对近期的预测，这两者都可能由海马体介导（Clewett 等人，2019）。

概念性事件更普遍地与观察者所拥有的世界知识密切相关。其中一些知识可以在有限的暴露后获得，例如实验室环境中特定的电影序列（如 Aly 等人，2018 的研究），而另一些知识则可以通过一生的经验（例如泡茶）逐渐积累。研究发现，与知识一致的事件会增加内侧前额叶皮层、IPL 和中额回之间的功能连接（Bonasia 等人，2018）。将先验知识与持续输入匹配可能服务于预测接下来可能发生什么的目的。有研究提出，特别是后扣带皮层和内侧前额叶皮层参与了此类预测的生成（Stawarczyk 等人，2021）。

EEG 和 MEG 研究提供了一些初步见解，说明大脑处理概念性事件信息的速度有多快。在事件边界出现后 200 至 800 毫秒之间，通过对 EEG 数据的多变量模式分析，观察到对前一事件的相对快速的记忆性重激活，这可能是将其编码进记忆的一部分（Sols 等人，2017）。这种反应与发现的潜伏期约 500 毫秒的过去记忆重激活相似，后者也由海马体介导（Jafarpour 等人，2014；Staresina 等人，2016）。在另一项关于 50 分钟长电影中事件分割的研究中，EEG 中的重激活发生在边界出现后 500 至 1400 毫秒之间（Silva 等人，2019）。尽管这些大脑反应可能被认为是相对快速的，特别是在其所编码事件长度的背景下，但显然这一层面的整合并不像知觉和注意整合那样迅速发生，这符合不同层级事件之间的层级关系。

4.3. 长时程事件中的适应性整合

在概念层面，时间整合适应性性质的证据并不难找到。就其本质而言，这一层级的事件围绕着增进理解、赋予连续输入以意义而展开（Gibson, 1979）。反过来，这种理解有助于对未来做出准确预测，促进适应性行为（Kurby 和 Zacks, 2008）。最终，概念性事件以高效的情节性表征形式进入记忆（Baldassano 等人，2017），从而提升认知经济性。概念性事件也是有意识可访问的，观察者可以被可靠地要求划定它们，甚至可以根据其平均长度进行调整（Newtson, 1973）。因此，观察者可以根据当前目标的需要，随意调整整合与分离之间的平衡。

尽管我已指出概念性整合与其更快层级兄弟之间的共性，但我应指出，它也可能提供独特的益处。除了作为最易于意识认知控制的层级外，概念性事件还可能用于将事件联结在一起，提供更高层级的知觉和认知理解。即使在 Michotte（1946）的早期研究中，也存在一种因果关系，将所涉及的两个刺激的独立运动统一起来。这种将连续事件串联起来的做法在注意层面并不明显，在该层面，单个事件的分离和孤立占主导地位（Bowman 和 Wyble, 2007；Wyble 等人，2009），在知觉层面也没有特定证据表明存在相反情况。相比之下，在概念层面，较小的事件（例如"把水壶放上去"）被分组为更大、更 overarching 的事件（例如"泡茶"），而这些表征之间没有任何明显的接缝（Cutting, 1981；Zacks、Braver 等人，2001）。

综合与未来方向

我在当前的文献综述中强调了时间整合在视觉感知中是普遍存在的，也没有理由认为在任何其他感觉模态中会有所不同。其普遍性表明，它在塑造认知本身方面也发挥着重要作用。事实上，时间整合可能是普遍认知的一个必要条件。与物体知觉类比可能有助于阐明这一观点：假设我们完全无法感知连贯的物体，永远只体验到松散、漂浮的特征（参见 Treisman, 1996; Treisman 和 Gelade, 1980）。在这种情况下，很难想象我们能够连贯地思考，缺乏来自知觉世界的任何结构经验。同样地，如果没有能力理解时间中有意义的单元，即事件，我们可能缺乏结构化思维所需的连贯性。即使这个——纯粹推测的——想法最终是错误的，时间整合的普遍性表明，它对感知和认知的重要性比通常所认为的要大。

考虑到整合发生的时间尺度，很明显，整合事件在内容以及它们在多大程度上构成单一知觉方面差异很大。在一个极端，两个连续呈现的颜色可以整合为单一的、加法混合的颜色，没有太多迹象表明它在物理上是由单独的刺激提供的。在另一个极端，相对松散的物体、演员和动作集合（其中许多可以由观察者命名并详细描述）可以整合为对相关间隔内正在发生的事情的单一意识理解。然而，尽管整合层级之间存在如此明显的差异，有两个重要且密切相关的共性将所有时间尺度的时间整合联系在一起。

第一个共性是所有事件都将信息打包，并将其捆绑在一起成为高效的表征。这在所有整合层级上都是如此。在第一个四分之一秒内，不是在缺失元素任务（MET）中感知和编码两个部分阵列，而是处理一个几乎完整的单一阵列。处理整合后的阵列不仅更高效（这在实验任务的更琐碎意义上也是如此），而且就时间而言也是一个更实质性的事件。在自然的、生态的情境中，即使环境处于运动中，似乎也不太可能在少于 100 毫秒的持续时间内发生许多感兴趣的事件。因此，即使视觉系统能够解析非常快速的变化，例如闪烁，在仅几毫秒长的周期内，这样做也很少有意义；肯定不是为了从该间隔中获取意义。

注意片段同样显示出信息结构和提取的标志。为了在快速序列视觉呈现（RSVP）中处理正确的目标身份，需要一个情节性表征将目标特征（形状、颜色等）绑定在一起，使其个体化，并将其与干扰物分开。如果没有这种整合，松散的特征可能会被错误归因，刺激表征可能变得不准确。在这一整合层级上，工作记忆中的结果表征也变得更加高效也是明显的；属于目标的整合特征束比任意收集的松散特征更容易保持在工作记忆中。鉴于工作记忆非常有限的容量（Cowan, 2001; Miller, 1956），这些都是重要的认知节省。

在概念事件层面，认知经济性也很明显。随着场景展开，以全面的方式表征这一点至关重要，以便创建总结最相关信息的有意义实体。回到泡茶的例子，在此情境中，对水壶特定运动路径或演员身体动作的情节性表征所产生的有用信息将非常少。同样，如果泡茶之后是倒垃圾，那么“各种家务活动”的表征将相对缺乏信息量。随着信息随后从工作记忆转移到长期情节性记忆，这些系统的容量（再次）通过所构建的概念性事件的高效打包而得到节省。

不同时间尺度时间整合之间的第二个共性是，它会根据观察者和环境的当前需求进行调整。即使在最低层级，整合也不是在给定的间隔内僵硬地应用，仿佛有一个固定的知觉采样率在支配它。相反，外部和内部因素都介导整合。彼此靠近的刺激不太可能被整合，如果观察者期望即将到来的刺激相对较快，整合同样会减少（反之亦然，对于期望较慢的刺激）。这些调节并非偶然产生，而是服务于适应性目的——通过使其适应环境中的时空特征来改善感知。

在注意层面，事件由有目的的、目标相关的选择启动。RSVP 中的目标触发一个片段，被选择以满足固有的适应性目标；在这种情况下是在实验任务中表现良好。注意片段的长度也可以变化很大，取决于知觉情境。在噪声环境中，时间整合可以延长，以便在片段内收集更多证据。在注意片段内，时间整合显然存在相当程度的意志控制，并且根据对即将到来的刺激的期望，整合可以被调节到更显著的程度。这些调节尤其值得注意，因为构建注意片段是有代价的，正如注意瞬脱（AB）现象所说明的那样。因此，任何延长或限制整合时间的倾向都将随后不久处理的刺激产生明显的（负面）后果。因此，这些调节必须在效率方面承载其自身的分量，否则它们对于知觉系统来说就不值得。

概念事件受意识控制，因此在需要时易于适应性调整。事件表征的长度和内容与长时记忆中的知识密切相关，这些知识由先前的经验获得，如图式中所代表的那样（Bartlett, 1932）。符合既定图式的展开场景可以整合为更长的事件，其内容由先验知识支撑，而意外的转折将促使更短的事件，以及存储细节的更大需求。这些调节的效果不仅是感知得到促进，更高效的表征被保持在记忆中，而且关于（近）未来的推断也得到最优的信息告知。大脑因此可能在贝叶斯意义上权衡当前和先前的证据（参见 Knill 和 Richards, 1996）。

因此，时间整合既高效又灵活，但重要的是要补充说，这些属性可以被视为同一枚硬币的两面。它们服务于优化感知：如果整合一个事件导致一个笨拙的表征，充满无关信息，那么这将不是一个非常有吸引力的提议。相反，不考虑何时这与观察者的当前情境和目标一致而整合高效包，很容易导致不必要的信息丢失。为了使时间整合在任何时间尺度上起作用，它只需要在适当的时机提供效率。

采用这种关于时间整合的统一适应性视角提出了若干似乎值得追求的研究方向。首先，评估何种信息可以在每个层级影响整合将是重要的。一个问题可能是先验经验是否已经在第一个四分之一秒内调节整合。在尺度的另一端，人们可以测试呈现显著或有节奏的刺激对概念事件分割的影响。其次，整合中内部（自上而下）和外部（自下而上）因素之间的平衡在不同整合时间尺度上可能不是恒定的。检查它们的比较效应将是有趣的。第三，不确定性对时间整合的影响可能具有信息量。在缺乏可靠感官信息和/或先验知识的情况下，知觉系统可以在默认水平上整合信息，从而可以被表征。例如，时间整合可能“默认”与知觉事件的 alpha 频段中的特定频率同步。第四，如果整合确实服务于适应性目的，量化那种适应性优势，就减少的记忆负荷或改善的知觉预测而言，对于描绘其对感知和认知的影响将是重要的。这些只是对未来研究的建议，可以被采纳或丢弃，但我希望通过采取跨巨大不同时间尺度的时间整合的适应性视角，我为未来研究与这个引人入胜的主题相关提供了一个鼓舞人心的起点。

原文链接：https://www.sciencedirect.com/science/article/pii/S0149763425000417

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.