当AI"助手"不懂自己手里的仪器时，会发生什么？|信号|传感器|阿尔法|上下文|工作流|脑电图

分享至

这项由上海脉元智能科技有限公司（NeuraDock）主导的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.26519，感兴趣的读者可通过该编号在arXiv平台查询完整原文。

当你拿着一部只有后置摄像头的手机，却让AI助手帮你分析前置自拍照片的光线问题，这个AI如果不知道你的手机根本没有前置摄像头，就可能煞有介事地给你分析一番，说得头头是道，实际上完全是在胡说。这个场景，正是NeuraDock团队在脑电图（EEG）领域遇到的真实问题——也是他们花了大量精力去解决的核心挑战。

脑电图技术，简单说就是在人的头皮上贴几个传感器，记录大脑产生的微弱电信号，以此研究大脑的活动状态。这项技术在研究人的注意力、疲劳程度、视觉处理等方面有重要价值。但传统上，脑电图设备价格昂贵、操作复杂，需要专业人员才能使用。NeuraDock开发了一款只有七个传感器的轻量级干电极脑电图设备，目标是让更多研究者和开发者能够方便地使用这项技术。

麻烦来了——当他们想用大语言模型（也就是ChatGPT这类AI）来帮用户理解和使用这台设备时，发现AI会自作聪明地超越设备实际能力范围乱说话。AI对脑电图领域确实"懂很多"，但它不知道这台具体设备只有七个传感器放在头部后方，不知道当前软件究竟实现了哪些功能，更不知道某个分析结果能支持什么样的科学结论、不能支持什么样的推断。于是AI就像那个不知道手机没有前置摄像头的助手，说出很多听起来合理、实际上完全不对甚至有害的话。

NeuraDock团队为此设计了一套叫做"NeuraDock Agent"的系统架构，并进行了一系列严格的评测实验，最终整理成这篇论文，向整个行业展示：如何让AI在科学仪器辅助领域既有用，又不瞎说。

一、这台脑电仪到底能看到什么，AI凭什么说它懂

在深入理解这套系统之前，有必要先弄清楚这台设备究竟是什么样的存在，以及它能做到什么、做不到什么。

NeuraDock这台设备有七个传感器，严格按照顺序排列，分别叫做CP5、CP6、PO3、PO4、O1、Oz、O2。对于不熟悉脑电图的读者来说，这些字母和数字组合就是电极在头皮上的位置名称，类似于地图上的坐标。CP5和CP6大致在头顶偏后两侧，PO3和PO4在更靠后的位置，O1、Oz、O2则集中在后脑勺枕部区域。这个排列意味着什么呢？它意味着这台设备只能"看到"大脑后部区域的电活动，那里主要负责视觉信息处理。

这是一个关键的物理限制。大脑前额叶负责情绪调控和决策，颞叶负责语言和听觉处理，但这台设备的七个传感器完全没有覆盖这些区域。如果有人问"这台设备能不能分析一个人的情绪倾向"，正确答案是"不能，因为情绪相关的额叶根本不在传感器的覆盖范围内"。但一个不了解这台设备具体布局的AI，完全可能洋洋洒洒地给出看起来很专业的情绪分析建议，而那些建议从物理上就站不住脚。

设备以每秒250个采样点的频率记录信号，单位是微伏（一微伏是一伏特的百万分之一，脑电信号非常微弱）。系统还内置了一套信号质量检测规则：如果某个一秒钟的片段里，49到51赫兹的干扰功率超过10，或者信号幅度超过100微伏，或者超过两个采样点越过了阈值，这个片段就会被标记为有问题并排除。这些都是工程上经过审查的具体数值，不是随口说说的，也不是AI能够自行发明的。

明白了这台设备的物理限制后，就能理解为什么研究团队要花大力气建立一套"边界意识"——让AI清楚地知道这台设备的感知边界在哪里。

二、AI在科学仪器领域的四种"越界"方式

NeuraDock团队把AI可能犯的错误归纳成四类，每类都对应一种不同性质的边界，就像一个厨师可能在四个不同层面上犯错：误判了厨房有哪些锅具、以为某道菜谱已经开发好了其实没有、误读了菜谱的具体步骤、或者过度宣称某道菜能治病。

第一种叫"物理边界"错误，本质是搞不清楚这台设备的传感器能感知什么。比如有人问能不能做额叶阿尔法不对称情绪识别，但传感器根本不在额叶位置，这个请求从物理上就无法完成。一个不了解设备布局的AI可能不知道这个限制，于是给出错误的肯定答复。

第二种叫"实现边界"错误，也就是搞不清楚当前软件里实际上写了哪些功能、没写哪些功能。脑电图有很多理论上可行的分析方法，但不是每种方法都在当前版本的软件里实现了。比如独立成分分析（一种去除眼动干扰的技术）和稳态视觉诱发电位分类器在理论上都可以做，但在当前版本里根本没有实现。一个AI如果不知道这一点，可能会告诉用户"运行这个命令就能做到"，结果用户去找这个命令根本不存在。

第三种叫"结果边界"错误，是指搞不清楚某个计算结果字段的真实含义。举个例子，这套系统会给出一个"视觉认知负荷"分类（低、中、高），但这个分类是在当次录制内部相对比较得出的百分位排名，不能拿来和另一个人的数据比较说谁的负荷更高。分类在一次录制内部有意义，跨录制则没有可比性。

第四种叫"科学边界"错误，是最难把握也最容易犯的一种。即便前三种边界都没有越过，也可能在科学推断上走得太远。比如信号质量检查通过了，不等于可以说"这个人当时非常专注"；后脑枕区的阿尔法波不对称，不等于和情绪相关的额叶阿尔法不对称是一回事。观察到了现象，和这个现象证明了某个结论，是完全不同的两回事。

这四种边界相互关联但不能互相替代，这正是问题的复杂所在。

三、系统的核心设计：让AI只接触"精简版摘要"

理解了这四种边界，就能理解NeuraDock Agent的核心设计思想了。这套系统最本质的选择是：把数学计算和语言表达彻底分开，让AI永远只能看到经过严格筛选的摘要信息，而不是原始数据。

具体来说，系统分成两个相互隔离的部分。左边是本地确定性科学核心，负责所有的真正计算：解析录制文件、执行质量检查、运行经过审查的分析流程、生成结果文件和图表。这部分完全在用户的电脑上运行，是数值真相的唯一来源。AI无法修改这部分的任何计算逻辑，无法更改滤波器参数，无法改写统计方法。

右边是语言层，也就是大模型。但AI看到的不是原始脑电数据，而是经过"白名单"严格筛选的精简摘要。团队专门定义了每种分析流程允许传递给AI的字段清单。以视觉认知负荷工作流为例，允许传递的内容包括：状态和警告标志、质量对象（包括信号保留率、被排除的片段数量、坏道候选等）、分析用的通道名称、阿尔法频段范围、窗口参数、分类元数据、窗口计数、各类别的计数和比例、早期和晚期的趋势汇总、前二十个时间段标签，以及解释限制说明。

与此同时，以下内容被明确排除在外：原始采样数据、每个试次的信号、完整的功率谱密度数组、完整的窗口记录数组，以及本地文件路径。团队还专门在这个摘要里设置了一个标志位，明确声明"raw_eeg_included=false"，以便在审计时快速确认。

为了验证这个边界真的起作用，团队做了一个实验：让系统分析一段包含649040个脑电采样值的录制文件，然后抓取系统实际发送给AI的请求内容，检查里面有没有原始数据。结果显示，原始录制文件大小是8145499字节，而发给AI规划模块的请求只有10612字节，发给AI解释模块的请求是23295字节。团队还专门从原始录制中随机取样了140个数值作为"探针"，确认这140个数值在发出的请求里完全不存在，文件路径也不在请求里，任何密集数组的键名也没有出现。这就从实验角度证明了边界在应用层面上确实起到了作用。

四、万一AI服务崩了，本地计算结果会不会丢失

系统设计的另一个重要原则是：语言层是可选的附加服务，绝对不能影响本地计算结果的完整性。这个原则听起来简单，但实现起来需要仔细的系统设计。

团队专门做了一组故障注入实验来验证这一点。他们依次模拟了三种AI服务失败场景：HTTP 400错误（服务器明确拒绝请求）、输出格式错误（AI返回了无法解析的内容），以及连接被拒绝（根本连不上AI服务）。在这三种情况下，系统都会继续保存本地的结果文件results.json、分析报告report.md、运行追踪记录agent_trace.json，以及标记了"解释失败"状态的说明文件。

换句话说，AI能正常工作时，它负责帮用户解释结果、回答问题、提供建议。AI挂掉的时候，用户的数据分析结果仍然完整，完全不受影响，只是少了自然语言解释这个附加功能。科学计算的正确性和语言服务的可用性是两个独立的事情，互不干扰。

这个设计选择背后还有一层考量：脑电图数据可能包含个人隐私信息。已有研究证明，脑信号在某些情况下可以用于用户身份验证，也可能在特定刺激设计下泄露私人信息。减少发送给外部AI服务的数据量，是一种应用层面的隐私保护措施。不过团队也明确指出，这只是应用端的数据暴露减少，不等于符合HIPAA或GDPR等法规要求，真正的合规需要部署层面的合同、访问控制、数据保留策略等一整套机制，远超应用层的设计范围。

五、系统实际能做哪些分析，每种分析有什么限制

知道了边界在哪里，还需要知道边界里面有什么。当前版本的NeuraDock Agent包含六种经过审查的分析流程，每种都有明确的输入要求和输出限制。

信号质量分析是最基础的流程，负责检查录制文件的完整性，输出每个时间片段的质量评分、问题类型统计、空间分布警告，以及质量通过后的干净数据文件。这个流程是其他所有分析的前提，如果信号质量很差，后续分析的结果就需要谨慎对待。

功率谱密度和频段功率分析是一种传感器层面的频率描述工具，能告诉你各个频段（从低频的δ波到高频的γ波）的相对能量，以及枕区阿尔法波的峰值频率在哪里。这里的关键限制是：这是传感器层面的描述，不是皮层源定位，也就是说可以说"枕区8到13赫兹的功率比较高"，但不能说"大脑视觉皮层V1区的阿尔法活动增强了"，因为从头皮传感器到具体皮层区域的推断需要完全不同的数学工具，当前软件里没有实现。

视觉认知负荷分析是最复杂也最需要理解其限制的流程。它的工作原理是把录制分成四秒一个的窗口（每次前进一秒），每个窗口里计算三个特征：后枕区O1、O2、Oz、PO3、PO4五个通道的平均阿尔法功率（取对数）、阿尔法峰值频率，以及左右两侧的不对称性（右侧减左侧除以总和）。然后用这三个特征合成一个分数，权重分别是0.65、0.15、0.20，其中阿尔法功率占了大头，因为研究普遍发现执行视觉任务时阿尔法功率会下降。得分越高表示相对负荷越高，最后按照分数的三等分位点把所有有效窗口分成低、中、高三类。

这里有一个极其重要但很容易被忽视的限制：这个分类是在同一次录制内部的相对排名，不是绝对量表。团队在论文里特别强调，三类窗口的数量几乎相等，不是因为大脑恰好有三种清晰的认知状态，而是因为分类算法本身就是按三等分位点来切割的，数学上必然产生接近均等的分组。把这个结果解读为"三种外部验证的认知状态"是错误的。更不能用这个结果来诊断视觉疲劳、注意力障碍或任何临床状况。

Rest/Task对比分析是一个成对比较工具，给定同一个人在休息状态和任务状态下的两段录制，比较枕区对数阿尔法功率、峰值频率、不对称性以及信号保留率的差异。这个流程支持的说法是"任务状态下的枕区阿尔法中位数比休息状态低"，不支持的说法是"这个人在任务中更专注"或者"这个效应会出现在所有人身上"。

设备诊断流程是一个短时TCP数据流抓取和诊断工具，检查数据包和时间戳，产生可重现的文字报告，主要用于确认硬件连接和数据传输是否正常。演示流程则是一个完全无需真实硬件的合成数据演示，用于开发者在没有设备的情况下测试软件功能，它产生的结果不代表任何真实的人类脑电数据。

2026年6月24日的公开发布版本还新增了一个阿尔法动态分析工作流，专门用于分析强/弱后枕阿尔法周期、阿尔法抑制、峰值频率和后枕不对称性，同时新增了本地实时API接口和浏览器仪表盘，支持应用层的质量门控交互。发布版还包含三个应用示例，分别是视觉搜索、自适应车载人机交互和认知负荷游戏，这三个示例都遵循同一个核心规则：只有当质量状态通过时，应用才能进行适应性调整；如果质量不通过，应用应该保持当前状态并显示质量警告。

六、重要的反面结果：哪些东西系统检测不到

科学研究里，知道什么不能做有时候和知道什么能做同样重要，甚至更重要。NeuraDock团队在论文里没有回避这台设备质量检测系统的局限性，而是通过一组控制实验把局限性量化出来。

实验用合成生成的20秒七通道信号，在PO3通道的一个固定一秒目标片段里注入四种不同类型的干扰，每种干扰做了20次重复，以便评估检测的一致性。

对于50赫兹的工频干扰（就是电源线泄漏的电磁干扰），5微伏幅度时完全检测不到，10微伏及以上时100%检测到，被检测到的片段会被排除，同时整体录制的平均样本保留率约为95%。30赫兹的高频干扰也呈现类似的阈值特征。高幅度脉冲（就像电极突然抖动产生的短暂大幅波动）即使只有一个，也能被检测到。不过团队提醒，滤波处理可以把一个尖锐的脉冲扩散到相邻的多个采样点，所以"注入了一个脉冲"不等于"只有一个采样点超过阈值"。

最重要的反面结果来自平线测试：当一个通道的信号完全变成了直线（从1秒到15秒不等），当前的质量检测流程完全没有检测到这种情况。这是一个明确的具体缺陷：当前用的一秒片段质量检测器没有针对低方差或平线的显式指标，而录制层面的空间一致性检查也没能捕捉到这个问题。团队在论文里明确表示，"该系统能完整检测所有伪迹"这种说法是不成立的，平线这种故障模式就不在当前的检测能力之内，需要在未来的版本里专门添加。

七、边界意识基准测试：36道题、四种条件、两个模型

最能直接回答"给AI提供设备特定的上下文信息有没有用"这个问题的，是团队设计的边界意识基准测试。这组测试类似于一场考试，专门考察AI在被问到各种请求时，能不能准确判断这个请求属于哪种情况：可以支持（Supported）、有条件支持（Conditional）、不支持（Unsupported）、还是当前未实现（Not Implemented）。

测试包含36个预先设计的案例，均匀分布在六个类别里：传感器能观测什么、软件实现了什么、结果字段的含义是什么、质量问题如何诊断、科学推断的边界在哪里，以及工作流怎么集成。36个案例里大约有9个应该回答"可以支持"，8个"有条件支持"，9个"不支持"，10个"当前未实现"。其中有些案例是正常的合理请求，有些是特意设计的对抗性问题，比如引用了不存在的字段名、声称某个通道是参考通道（实际上不是），或者要求做超出科学证据支持范围的结论。

每个案例在四种不同的上下文条件下各测试一次。第一种是通用条件，也就是只给AI一个"你是脑电图助手"的通用指令，完全没有NeuraDock相关的具体信息；第二种是硬件条件，只提供七通道设备的正式硬件规格文档；第三种是硬件加实现条件，在硬件文档基础上再加上工作流目录、结果字段说明和实现模块映射；第四种是完整上下文，在前者基础上再加上系统政策、科学边界说明和审查过的参考案例。两个AI模型（qwen3.7-max和kimi-k2.6）分别在这四种条件下各回答一次，共产生288个输出。

每个输出需要遵循一个结构化JSON格式，包含决策类型、约束来源标签、答案文本、证据说明和替代建议。主要评分指标是四分类决策的精确率，次要指标包括必要事实的覆盖率、接受了不该接受的请求的比例、拒绝了本来可以支持的请求的比例，以及一个严格的"安全回应"综合指标（要求同时满足：决策精确、覆盖三分之二以上必要事实、没有错误断言）。

结果显示，汇总四分类决策精确率从通用条件的58.3%逐步提升到硬件条件的70.8%、硬件加实现条件的76.4%，最终到完整上下文的79.2%。这是一个单调递增的关系，表明每层上下文信息都有独立的贡献。

更值得关注的是可行请求的拒绝率变化。通用条件下，AI在面对本来可以支持的请求时，有27.8%的情况选择了拒绝，也就是过于保守。完整上下文条件下，这个拒绝率降到了8.3%。与此同时，接受不该接受的请求的比例在完整上下文条件下只有1.4%，非常低。这个结果清楚地说明，改善主要不是靠"更多地拒绝"，而是靠"更准确地判断什么应该接受、什么应该拒绝、什么应该附条件接受"。

严格安全回应率从通用条件的26.4%提升到完整上下文的66.7%。按类别细看：传感器可观测性的安全回应率是75%，实现能力是75%，结果解读是66.7%，质量诊断是66.7%，科学克制是83.3%，工作流集成最低只有33.3%。工作流集成最差这个结果说明，光靠文档说明是不够的，有些功能如果根本没有在代码里实现，再多的文档也无法帮AI给出正确答案。

在按模型分析的配对检验中，对于qwen3.7-max，完整上下文相比通用条件在10个案例上改善、在2个案例上退步，对应的精确配对麦克尼玛检验p值为0.0386，达到了统计显著性。kimi-k2.6的结果是9比2，p值为0.0654，略高于0.05。严格安全回应的改善对两个模型都具有显著性。

八、一个微妙但重要的发现：信息越多不总是越好

在所有结果里，有一个细节特别值得关注。汇总四分类精确率确实在完整上下文条件下最高，但严格安全回应率在"硬件加实现"条件下达到了68.1%，反而略高于完整上下文的66.7%。这个差距很小，而且只基于每个条件一次生成，可能存在随机波动，但它引出了一个深刻的问题：给AI塞更多信息，有时候反而会让它表现变差。

可能的机制有几种。额外的科学边界说明可能让AI在本来可以支持的条件性请求上过度保守，把"有条件支持"变成了"不支持"。参考案例可能让AI把当前问题套到错误的案例模板上。相互竞争的定义可能让"条件性支持"这个细粒度标签变得更难精确把握。当前实验无法区分这几种机制，但结果本身就是一个值得重视的信号。

这对AI系统设计有实际意义。检索增强生成（RAG，也就是让AI先去文档库里搜索相关内容再回答）的质量不只是一个"多搜到一些就越好"的问题，上下文也会改变AI的决策策略。额外的警告说明会增加过度拒绝的倾向，错误的示例会让答案锚定在错误方向，相互竞争的定义会模糊细粒度标签。因此，正确的目标不是"最大化上下文覆盖"，而是"选择和当前问题最相关的上下文模块"。

一个实际的架构方向是：根据用户的问题类型，动态选择要提供给AI的上下文模块。如果用户问的是输入文件格式，就提供硬件文档和实现文档；如果用户问的是某个分析结果的含义，就提供结果字段说明和科学边界文档。无论选哪种组合，检索选择本身都应该是版本化的、可审计的，并且作为系统安全评估的一部分来测试，而不是一个可以随意调整的外围功能。

九、那66.7%以外的33.3%，究竟错在哪里

完整上下文条件下有66.7%的回应达到了严格安全标准，剩下33.3%没有通过，这33.3%不通过的情况是什么样的？团队做了详细的分解分析。

72个完整上下文的回应里，48个三项全部通过（决策精确、事实覆盖充分、无错误断言），24个没有通过。在这24个失败案例里，15个是四分类决策本身就错了，9个是决策对了但遗漏了必要事实，没有任何一个是仅仅因为包含了错误断言而失败。

在15个决策错误里，有7个是把"有条件支持"误判为"支持"——也就是忽略了必须附带的限制说明。有5个把本来有条件支持的请求判断成"不支持"，还有1个判断成了"当前未实现"，这两种都是过度拒绝。剩下两个是把"当前未实现"误判成了其他类别。其中那个误判成"支持"的案例是唯一的一个"接受了不该接受的请求"：一个AI错误地声称功率谱密度工作流可以直接聚合NPY格式的试次批量文件，而实际上这个功能当前没有实现。

那9个"决策对了但遗漏事实"的失败案例，集中在工作流集成类别，这类问题往往需要AI同时提到多个不存在的元素，比如某个字段不存在、执行是离线的、系统没有执行器接口，缺少任何一个都会失败。结果解读和质量诊断类别各贡献了约四个失败案例。

一个鼓励性的发现是：在完整上下文条件下，没有任何回应是"仅因为包含预设错误断言而失败"。这说明完整上下文在防止明确的事实错误方面效果相当好，剩余的失败主要是细粒度判断的精度问题，而不是严重的幻觉问题。

十、实验室里的脑电波真的按预期变化了吗

除了系统测试和AI基准测试，团队还做了一些探索性的真实脑电数据实验，来展示这套系统在实际使用场景下的表现。这些结果的重要程度不同，需要分别对待。

一个公开的52.84秒眼睛睁开闭合示例录制保留了65.9%的样本，产生了41个有效窗口和61个被排除的窗口。用中位数切分，高阿尔法功率和低阿尔法功率的时间段之间，功率比达到了7.01倍，阿尔法功率与相邻频段功率的比值中位数是1.09。这些数字显示后枕区确实存在明显的阿尔法功率时间变化，符合已知的眼睛睁闭状态切换时阿尔法波变化的生理规律。但有一个重要限制：这个分析没有外部的眼睛状态标签，所以是用同一段信号来切分的，无法计算睁眼闭眼分类的准确率。

三个参与者六对休息和任务状态的配对录制数据里，有四对的任务状态后枕阿尔法功率低于休息状态（也就是四对里任务阿尔法更低，符合理论预期），两对相反。中位数任务减休息对数阿尔法差值是-0.0176，对应的任务/休息功率比是0.960，即任务状态下的阿尔法功率平均约为休息状态的96%。单侧威尔科克森符号秩检验p值为0.4219，精确符号检验p值为0.3438，两者都没有达到统计显著性。三个参与者个体层面的差值分别是正的0.0042、正的0.0581和负的0.0646，方向都不一样。

团队对这个结果的态度是诚实的：样本量太小（三人六对），结果混杂，只能作为一个质量意识的可行性示例，完全不能支持"视觉认知负荷分析有效"的结论。真正的生理效度验证需要一个独立的研究：有足够样本量的参与者、平衡设计的视觉任务、外部行为指标（反应时间和准确率）、主观工作负荷量表，以及能分离参与者间变异的混合效应统计模型。

十一、这套系统能做什么、不能做什么的完整边界

把以上所有内容梳理一遍，就能得到一张关于NeuraDock Agent当前版本能力和局限的完整地图。

当前版本确实做到的事情是：本地确定性计算，相同输入必然产生相同输出，12段录制各做了10次重复实验，每次结果完全一致；完整的端对端运行（包括结果、报告和图表）做了三次重复，哈希值完全一致；应用层减少了发送给AI的数据量；语言服务的失败不影响本地计算结果；在36个基准测试案例中，边界意识随上下文增加而改善。

当前版本明确不能做的是：临床诊断任何认知状态、情绪状态或神经系统疾病；做额叶或颞叶的任何分析（物理上不可能）；做皮层源定位（工具不存在）；做跨参与者或跨录制的绝对量表比较；检测信号平线（已知的检测盲区）；做ICA去噪（未实现）；做经过独立验证的SSVEP分类（未实现）；提供符合医疗法规的合规保障。

更重要的是，论文明确说明这套系统的定位：它是一个辅助用户理解和使用特定硬件和特定软件的工具，不是替代专业脑电图分析软件（如MNE-Python或EEGLAB）的存在，更不是替代有经验的电生理学家的存在。当一个研究项目需要源定位、ICA去噪、复杂的事件相关设计或群体水平的统计分析时，正确的选择是把适当的数据导出，然后用更广泛的专业工具配合专家判断来处理，而不是期待这套系统能扩展出那些能力。

归根结底，这项研究想说的是：一个AI助手如果知道自己的仪器有七个传感器放在头部后方、知道当前软件实现了哪些功能、知道每个输出字段的确切含义和适用范围，它就会是一个靠谱的工具。如果它不知道这些，哪怕它的通用知识再丰富，在具体使用场景里也会产生虽然流利但实际上不对的答案。

边界意识的核心不是"更多地拒绝"，而是"更准确地知道什么时候该说可以、什么时候该说可以但有限制、什么时候该说目前做不到"。这个区分，在科学仪器这类对准确性要求很高的领域里，远比看起来重要得多。

如果你对这些内容感兴趣，想进一步了解技术细节，可以通过arXiv编号2606.26519找到完整论文，也可以在GitHub上搜索"Neuradock/eeg-workstation-agent"找到开源代码和示例。

Q&A

Q1：NeuraDock Agent的视觉认知负荷分析结果能跨人比较吗？

A：不能。视觉认知负荷的低、中、高分类是在同一次录制内部相对比较得出的，是按照该次录制所有有效窗口的三等分位点来划分的。这意味着同一个人两次录制之间的结果不能直接比较，不同人之间更不能比较。要跨人或跨录制比较，需要建立在经过独立验证的绝对量表基础上，而当前版本没有这样的量表。

Q2：NeuraDock设备的七个传感器为什么都在头部后方，不覆盖前额？

A：这是NeuraDock设备的设计定位决定的。这台设备专门面向视觉相关的研究场景，后枕区（O1、O2、Oz）和顶枕区（PO3、PO4）正好覆盖大脑的视觉处理区域，适合研究视觉刺激诱发的脑电变化。CP5和CP6虽然偏向中央顶区，但也是EEG通道，不是参考电极。这个设计带来的必然结果是无法做任何需要额叶或颞叶信号的分析，比如情绪识别或语言处理相关研究。

Q3：NeuraDock Agent给AI提供更多上下文信息，效果一定更好吗？

A：不一定。测试发现，"硬件加实现"条件下的严格安全回应率（68.1%）反而略高于完整上下文条件（66.7%）。额外的科学边界说明和参考案例可能让AI在某些有条件支持的请求上变得过于保守，或者被错误的示例带偏。因此，正确的做法不是把所有文档都塞给AI，而是根据具体问题类型，有选择地提供最相关的上下文模块。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.