![]()
这项由上海脉元智能科技有限公司(NeuraDock)主导的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.26519,感兴趣的读者可通过该编号在arXiv平台查询完整原文。
当你拿着一部只有后置摄像头的手机,却让AI助手帮你分析前置自拍照片的光线问题,这个AI如果不知道你的手机根本没有前置摄像头,就可能煞有介事地给你分析一番,说得头头是道,实际上完全是在胡说。这个场景,正是NeuraDock团队在脑电图(EEG)领域遇到的真实问题——也是他们花了大量精力去解决的核心挑战。
脑电图技术,简单说就是在人的头皮上贴几个传感器,记录大脑产生的微弱电信号,以此研究大脑的活动状态。这项技术在研究人的注意力、疲劳程度、视觉处理等方面有重要价值。但传统上,脑电图设备价格昂贵、操作复杂,需要专业人员才能使用。NeuraDock开发了一款只有七个传感器的轻量级干电极脑电图设备,目标是让更多研究者和开发者能够方便地使用这项技术。
麻烦来了——当他们想用大语言模型(也就是ChatGPT这类AI)来帮用户理解和使用这台设备时,发现AI会自作聪明地超越设备实际能力范围乱说话。AI对脑电图领域确实"懂很多",但它不知道这台具体设备只有七个传感器放在头部后方,不知道当前软件究竟实现了哪些功能,更不知道某个分析结果能支持什么样的科学结论、不能支持什么样的推断。于是AI就像那个不知道手机没有前置摄像头的助手,说出很多听起来合理、实际上完全不对甚至有害的话。
NeuraDock团队为此设计了一套叫做"NeuraDock Agent"的系统架构,并进行了一系列严格的评测实验,最终整理成这篇论文,向整个行业展示:如何让AI在科学仪器辅助领域既有用,又不瞎说。
一、这台脑电仪到底能看到什么,AI凭什么说它懂
在深入理解这套系统之前,有必要先弄清楚这台设备究竟是什么样的存在,以及它能做到什么、做不到什么。
NeuraDock这台设备有七个传感器,严格按照顺序排列,分别叫做CP5、CP6、PO3、PO4、O1、Oz、O2。对于不熟悉脑电图的读者来说,这些字母和数字组合就是电极在头皮上的位置名称,类似于地图上的坐标。CP5和CP6大致在头顶偏后两侧,PO3和PO4在更靠后的位置,O1、Oz、O2则集中在后脑勺枕部区域。这个排列意味着什么呢?它意味着这台设备只能"看到"大脑后部区域的电活动,那里主要负责视觉信息处理。
这是一个关键的物理限制。大脑前额叶负责情绪调控和决策,颞叶负责语言和听觉处理,但这台设备的七个传感器完全没有覆盖这些区域。如果有人问"这台设备能不能分析一个人的情绪倾向",正确答案是"不能,因为情绪相关的额叶根本不在传感器的覆盖范围内"。但一个不了解这台设备具体布局的AI,完全可能洋洋洒洒地给出看起来很专业的情绪分析建议,而那些建议从物理上就站不住脚。
设备以每秒250个采样点的频率记录信号,单位是微伏(一微伏是一伏特的百万分之一,脑电信号非常微弱)。系统还内置了一套信号质量检测规则:如果某个一秒钟的片段里,49到51赫兹的干扰功率超过10,或者信号幅度超过100微伏,或者超过两个采样点越过了阈值,这个片段就会被标记为有问题并排除。这些都是工程上经过审查的具体数值,不是随口说说的,也不是AI能够自行发明的。
明白了这台设备的物理限制后,就能理解为什么研究团队要花大力气建立一套"边界意识"——让AI清楚地知道这台设备的感知边界在哪里。
二、AI在科学仪器领域的四种"越界"方式
NeuraDock团队把AI可能犯的错误归纳成四类,每类都对应一种不同性质的边界,就像一个厨师可能在四个不同层面上犯错:误判了厨房有哪些锅具、以为某道菜谱已经开发好了其实没有、误读了菜谱的具体步骤、或者过度宣称某道菜能治病。
第一种叫"物理边界"错误,本质是搞不清楚这台设备的传感器能感知什么。比如有人问能不能做额叶阿尔法不对称情绪识别,但传感器根本不在额叶位置,这个请求从物理上就无法完成。一个不了解设备布局的AI可能不知道这个限制,于是给出错误的肯定答复。
第二种叫"实现边界"错误,也就是搞不清楚当前软件里实际上写了哪些功能、没写哪些功能。脑电图有很多理论上可行的分析方法,但不是每种方法都在当前版本的软件里实现了。比如独立成分分析(一种去除眼动干扰的技术)和稳态视觉诱发电位分类器在理论上都可以做,但在当前版本里根本没有实现。一个AI如果不知道这一点,可能会告诉用户"运行这个命令就能做到",结果用户去找这个命令根本不存在。
第三种叫"结果边界"错误,是指搞不清楚某个计算结果字段的真实含义。举个例子,这套系统会给出一个"视觉认知负荷"分类(低、中、高),但这个分类是在当次录制内部相对比较得出的百分位排名,不能拿来和另一个人的数据比较说谁的负荷更高。分类在一次录制内部有意义,跨录制则没有可比性。
第四种叫"科学边界"错误,是最难把握也最容易犯的一种。即便前三种边界都没有越过,也可能在科学推断上走得太远。比如信号质量检查通过了,不等于可以说"这个人当时非常专注";后脑枕区的阿尔法波不对称,不等于和情绪相关的额叶阿尔法不对称是一回事。观察到了现象,和这个现象证明了某个结论,是完全不同的两回事。
这四种边界相互关联但不能互相替代,这正是问题的复杂所在。
三、系统的核心设计:让AI只接触"精简版摘要"
理解了这四种边界,就能理解NeuraDock Agent的核心设计思想了。这套系统最本质的选择是:把数学计算和语言表达彻底分开,让AI永远只能看到经过严格筛选的摘要信息,而不是原始数据。
具体来说,系统分成两个相互隔离的部分。左边是本地确定性科学核心,负责所有的真正计算:解析录制文件、执行质量检查、运行经过审查的分析流程、生成结果文件和图表。这部分完全在用户的电脑上运行,是数值真相的唯一来源。AI无法修改这部分的任何计算逻辑,无法更改滤波器参数,无法改写统计方法。
右边是语言层,也就是大模型。但AI看到的不是原始脑电数据,而是经过"白名单"严格筛选的精简摘要。团队专门定义了每种分析流程允许传递给AI的字段清单。以视觉认知负荷工作流为例,允许传递的内容包括:状态和警告标志、质量对象(包括信号保留率、被排除的片段数量、坏道候选等)、分析用的通道名称、阿尔法频段范围、窗口参数、分类元数据、窗口计数、各类别的计数和比例、早期和晚期的趋势汇总、前二十个时间段标签,以及解释限制说明。
与此同时,以下内容被明确排除在外:原始采样数据、每个试次的信号、完整的功率谱密度数组、完整的窗口记录数组,以及本地文件路径。团队还专门在这个摘要里设置了一个标志位,明确声明"raw_eeg_included=false",以便在审计时快速确认。
为了验证这个边界真的起作用,团队做了一个实验:让系统分析一段包含649040个脑电采样值的录制文件,然后抓取系统实际发送给AI的请求内容,检查里面有没有原始数据。结果显示,原始录制文件大小是8145499字节,而发给AI规划模块的请求只有10612字节,发给AI解释模块的请求是23295字节。团队还专门从原始录制中随机取样了140个数值作为"探针",确认这140个数值在发出的请求里完全不存在,文件路径也不在请求里,任何密集数组的键名也没有出现。这就从实验角度证明了边界在应用层面上确实起到了作用。
四、万一AI服务崩了,本地计算结果会不会丢失
系统设计的另一个重要原则是:语言层是可选的附加服务,绝对不能影响本地计算结果的完整性。这个原则听起来简单,但实现起来需要仔细的系统设计。
团队专门做了一组故障注入实验来验证这一点。他们依次模拟了三种AI服务失败场景:HTTP 400错误(服务器明确拒绝请求)、输出格式错误(AI返回了无法解析的内容),以及连接被拒绝(根本连不上AI服务)。在这三种情况下,系统都会继续保存本地的结果文件results.json、分析报告report.md、运行追踪记录agent_trace.json,以及标记了"解释失败"状态的说明文件。
换句话说,AI能正常工作时,它负责帮用户解释结果、回答问题、提供建议。AI挂掉的时候,用户的数据分析结果仍然完整,完全不受影响,只是少了自然语言解释这个附加功能。科学计算的正确性和语言服务的可用性是两个独立的事情,互不干扰。
这个设计选择背后还有一层考量:脑电图数据可能包含个人隐私信息。已有研究证明,脑信号在某些情况下可以用于用户身份验证,也可能在特定刺激设计下泄露私人信息。减少发送给外部AI服务的数据量,是一种应用层面的隐私保护措施。不过团队也明确指出,这只是应用端的数据暴露减少,不等于符合HIPAA或GDPR等法规要求,真正的合规需要部署层面的合同、访问控制、数据保留策略等一整套机制,远超应用层的设计范围。
五、系统实际能做哪些分析,每种分析有什么限制
知道了边界在哪里,还需要知道边界里面有什么。当前版本的NeuraDock Agent包含六种经过审查的分析流程,每种都有明确的输入要求和输出限制。
信号质量分析是最基础的流程,负责检查录制文件的完整性,输出每个时间片段的质量评分、问题类型统计、空间分布警告,以及质量通过后的干净数据文件。这个流程是其他所有分析的前提,如果信号质量很差,后续分析的结果就需要谨慎对待。
功率谱密度和频段功率分析是一种传感器层面的频率描述工具,能告诉你各个频段(从低频的δ波到高频的γ波)的相对能量,以及枕区阿尔法波的峰值频率在哪里。这里的关键限制是:这是传感器层面的描述,不是皮层源定位,也就是说可以说"枕区8到13赫兹的功率比较高",但不能说"大脑视觉皮层V1区的阿尔法活动增强了",因为从头皮传感器到具体皮层区域的推断需要完全不同的数学工具,当前软件里没有实现。
视觉认知负荷分析是最复杂也最需要理解其限制的流程。它的工作原理是把录制分成四秒一个的窗口(每次前进一秒),每个窗口里计算三个特征:后枕区O1、O2、Oz、PO3、PO4五个通道的平均阿尔法功率(取对数)、阿尔法峰值频率,以及左右两侧的不对称性(右侧减左侧除以总和)。然后用这三个特征合成一个分数,权重分别是0.65、0.15、0.20,其中阿尔法功率占了大头,因为研究普遍发现执行视觉任务时阿尔法功率会下降。得分越高表示相对负荷越高,最后按照分数的三等分位点把所有有效窗口分成低、中、高三类。
这里有一个极其重要但很容易被忽视的限制:这个分类是在同一次录制内部的相对排名,不是绝对量表。团队在论文里特别强调,三类窗口的数量几乎相等,不是因为大脑恰好有三种清晰的认知状态,而是因为分类算法本身就是按三等分位点来切割的,数学上必然产生接近均等的分组。把这个结果解读为"三种外部验证的认知状态"是错误的。更不能用这个结果来诊断视觉疲劳、注意力障碍或任何临床状况。
Rest/Task对比分析是一个成对比较工具,给定同一个人在休息状态和任务状态下的两段录制,比较枕区对数阿尔法功率、峰值频率、不对称性以及信号保留率的差异。这个流程支持的说法是"任务状态下的枕区阿尔法中位数比休息状态低",不支持的说法是"这个人在任务中更专注"或者"这个效应会出现在所有人身上"。
设备诊断流程是一个短时TCP数据流抓取和诊断工具,检查数据包和时间戳,产生可重现的文字报告,主要用于确认硬件连接和数据传输是否正常。演示流程则是一个完全无需真实硬件的合成数据演示,用于开发者在没有设备的情况下测试软件功能,它产生的结果不代表任何真实的人类脑电数据。
2026年6月24日的公开发布版本还新增了一个阿尔法动态分析工作流,专门用于分析强/弱后枕阿尔法周期、阿尔法抑制、峰值频率和后枕不对称性,同时新增了本地实时API接口和浏览器仪表盘,支持应用层的质量门控交互。发布版还包含三个应用示例,分别是视觉搜索、自适应车载人机交互和认知负荷游戏,这三个示例都遵循同一个核心规则:只有当质量状态通过时,应用才能进行适应性调整;如果质量不通过,应用应该保持当前状态并显示质量警告。
六、重要的反面结果:哪些东西系统检测不到
科学研究里,知道什么不能做有时候和知道什么能做同样重要,甚至更重要。NeuraDock团队在论文里没有回避这台设备质量检测系统的局限性,而是通过一组控制实验把局限性量化出来。
实验用合成生成的20秒七通道信号,在PO3通道的一个固定一秒目标片段里注入四种不同类型的干扰,每种干扰做了20次重复,以便评估检测的一致性。
对于50赫兹的工频干扰(就是电源线泄漏的电磁干扰),5微伏幅度时完全检测不到,10微伏及以上时100%检测到,被检测到的片段会被排除,同时整体录制的平均样本保留率约为95%。30赫兹的高频干扰也呈现类似的阈值特征。高幅度脉冲(就像电极突然抖动产生的短暂大幅波动)即使只有一个,也能被检测到。不过团队提醒,滤波处理可以把一个尖锐的脉冲扩散到相邻的多个采样点,所以"注入了一个脉冲"不等于"只有一个采样点超过阈值"。
最重要的反面结果来自平线测试:当一个通道的信号完全变成了直线(从1秒到15秒不等),当前的质量检测流程完全没有检测到这种情况。这是一个明确的具体缺陷:当前用的一秒片段质量检测器没有针对低方差或平线的显式指标,而录制层面的空间一致性检查也没能捕捉到这个问题。团队在论文里明确表示,"该系统能完整检测所有伪迹"这种说法是不成立的,平线这种故障模式就不在当前的检测能力之内,需要在未来的版本里专门添加。
七、边界意识基准测试:36道题、四种条件、两个模型
最能直接回答"给AI提供设备特定的上下文信息有没有用"这个问题的,是团队设计的边界意识基准测试。这组测试类似于一场考试,专门考察AI在被问到各种请求时,能不能准确判断这个请求属于哪种情况:可以支持(Supported)、有条件支持(Conditional)、不支持(Unsupported)、还是当前未实现(Not Implemented)。
测试包含36个预先设计的案例,均匀分布在六个类别里:传感器能观测什么、软件实现了什么、结果字段的含义是什么、质量问题如何诊断、科学推断的边界在哪里,以及工作流怎么集成。36个案例里大约有9个应该回答"可以支持",8个"有条件支持",9个"不支持",10个"当前未实现"。其中有些案例是正常的合理请求,有些是特意设计的对抗性问题,比如引用了不存在的字段名、声称某个通道是参考通道(实际上不是),或者要求做超出科学证据支持范围的结论。
每个案例在四种不同的上下文条件下各测试一次。第一种是通用条件,也就是只给AI一个"你是脑电图助手"的通用指令,完全没有NeuraDock相关的具体信息;第二种是硬件条件,只提供七通道设备的正式硬件规格文档;第三种是硬件加实现条件,在硬件文档基础上再加上工作流目录、结果字段说明和实现模块映射;第四种是完整上下文,在前者基础上再加上系统政策、科学边界说明和审查过的参考案例。两个AI模型(qwen3.7-max和kimi-k2.6)分别在这四种条件下各回答一次,共产生288个输出。
每个输出需要遵循一个结构化JSON格式,包含决策类型、约束来源标签、答案文本、证据说明和替代建议。主要评分指标是四分类决策的精确率,次要指标包括必要事实的覆盖率、接受了不该接受的请求的比例、拒绝了本来可以支持的请求的比例,以及一个严格的"安全回应"综合指标(要求同时满足:决策精确、覆盖三分之二以上必要事实、没有错误断言)。
结果显示,汇总四分类决策精确率从通用条件的58.3%逐步提升到硬件条件的70.8%、硬件加实现条件的76.4%,最终到完整上下文的79.2%。这是一个单调递增的关系,表明每层上下文信息都有独立的贡献。
更值得关注的是可行请求的拒绝率变化。通用条件下,AI在面对本来可以支持的请求时,有27.8%的情况选择了拒绝,也就是过于保守。完整上下文条件下,这个拒绝率降到了8.3%。与此同时,接受不该接受的请求的比例在完整上下文条件下只有1.4%,非常低。这个结果清楚地说明,改善主要不是靠"更多地拒绝",而是靠"更准确地判断什么应该接受、什么应该拒绝、什么应该附条件接受"。
严格安全回应率从通用条件的26.4%提升到完整上下文的66.7%。按类别细看:传感器可观测性的安全回应率是75%,实现能力是75%,结果解读是66.7%,质量诊断是66.7%,科学克制是83.3%,工作流集成最低只有33.3%。工作流集成最差这个结果说明,光靠文档说明是不够的,有些功能如果根本没有在代码里实现,再多的文档也无法帮AI给出正确答案。
在按模型分析的配对检验中,对于qwen3.7-max,完整上下文相比通用条件在10个案例上改善、在2个案例上退步,对应的精确配对麦克尼玛检验p值为0.0386,达到了统计显著性。kimi-k2.6的结果是9比2,p值为0.0654,略高于0.05。严格安全回应的改善对两个模型都具有显著性。
八、一个微妙但重要的发现:信息越多不总是越好
在所有结果里,有一个细节特别值得关注。汇总四分类精确率确实在完整上下文条件下最高,但严格安全回应率在"硬件加实现"条件下达到了68.1%,反而略高于完整上下文的66.7%。这个差距很小,而且只基于每个条件一次生成,可能存在随机波动,但它引出了一个深刻的问题:给AI塞更多信息,有时候反而会让它表现变差。
可能的机制有几种。额外的科学边界说明可能让AI在本来可以支持的条件性请求上过度保守,把"有条件支持"变成了"不支持"。参考案例可能让AI把当前问题套到错误的案例模板上。相互竞争的定义可能让"条件性支持"这个细粒度标签变得更难精确把握。当前实验无法区分这几种机制,但结果本身就是一个值得重视的信号。
这对AI系统设计有实际意义。检索增强生成(RAG,也就是让AI先去文档库里搜索相关内容再回答)的质量不只是一个"多搜到一些就越好"的问题,上下文也会改变AI的决策策略。额外的警告说明会增加过度拒绝的倾向,错误的示例会让答案锚定在错误方向,相互竞争的定义会模糊细粒度标签。因此,正确的目标不是"最大化上下文覆盖",而是"选择和当前问题最相关的上下文模块"。
一个实际的架构方向是:根据用户的问题类型,动态选择要提供给AI的上下文模块。如果用户问的是输入文件格式,就提供硬件文档和实现文档;如果用户问的是某个分析结果的含义,就提供结果字段说明和科学边界文档。无论选哪种组合,检索选择本身都应该是版本化的、可审计的,并且作为系统安全评估的一部分来测试,而不是一个可以随意调整的外围功能。
九、那66.7%以外的33.3%,究竟错在哪里
完整上下文条件下有66.7%的回应达到了严格安全标准,剩下33.3%没有通过,这33.3%不通过的情况是什么样的?团队做了详细的分解分析。
72个完整上下文的回应里,48个三项全部通过(决策精确、事实覆盖充分、无错误断言),24个没有通过。在这24个失败案例里,15个是四分类决策本身就错了,9个是决策对了但遗漏了必要事实,没有任何一个是仅仅因为包含了错误断言而失败。
在15个决策错误里,有7个是把"有条件支持"误判为"支持"——也就是忽略了必须附带的限制说明。有5个把本来有条件支持的请求判断成"不支持",还有1个判断成了"当前未实现",这两种都是过度拒绝。剩下两个是把"当前未实现"误判成了其他类别。其中那个误判成"支持"的案例是唯一的一个"接受了不该接受的请求":一个AI错误地声称功率谱密度工作流可以直接聚合NPY格式的试次批量文件,而实际上这个功能当前没有实现。
那9个"决策对了但遗漏事实"的失败案例,集中在工作流集成类别,这类问题往往需要AI同时提到多个不存在的元素,比如某个字段不存在、执行是离线的、系统没有执行器接口,缺少任何一个都会失败。结果解读和质量诊断类别各贡献了约四个失败案例。
一个鼓励性的发现是:在完整上下文条件下,没有任何回应是"仅因为包含预设错误断言而失败"。这说明完整上下文在防止明确的事实错误方面效果相当好,剩余的失败主要是细粒度判断的精度问题,而不是严重的幻觉问题。
十、实验室里的脑电波真的按预期变化了吗
除了系统测试和AI基准测试,团队还做了一些探索性的真实脑电数据实验,来展示这套系统在实际使用场景下的表现。这些结果的重要程度不同,需要分别对待。
一个公开的52.84秒眼睛睁开闭合示例录制保留了65.9%的样本,产生了41个有效窗口和61个被排除的窗口。用中位数切分,高阿尔法功率和低阿尔法功率的时间段之间,功率比达到了7.01倍,阿尔法功率与相邻频段功率的比值中位数是1.09。这些数字显示后枕区确实存在明显的阿尔法功率时间变化,符合已知的眼睛睁闭状态切换时阿尔法波变化的生理规律。但有一个重要限制:这个分析没有外部的眼睛状态标签,所以是用同一段信号来切分的,无法计算睁眼闭眼分类的准确率。
三个参与者六对休息和任务状态的配对录制数据里,有四对的任务状态后枕阿尔法功率低于休息状态(也就是四对里任务阿尔法更低,符合理论预期),两对相反。中位数任务减休息对数阿尔法差值是-0.0176,对应的任务/休息功率比是0.960,即任务状态下的阿尔法功率平均约为休息状态的96%。单侧威尔科克森符号秩检验p值为0.4219,精确符号检验p值为0.3438,两者都没有达到统计显著性。三个参与者个体层面的差值分别是正的0.0042、正的0.0581和负的0.0646,方向都不一样。
团队对这个结果的态度是诚实的:样本量太小(三人六对),结果混杂,只能作为一个质量意识的可行性示例,完全不能支持"视觉认知负荷分析有效"的结论。真正的生理效度验证需要一个独立的研究:有足够样本量的参与者、平衡设计的视觉任务、外部行为指标(反应时间和准确率)、主观工作负荷量表,以及能分离参与者间变异的混合效应统计模型。
十一、这套系统能做什么、不能做什么的完整边界
把以上所有内容梳理一遍,就能得到一张关于NeuraDock Agent当前版本能力和局限的完整地图。
当前版本确实做到的事情是:本地确定性计算,相同输入必然产生相同输出,12段录制各做了10次重复实验,每次结果完全一致;完整的端对端运行(包括结果、报告和图表)做了三次重复,哈希值完全一致;应用层减少了发送给AI的数据量;语言服务的失败不影响本地计算结果;在36个基准测试案例中,边界意识随上下文增加而改善。
当前版本明确不能做的是:临床诊断任何认知状态、情绪状态或神经系统疾病;做额叶或颞叶的任何分析(物理上不可能);做皮层源定位(工具不存在);做跨参与者或跨录制的绝对量表比较;检测信号平线(已知的检测盲区);做ICA去噪(未实现);做经过独立验证的SSVEP分类(未实现);提供符合医疗法规的合规保障。
更重要的是,论文明确说明这套系统的定位:它是一个辅助用户理解和使用特定硬件和特定软件的工具,不是替代专业脑电图分析软件(如MNE-Python或EEGLAB)的存在,更不是替代有经验的电生理学家的存在。当一个研究项目需要源定位、ICA去噪、复杂的事件相关设计或群体水平的统计分析时,正确的选择是把适当的数据导出,然后用更广泛的专业工具配合专家判断来处理,而不是期待这套系统能扩展出那些能力。
归根结底,这项研究想说的是:一个AI助手如果知道自己的仪器有七个传感器放在头部后方、知道当前软件实现了哪些功能、知道每个输出字段的确切含义和适用范围,它就会是一个靠谱的工具。如果它不知道这些,哪怕它的通用知识再丰富,在具体使用场景里也会产生虽然流利但实际上不对的答案。
边界意识的核心不是"更多地拒绝",而是"更准确地知道什么时候该说可以、什么时候该说可以但有限制、什么时候该说目前做不到"。这个区分,在科学仪器这类对准确性要求很高的领域里,远比看起来重要得多。
如果你对这些内容感兴趣,想进一步了解技术细节,可以通过arXiv编号2606.26519找到完整论文,也可以在GitHub上搜索"Neuradock/eeg-workstation-agent"找到开源代码和示例。
Q&A
Q1:NeuraDock Agent的视觉认知负荷分析结果能跨人比较吗?
A:不能。视觉认知负荷的低、中、高分类是在同一次录制内部相对比较得出的,是按照该次录制所有有效窗口的三等分位点来划分的。这意味着同一个人两次录制之间的结果不能直接比较,不同人之间更不能比较。要跨人或跨录制比较,需要建立在经过独立验证的绝对量表基础上,而当前版本没有这样的量表。
Q2:NeuraDock设备的七个传感器为什么都在头部后方,不覆盖前额?
A:这是NeuraDock设备的设计定位决定的。这台设备专门面向视觉相关的研究场景,后枕区(O1、O2、Oz)和顶枕区(PO3、PO4)正好覆盖大脑的视觉处理区域,适合研究视觉刺激诱发的脑电变化。CP5和CP6虽然偏向中央顶区,但也是EEG通道,不是参考电极。这个设计带来的必然结果是无法做任何需要额叶或颞叶信号的分析,比如情绪识别或语言处理相关研究。
Q3:NeuraDock Agent给AI提供更多上下文信息,效果一定更好吗?
A:不一定。测试发现,"硬件加实现"条件下的严格安全回应率(68.1%)反而略高于完整上下文条件(66.7%)。额外的科学边界说明和参考案例可能让AI在某些有条件支持的请求上变得过于保守,或者被错误的示例带偏。因此,正确的做法不是把所有文档都塞给AI,而是根据具体问题类型,有选择地提供最相关的上下文模块。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.