网易首页 > 网易号 > 正文 申请入驻

华南理工/麻省理工团队:面向EEG基础模型的数据基建

0
分享至



从诊断癫痫到驱动脑机接口,从监测睡眠到解码情绪,脑电图早已成为窥探大脑活动的窗口。然而,这些珍贵的脑电数据却像被飓风打散的拼图,散落在OpenNeuroPhysioNetOSFZenodoFigshare等数十个平台上,格式各异、标准不一。当你想训练一个能像GPT-3理解语言那样"理解"大脑的基础模型时,首先要面对的不是算法难题,而是"数据在哪里"的世纪之问。

一、827个数据集,13万人的"脑电拼图"

2026年,华南理工大学李小俚教授/陈贺教授团队,联合麻省理工学院路子童博士,在Brain-X期刊上发表了一项"数据基建"研究:系统筛查了2020年至2026年间公开发表的EEG资源,最终构建了一个包含827个数据集、覆盖13万余名参与者统一EEG数据注册表。这就像为散落在全球各地的脑电拼图,绘制了一张带GPS定位的藏宝图。


图1 EEG数据注册表概览,涵盖六大类别与核心元数据

这项工作的筛选过程堪称"学术考古"。研究团队遵循PRISMA-ScR系统综述指南,从各大平台初筛出近千条记录,经过标题摘要筛选、全文评估、去重和可用性验证,最终精确定位到827个符合标准的数据集。每一个被收录的数据集都必须满足严苛条件:包含可分析的EEG信号、具备可追溯的引用信息、提供支持再利用的基础元数据。


图2 基于PRISMA框架的数据集筛选与纳入流程

二、六大"门派":EEG数据的江湖格局

当这些拼图被摆上桌面,一幅EEG数据世界的"全景地图"首次清晰呈现。研究团队按科学意图将数据集划分为六大类别:认知(Cognitive)脑机接口(BCI)临床(Clinical)自然情境(Naturalistic)神经调控(Neuromodulation)方法学(Methodological)

其中,认知类数据集以504个的绝对优势占据半壁江山,涵盖感知、记忆与学习、语言处理、注意、执行功能、情绪处理等14个子领域。这反映出EEG研究长期以来扎根于严格控制的实验室范式,拥有清晰的事件标记和试次结构,非常适合事件相关电位(ERP)分析。


图3 认知类数据集的子类别分布,感知与记忆学习占据最大份额

临床类以116个数据集位居第二,构成了一座"数字疾病博物馆"。从阿尔茨海默病帕金森病自闭症谱系障碍(ASD)抑郁症精神分裂症,再到癫痫发作检测与睡眠分期,这些数据集将EEG从研究工具推向了诊断前沿。值得注意的是,许多癫痫数据集由临床中心通过独立网站发布,形成了一个高度碎片化的"数据飞地"。


图4 临床EEG数据集在神经系统疾病、精神疾病、癫痫等亚型中的分布

BCI类的106个数据集则像一部"人机交互进化史"。从经典的运动想象(MI)稳态视觉诱发电位(SSVEP)P300拼写器,再到情绪解码、语言意图识别,这些数据集的标准化程度最高,标签结构清晰,是算法 benchmarking 的"黄金矿场"。

相比之下,自然情境类(55个)和神经调控类(27个)则显得稀缺。前者记录真实世界中的驾驶、行走、游戏、自然视听场景,后者采集经颅磁刺激(TMS)、经颅直流电刺激(tDCS)等干预下的脑电变化。这种"贫富不均"暗示了一个潜在风险:如果直接用现有数据按比例训练基础模型,AI可能会变成一个只懂实验室范式、却看不懂真实生活的"书呆子"。

三、数据孤岛:平台之间的"巴别塔"

数据的分布不仅体现在科学类别上,也体现在"地理位置"——即存储平台上。OSF以353个数据集成为最大"数据仓库",但其内容高度偏向认知研究;OpenNeuro(173个)在认知与临床之间更为均衡;ZenodoFigshare则承载了更高比例的BCI数据集。这意味着,如果你只在一个平台搜索,很可能会系统性地遗漏某些研究范式。


图5 数据集在研究类别与数据平台上的结构分布


图6 主要EEG数据集在主要存储库平台上的分布,不同平台呈现明显的类别偏向

四、从"藏宝图"到"通用语":让AI真正读懂大脑

然而,这项研究最"硬核"的贡献不止于做目录。团队深知,即便有了藏宝图,不同设备、不同通道数、不同采样率的数据依然"语言不通"。为此,他们提供了一个轻量级归一化演示,选取了来自不同平台、覆盖RSVP视觉注意、语言产出、情绪调节和SSVEP四种范式的代表性数据集,执行了一条"翻译流水线":固定长度裁剪、平均重参考、将128通道映射到统一的32通道10-20模板、重采样至256Hz、0.5-40Hz带通滤波,最终输出格式无关的张量。


图7 EEG信号归一化工作流程,将异构数据转化为统一的32通道训练就绪表示

这揭示了一个关键思路:下一代EEG基础模型的瓶颈,可能不在于算法不够先进,而在于数据没有对齐。正如论文所言,现有模型如LaBraMEEGPTBIOT虽已迈出预训练步伐,但跨设备、跨任务、跨被试的泛化仍受限于数据的异质性。这个注册表通过标准化的元数据字段——包括任务范式、设备型号、通道数、导联方式、采样率、被试年龄与健康状态、许可协议、标签可用性等——让研究者能够像筛选商品一样,按维度检索和组装训练语料。

从更广阔的视角看,这项工作呼应了FAIR原则EEG-BIDS标准所倡导的数据共享理念。它不提供ETL式的统一格式仓库,而是搭建了一个"可发现、可过滤、可检索"的元数据基础设施,让全球研究者能够透明地构建跨数据集训练语料。

或许在不远的将来,当脑机接口能像识别语音一样流畅地解码你的运动意图,当智能手表能通过脑电信号预警癫痫发作,我们不该忘记这场"数据拼图"的奠基工作。毕竟,在人工智能时代,数据注册表本身就是一项核心科技。

正如论文作者所展示的:让13万人的大脑电信号"说同一种语言",或许才是打开通用脑智能大门的真正钥匙。

参考:Shi S, Song Y, Wang Y, et al. Toward general-purpose foundation models for electroencephalography: a unified data registry. Brain-X. 2026.


脑机接口社区是国内首家脑机接口(BCI)产业服务平台。主要为企业、科研团队、投资机构和从业者提供以下服务:

宣传报道:图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容,提升曝光和行业影响力。

资源对接:根据需求匹配资本、供应链、临床机构、渠道方等资源,完成真实对接,促进合作。

成果转化:协助技术团队寻找产业方、投资人及落地场景,推动技术到产品的转化。

活动策划执行:承接线上线下路演、沙龙、论坛等活动的策划与执行。

其他定制需求:包括报告定制、市场调研、人才招聘支持等个性化服务。

合作洽谈,请联系微信:ZuoLeiLeiya

(备注:姓名-单位-合作)

投稿丨成为创作者,请联系微信:RoseBCI

不错过每一条脑机前沿进展

一键三连「分享」、「点赞」和「在看」

欢迎在评论区聊聊

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拥兵数十万的张献忠,是如何一步步地,把自己带入注定的灭亡

拥兵数十万的张献忠,是如何一步步地,把自己带入注定的灭亡

阿器谈史
2026-05-27 11:55:03
98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

98年香港金融保卫战:中国动用1200亿对轰,犹太资本从未输这么惨

小正说娱乐
2026-05-31 11:33:33
从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

从58万到169万!一网友哭诉自己被高收入绑架,丢掉了生活的意义

火山詩话
2026-05-31 10:57:09
建议中老年人,别心疼钱,常吃3种“健腿菜”,腿脚不乏,精神足

建议中老年人,别心疼钱,常吃3种“健腿菜”,腿脚不乏,精神足

秀厨娘
2026-04-13 15:38:11
今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

今年小区里出现很多“假穷人”,他们放着几十万的车不开,骑着电驴去上班;取快递的次数也少了;还拿出几年前的衣服来穿

背包旅行
2026-06-02 11:48:18
给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

快科技
2026-05-31 14:09:06
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
夏天不敢露脚后跟?这件小事,能让你重新爱上自己的脚

夏天不敢露脚后跟?这件小事,能让你重新爱上自己的脚

月亮打烊了发
2026-06-02 00:35:03
19岁悠仁亲王首次出席国宴,全程英语交流举止得体,爱子沦为背景

19岁悠仁亲王首次出席国宴,全程英语交流举止得体,爱子沦为背景

照见古今
2026-06-01 18:14:49
1936年活捉老蒋的孙铭九,解放后中央破例批准:给他安排一份工作

1936年活捉老蒋的孙铭九,解放后中央破例批准:给他安排一份工作

莫地方
2026-06-02 00:03:21
转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

转账5千要查祖宗,内鬼卷走1800万却一路绿灯!银行双标太离谱了

今朝牛马
2026-05-06 21:00:56
大胆点,其实90%的人都是很水的。

大胆点,其实90%的人都是很水的。

老陆不老
2026-05-29 20:35:12
终于承认:上海,才是全中国最不“装”的大城市

终于承认:上海,才是全中国最不“装”的大城市

奇葩游戏酱
2026-06-01 21:30:51
汤淼瘫痪19年,母亲妻子另嫁,9岁女儿陪伴,生活有保障

汤淼瘫痪19年,母亲妻子另嫁,9岁女儿陪伴,生活有保障

嘴角上翘的弧度
2026-05-31 22:47:28
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

善恶终有报!不顾央视警告,与刘涛传出绯闻的杨烁,终将自食恶果

圆梦的小老头
2026-06-01 04:51:39
黄仁勋的大刀砍向了英特尔

黄仁勋的大刀砍向了英特尔

钛媒体APP
2026-06-02 10:04:19
等红灯时全程踩着刹车,不累吗?老司机一句话,把我点醒了

等红灯时全程踩着刹车,不累吗?老司机一句话,把我点醒了

果壳
2026-06-01 22:31:31
除了俄乌战争,还有一场伤亡更大的战争已经打了两年多

除了俄乌战争,还有一场伤亡更大的战争已经打了两年多

商业模式桑博士
2026-05-29 07:49:46
副总统带5箱文件应诉,参议院多数派集体抗议缺席!

副总统带5箱文件应诉,参议院多数派集体抗议缺席!

泪之魂y
2026-06-02 11:30:31
2026-06-02 14:03:00
脑机接口社区 incentive-icons
脑机接口社区
关注脑机前沿,分享脑机技术
223文章数 28关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
亲子
艺术
本地
数码

教育要闻

填相同的符号,使等式等于35,太难了

亲子要闻

今年育儿补贴补助资金999亿元已下达,较上年增长10.6%

艺术要闻

周杰伦花 1.36 亿拍下这幅画

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

无障碍浏览 进入关怀版