实验室里,一名测试者嘴唇紧闭,喉咙没有任何震动。但三米外的音箱里,清晰传出了他的声音——不是气声,不是腹语,而是他用自己声带特征合成的完整句子。
这是韩国浦项科技大学(POSTECH)刚刚公开的成果。他们做了一款贴在脖子上的可穿戴设备,能读取你"想说但没说出"的话。
![]()
【图】
核心突破在于:说话不只是声带的事。哪怕你在心里默念,颈部皮肤和肌肉的微运动也会暴露意图。POSTECH团队把这个"隐形地图"变成了可读取的数据流。
硬件拆解:一台微型相机+硅胶贴片
设备结构出奇简单。一层柔性硅胶贴在颈部,里面嵌着参考标记点;上方固定一枚微型相机,持续追踪皮肤形变。
「即使是最微小的皮肤变形也能被捕捉。」团队负责人朴成敏教授(音)在论文中强调。
这套系统有个实用设计:重新佩戴时自动重新校准。不需要专业调试,普通人自己就能搞定。
传统方案走不通。肌电图(EMG)和脑电图(EEG)需要 bulky 设备,戴久了难受,日常场景基本没法用。POSTECH的路线直接绕开了这些硬件包袱。
数据采集后交给AI处理。算法把应变模式翻译成意图文本,再对接用户声纹训练的语音合成模块——最终输出的声音,带着本人的音色特征。
【图】
测试环境选得很刁钻:工业噪音场景。传统麦克风在这种地方基本失效,而这款设备依赖的是肌肉运动而非空气振动,抗干扰能力反而更强。
准确率数据论文里有披露,但更值得看的是场景穿透力。图书馆、会议室、工厂车间,这些"不方便出声"的地方都成了潜在应用场。
两条商业路径已经清晰
医疗线是刚需中的刚需。声带损伤、喉部手术后的患者,目前的主流方案是电子喉或食管发声,学习成本高、声音机械感重。这项技术理论上能让患者"用回原声",心理认同度和社交舒适度完全不是一个量级。
但消费线可能更快起量。想象一下:地铁里回消息不用掏手机,动动嘴皮子(甚至不用动)就能语音输入;开会时给同事传话,不用写纸条、不用发微信,直接"无声语音"传到对方耳机。
这触及了一个被忽视的需求:语音交互的隐私悖论。我们越来越习惯对Siri、对小爱同学说话,但公共场合的"语音羞耻"从未消失。无声化解决了这个卡点。
【图】
技术迭代方向也写在论文里。团队正在扩展语言覆盖——目前演示以韩语为主,多语言适配是下一步;同时优化与消费设备的集成度,目标是无感佩戴。
这里有个有趣的对比。Meta去年展示过类似的"腕带神经接口",靠读取前臂肌肉电信号实现隔空打字。POSTECH的方案更"轻":不需要定制芯片,不需要手术植入,一块贴片+相机就能跑。
两种路线指向同一个终点:人机交互的"去设备化"。键盘、触屏、麦克风都是中介,而肌肉读取试图跳过中介,直接翻译意图。
真正的竞争在数据闭环
硬件门槛其实不高。柔性传感器、微型相机、边缘AI推理,这些模块都已有成熟供应链。难点在于个性化适配——每个人的颈部肌肉结构、说话习惯、声纹特征差异极大。
这意味着产品化后,早期用户的数据积累速度会决定护城河深度。谁先用起来,谁的模型迭代更快,后来者很难追赶。
另一个变量是监管。医疗场景需要医疗器械认证,消费场景涉及生物特征数据的采集边界。韩国团队目前披露的是技术验证,商业化时间表尚未公开。
但方向已经明确。论文结尾提到"与消费设备更无缝集成"——手机、耳机、AR眼镜都是潜在宿主。想象一下AirPods下一代加入颈部贴片套件,或者智能眼镜直接集成微型相机做视觉追踪。
【图】
这项技术的真正价值,可能不在于"无声说话"本身,而在于它重新定义了"语音"的边界。传统上,语音=空气振动=可被他人截获。而现在,意图可以在声带层面被私有化,只在需要时才转化为可感知的声音。
这对人机交互的隐私架构有深远影响。当AI能读取未发声的意图,"输入"和"输出"的界限开始模糊。我们可能需要新的伦理框架:什么程度的肌肉读取算"读心",什么算合理的交互优化?
POSTECH团队没有碰这些话题,但产品落地后必然会遇到。技术先行,规则追赶,这是AI硬件的常态节奏。
回到当下。一个能贴在脖子上、自动校准、工业噪音下稳定工作的无声语音设备,已经跨过了"实验室玩具"的门槛。剩下的问题是:哪家消费电子厂商会先把它塞进量产清单?
毕竟,能同时打动失语症患者和地铁通勤族的技术,并不多见。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.