![]()
语言是学习、社会交往、个性发育中的重要能力,言语障碍的早期发现、早期诊断和及时治疗尤为关键。
根据美国国立卫生研究院(NIH)的数据,美国存在 340 万需要临床干预的言语障碍(speech disorders)儿童,这些孩子可能出现口吃、舌齿不清、发音困难,或音节遗漏与插入现象,还可能伴随认知、听觉或吞咽问题,在学业、社交和情感方面面临着困境。
然而,儿童护理领域的临床医生存在着巨大的缺口。在美国,言语语言病理学家的数量仅为患病儿童数量的 1/20,亟需技术支持来提升临床医生的工作效率。
人工智能(AI)技术,特别是多模态语言模型(MLM)的发展,为这一问题的解决带来了更大的想象力。
日前,来自斯坦福大学、新加坡国立大学的研究团队及其合作者针对这一问题进行了探索。
研究发现,包括GPT-4、Whisper、Gemini 在内的 15 种主流模型,对言语障碍的识别准确度尚未达到临床标准,但微调技术有望改变这一情况。
该研究成果展现出多模态语言模型在临床实践中的发展潜力,为言语病理学领域的 AI 应用指明了技术发展路径。
![]()
论文链接:https://arxiv.org/abs/2509.16765
AI 能判断“异常”语音吗?
本研究基于 4 个公开儿童语音数据集,合计样本量约 3 万条,涵盖了典型与非典型儿童语音。研究团队与言语语言病理学家合作,推出了言语病理学领域首个多模态语言模型的基准测试,该基准包括多种环境下的稳健性与敏感性测试,以及不同语言、性别、年龄、噪音条件。
接着,他们让包括 GPT-4o、Gemini、Qwen 在内的 15 个语言模型扮演言语语言病理学家,对儿童语音样本进行评估,具体包括以下5 大核心任务:
障碍诊断(区分正常与异常发音的基本分诊步骤)
障碍类型诊断(构音障碍与音系障碍)
症状诊断(口吃、音节省略、音节替代、音节添加)
基于转录的诊断(比对儿童转录词与要求发音词)
纯转录评估(语言模型转录儿童障碍性言语的准确度)
值得一提的是,研究采用了两种主要的语言模型样式:一种是具备多模态能力的可直接处理音频的模型,另一种则是通过自动语音识别(ASR)系统先转录音频后再进行分析的模型。
![]()
研究结果表明,当前模型虽然“聪明”,但不够“临床可靠”。该论文的共同一作、斯坦福大学计算机科学博士 Sang T. Truong 表示,美国食品药品监督管理局(FDA)要求临床应用工具准确率需达 80-85%,而本次测试的 15 种语言模型中,表现最佳的模型准确率仅 55%,多数模型错误率超过 50%,均未达到临床可用的标准。
此外,在些模型中,没有模型在所有任务上始终保持领先,不同模型在不同任务上呈现互补性与家族性优势;直接进行语音分析的模型在更精细的言语病理学任务(如症状诊断)上普遍优于依赖自动语音识别转录的模型。
![]()
与此同时,微调成为突破口。尽管模型在未经过任何训练的情况下表现欠佳,但研究团队利用儿童语音的小型数据集对模型进行微调后,其性能准确率提升了 10%。这表明,多模态语言模型在言语病理学的应用中具备较大的潜力。
![]()
还有多远?
尽管研究成果亮眼,但 AI 在听觉理解上仍然存在明显短板。
第一,存在性别、年龄和语言偏见。研究团队发现,这些模型对男性语音的识别能力表现优于女性语音;在英语使用者中的表现优于其他语言使用者;在年长儿童中的表现优于幼龄儿童。解决模型中观察到的偏见同样需要进一步探索。
![]()
第二,儿童语音样本数据集难以获取。虽然微调技术前景可期,但微调依赖高质量数据,而儿童语音数据的收集面临重大隐私问题。对此,Truong 提出一种可能的解决方案:即生成模拟不同语言障碍儿童发声方式的合成数据,以此为基础提升语言模型的性能。
第三,当前的多模态语言模型主要针对英语和法语等高资源语言训练,难以准确识别非英语的语音障碍特征。
研究团队表述,未来的发展方向包括以下几点:
拓展低资源语言与多文化语境,评估临床可靠性;
引入性别平衡微调与定向数据增强策略,减少潜在偏见;
构建隐私保护微调范式,确保敏感信息数据安全。
目前,研究团队针对言语病理学任务建立的大语言模型(LLM)性能基准已集成至 HELM 基准测试框架,这是推动临床有效工具研发进程的关键一步。
Truong 表示,下一步将在真实医疗环境中部署 AI 辅助的言语治疗工具,配合临床医生使用以验证其能否实现常规工作流程简化。
整理:江江
如需转载或投稿,请直接在本文章评论区内留言
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.