网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 填补多语言语音幻觉检测空白,CCFQA基准助力评估大模型跨语言与跨模态事实一致性

0
分享至

随着多模态大语言模型(MLLMs)在多语言场景中的广泛应用,模型的事实准确性问题日益凸显。然而,现有事实性评估基准主要聚焦英语文本或视觉模态,对多语言、尤其是语音输入的评估仍存在明显不足。

为此,哈尔滨工业大学社会计算与交互机器人研究中心知识计算组联合鹏城实验室数据智能研究所,提出跨语言跨模态事实性基准 CCFQA。该基准包含覆盖 8 种语言的平行语音—文本事实问答数据,用于系统评估 MLLMs 在跨语言与跨模态条件下的事实一致性。实验结果显示,现有模型在多语言语音问答任务中表现受限,语音与文本输入下的回答存在显著不一致。针对这一问题,本文提出一种基于少样本迁移学习的改进方法,以提升模型的事实准确性。该研究已被 AAAI 2026 接收。


论文名称: CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation 论文链接: https://arxiv.org/pdf/2508.07295 代码链接: https://github.com/yxduir/ccfqa 数据集链接: https://huggingface.co/datasets/yxdu/ccfqa
一、引言

随着多模态大语言模型(MLLMs)在多语言环境中的日益普及,确保无幻觉的事实准确性变得尤为重要。然而,现有评估可靠性的基准主要集中在以英语为主的文本或视觉模态,这导致在处理多语言输入(尤其是语音)时存在评估空白。

为弥补这一不足,哈尔滨工业大学社会计算与交互机器人研究中心知识计算组和鹏城实验室数据智能研究所联合发布跨语言跨模态事实性基准(CCFQA),以推动具备更可靠语音理解能力的MLLMs发展。该基准包含涵盖8种语言的平行语音-文本事实问答数据集,旨在系统评估MLLMs的跨语言与跨模态事实性一致性能力。

实验结果表明,当前多模态大语言模型在CCFQA基准上仍面临显著挑战,尤其是在多语言语音问答任务中表现有待提升,模型对语音与文本输入的回复存在明显不一致。针对MLLMs的跨语言与跨模态事实不一致问题,本文提出了一种基于少样本迁移学习的改进策略,旨在增强模型的事实准确性。该论文现已被AAAI 2026录用。


图1:MLLM中的事实性不一致(a)对同一问题,不同语言回复的答案不一致;(b)对同一问题,不同模态输入的答案不一致。 二、CCFQA基准介绍 2.1 事实性基准

事实性基准作为评幻觉的有效工具受到越来越多关注。如表1所示,当前基准侧重于文本或视觉输入,且主要针对英语设计,缺乏对多语言语音场景的覆盖。目前仍然缺少用于评估多语言语音设置下模型事实性的综合基准。


表1:CCFQA与已有基准对比 2.2 CCFQA介绍

为了弥补多语言语音幻觉检测空白,研究团队提出了跨语言和跨模态事实性基准(CCFQA),系统评估MLLM在跨语言和跨模态场景中的事实知识一致性。CCFQA基准的独特之处在于,每个事实性问题都以文本和语音两种输入形式呈现,旨在评估MLLM在不同语言和输入模态之间的一致性:

  • 跨语言一致性:模型能否在多种语言中产生等效的答案?

  • 跨模态一致性:模型能否在文本和语音输入之间保持答案质量?

该基准包含8种语言的平行语音-文本事实性问题:英语、中文普通话、法语、日语、韩语、俄语、西班牙语、港式粤语。


表2:CCFQA样本示例

研究团队从MKQA和MOOCCubeX数据集中收集原始英文问答文本,经过翻译和真人录制,最终构建了包含14,400个语音和文本问题样本的高质量数据集,涵盖20个不同领域知识类别。

CCFQA基准支持四种任务设置:多语言文本问答(QA)、跨语言文本问答(XQA)、多语言口语问答(SQA)、跨语言口语问答(XSQA)


图2:CCFQA数据集统计 三、少样本迁移学习策略

为了提高MLLM在事实知识方面的一致性,研究团队提出了一种基于英语作为枢纽语言的策略,以弥合跨语言问答中的知识鸿沟。该方法采用了一种简洁而有效的端到端流程:首先将非英语问题翻译成英语,然后利用LLM在英语语境下强大的事实推理能力生成答案,最后将答案翻译回目标语言。实验表明,该方法仅需使用5样本进行跨语言语音问答训练,即可实现多语言语音问答功能,显著提升了MLLM的事实一致性和可靠性。


图3:少样本迁移学习策略 四、实验

系统评估表明,现有MLLM在跨语言和跨模态的事实知识方面存在显著不一致。即使是简单的问题,模型在同一查询以不同语言或模态呈现时,也经常产生矛盾的答案,这凸显了在多样化输入下保持事实一致性的难度。

实验结果显示,当前多模态大语言模型在CCFQA 基准上仍面临严峻挑战,尤其在跨语言和跨模态场景中,模型性能显著下降。实验对比了包括 GPT-4o-mini-Audio、Qwen2.5-Omni等当前效果最佳的多模态大语言模型。结果表明,当前主流多模态大语言模型在多语言语音问答任务中,普遍存在相比文本模态明显的性能不一致问题。


表3:MLLMs在4个任务上的F1和LLM评估得分 五、总结

本研究针对多模态大语言模型在多语言语音中存在的事实性幻觉问题,提出了一个名为CCFQA的创新基准。该基准填补了现有评估体系在多语言语音模态上的空白,涵盖8种语言的平行语音-文本问答数据,支持跨语言与跨模态一致性评估。实验表明,当前MLLMs在应对不同语言和输入模态时存在显著的事实不一致性。后续的研究有待在提升提升模型在多语言与跨模态场景下的一致性,并探索更有效的抗幻觉方法。

论文作者:都业兴,刘开元,潘囿丞,初征,杨博,冯骁骋,刘铭,相洋 来源:公众号【赛尔实验室】

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马云预言成真?2026年,手握存款的人,或将面临三大挑战

马云预言成真?2026年,手握存款的人,或将面临三大挑战

春秋论娱
2026-01-02 07:07:00
申花官宣6人离队

申花官宣6人离队

五星体育
2026-01-01 13:24:17
36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

36岁便慷慨就义的瞿秋白,建国后毛主席为何会有 “以后少纪念他” 这样的评价?

桃烟读史
2025-12-31 21:38:26
2026年1月Switch/Switch2新游戏发售表:顶级3A大作终于登场!

2026年1月Switch/Switch2新游戏发售表:顶级3A大作终于登场!

叨叨游戏
2026-01-01 15:49:14
国乒教练竞聘结束!王励勤动真格,3位新人上任,楚钦曼昱好消息

国乒教练竞聘结束!王励勤动真格,3位新人上任,楚钦曼昱好消息

卿子书
2026-01-02 08:28:52
以前对钱没概念,觉得3000房贷很低,现在知道什么叫“半辈子”了

以前对钱没概念,觉得3000房贷很低,现在知道什么叫“半辈子”了

另子维爱读史
2026-01-01 23:03:47
他是清华北大所有女生心中的男神,但他为了一个承诺,一生未娶

他是清华北大所有女生心中的男神,但他为了一个承诺,一生未娶

不写散文诗
2026-01-01 20:23:49
伊朗总统发声:伊朗正处于一场全面战争中!

伊朗总统发声:伊朗正处于一场全面战争中!

每日经济新闻
2026-01-01 22:43:32
西方彻底破防!简直杀人诛心,中国这个“优势”不可战胜...

西方彻底破防!简直杀人诛心,中国这个“优势”不可战胜...

毛豆论道
2025-12-29 19:31:56
高原翻车+领先被绝杀!五星巴西双线溃败,安帅成最大背锅侠

高原翻车+领先被绝杀!五星巴西双线溃败,安帅成最大背锅侠

阿晞体育
2026-01-02 07:53:10
湖人双巨迎新年!詹姆斯晒一箱大龙虾晚餐 东契奇深情告别2025年

湖人双巨迎新年!詹姆斯晒一箱大龙虾晚餐 东契奇深情告别2025年

追球者
2026-01-01 09:14:41
畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

瓜汁橘长Dr
2025-12-28 16:39:19
1年倒闭300万家!60%活不过12个月,昔日创业首选生意也撑不住了

1年倒闭300万家!60%活不过12个月,昔日创业首选生意也撑不住了

品牌观察官
2025-12-31 19:49:35
郭靖夫妇死后,黄药师发现一枚旧玉佩脸色大变:孩子父亲不是郭靖

郭靖夫妇死后,黄药师发现一枚旧玉佩脸色大变:孩子父亲不是郭靖

萧竹轻语
2025-12-31 09:26:48
领先29分也不下!快船进入啃老模式,卢指导解锁伦纳德新用法

领先29分也不下!快船进入啃老模式,卢指导解锁伦纳德新用法

奕辰说球
2026-01-01 21:49:01
徐杰受伤,广东男篮不敌北京男篮,赛后听听媒体专家怎么说

徐杰受伤,广东男篮不敌北京男篮,赛后听听媒体专家怎么说

邹维体育
2026-01-01 21:36:20
因长得像中国人,印度男青年在街头被围殴打死!

因长得像中国人,印度男青年在街头被围殴打死!

荆楚寰宇文枢
2025-12-31 21:59:57
2025十佳运动员出炉:全红婵落榜,孙颖莎位列第四,他意外上榜

2025十佳运动员出炉:全红婵落榜,孙颖莎位列第四,他意外上榜

阿纂看事
2025-12-30 09:22:12
桑德兰主帅:曼城的威胁太多了,拿到一分是一个很好的结果

桑德兰主帅:曼城的威胁太多了,拿到一分是一个很好的结果

懂球帝
2026-01-02 07:20:48
优惠超过15万!2026款宝马5系价格大跳水,值得买吗?

优惠超过15万!2026款宝马5系价格大跳水,值得买吗?

科技美学
2026-01-01 21:40:00
2026-01-02 09:16:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2295文章数 596关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

牛弹琴:欧洲人又整新幺蛾子 中国强烈反对很火大

头条要闻

牛弹琴:欧洲人又整新幺蛾子 中国强烈反对很火大

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

亲子
房产
旅游
手机
军事航空

亲子要闻

去了趟娘家,童车裆部扎了根长针?谨记三岁不离眼,五岁不离手!

房产要闻

实景暴击!海口这个顶流红盘,抛出准现房+顶级书包双王炸!

旅游要闻

山东文旅报道| 乘地铁开启泉城穿越之旅

手机要闻

荣耀Power2首发天玑8500 Elite,综合跑分240W+

军事要闻

泽连斯基:乌全力推动恢复战俘交换工作

无障碍浏览 进入关怀版