网易首页 > 网易号 > 正文 申请入驻

KAIST韩国科技院的新发现:AI能看懂越南考试题吗?答案让人意外

0
分享至

这项由韩国科技院(KAIST)的邓维祥、沃安等研究员合作完成的研究发表于2025年8月,研究成果以论文形式呈现,感兴趣的读者可以通过arXiv:2508.13680访问完整论文。这是首次针对视觉语言模型在越南语多模态教育内容上的综合性评估研究。

想象一下,你正在参加一场特殊的考试比赛。参赛选手不是普通的学生,而是那些号称"无所不知"的人工智能系统,比如GPT-4和Claude等知名AI助手。考试内容也很特别——全部是越南语的考试题目,而且每道题都包含图表、图片或示意图,需要同时理解文字和图像才能答对。

这场"AI大考"的设计者就是韩国科技院的研究团队。他们想要回答一个有趣而重要的问题:这些在英语世界表现出色的AI系统,面对越南语的多模态考试题时,到底能考多少分?

考虑到越南语是全世界第十大使用人数最多的语言,拥有超过1亿母语使用者,这个问题的答案显然具有重要意义。更有趣的是,研究团队发现现有的测试基准存在明显不足。比如一些声称包含越南语多模态题目的数据集,实际上要么把所有图像内容都转换成了纯文字,要么所谓的"多模态题目"只是文字题目的截图而已,根本不需要真正的图文理解能力。

为了创建一个真正有挑战性的测试环境,研究团队构建了ViExam数据集。这就像是为AI准备了一场越南版的"高考",包含2548道精心筛选的多模态题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域。每道题目都包含需要同时理解的图像和越南语文字,就像真实的考试情境一样。

数据收集的过程颇具挑战性。研究团队使用自动化网络爬虫从越南教育网站收集考试材料,然后通过复杂的图像处理算法自动识别哪些题目真正包含有意义的图像元素,而不只是文字的截图。接着,他们开发了一套基于网页的审核系统,由三名越南语母语使用者对每道题目进行人工验证,确保题目质量和答案准确性。

研究结果让人颇感意外。当前最先进的AI系统在这场"越南语大考"中的表现远不如预期。总体而言,顶级AI模型的平均准确率只有57.74%,而普通的越南学生平均能达到66.54%的正确率。这意味着大多数AI系统的表现还不如人类考生的平均水平。

更有趣的是,不同AI系统之间的表现差异巨大。OpenAI最新的"思维链"模型o3表现最佳,达到了74.07%的准确率,成为唯一超过人类平均水平的AI系统。相比之下,开源的AI模型表现普遍较差,平均准确率只有27.70%,与闭源商业模型之间存在近30个百分点的巨大差距。

通过深入分析,研究团队揭示了几个有趣的现象。首先,AI系统在不同学科上的表现差异明显。地理题目对AI来说相对简单,准确率达到72.81%,这主要是因为地理题目经常包含直观的图表和数据,只需要读取和比较信息即可。相反,物理题目最为困难,准确率仅为44.60%,因为这些题目需要复杂的图形解读和物理概念理解。

令人困惑的是,AI系统在回答错误时表现出明显的选择偏向。当面对多选题时,所有AI模型都倾向于选择B选项,频率达到31.09%,远高于随机选择应有的25%。这种偏向可能源于训练数据中B选项作为正确答案的频率较高,揭示了AI训练过程中的隐含偏见。

研究团队还进行了一系列对照实验来理解AI失败的原因。他们发现,当把越南语的多模态题目改为纯文字题目时,AI的表现明显提升,平均准确率从61.19%上升到70.60%。这说明真正的挑战不在于越南语本身,而在于图文信息的综合理解。

为了验证这一点,研究团队测试了AI的越南语文字识别能力。结果显示,所有主流AI系统都能很好地识别越南语文字,字符错误率只有6.68%,词错误率为9.32%。这证明AI的困难确实在于多模态推理,而非基础的文字识别。

一个有趣的发现是,用英语提示词来询问越南语题目并不能改善AI的表现。对于顶级的商业AI模型,英语提示反而会略微降低准确率约1个百分点,而对开源模型则有约2.9个百分点的提升。这种差异可能反映了不同AI系统在多语言处理方面的架构差异。

研究团队还探索了"人机协作"的可能性。当人类专家帮助AI系统处理图像内容,提供更准确的图像描述和文字识别结果时,AI的表现确实有所改善,准确率提升了约5.71个百分点。这暗示了未来AI系统的一个发展方向:不是完全替代人类,而是与人类形成更有效的协作关系。

驾驶考试题目提供了另一个有趣的观察角度。虽然这些题目对人类来说相对简单,涉及的都是基本的交通规则和标志识别,但AI系统的准确率只有67.51%,远低于人类驾驶员应该达到的水平。这种表现差异可能源于AI对特定文化背景下的交通规则理解不足,也反映了AI在处理需要常识性判断的实际场景时的局限性。

智力测验题目同样具有挑战性。这类题目主要测试抽象推理和模式识别能力,AI系统的平均准确率为47.08%。有趣的是,这个分数接近随机猜测的水平,说明当前的AI系统在处理需要深度抽象思维的问题时仍有很大改进空间。

开源AI模型与商业模型之间的巨大性能差距值得特别关注。表现最好的开源模型Qwen 2.5 VL 72B的准确率为41.77%,仍然远低于表现最差的商业模型Claude 4.0的48.28%。这种差距不仅反映了计算资源和训练数据的差异,也暗示了多语言多模态能力的开发需要更多的技术积累和资源投入。

从更广的角度来看,这项研究揭示了AI发展中的一个重要问题:语言和文化的多样性。虽然当前的AI系统在英语环境下表现出色,但当面对其他语言特别是需要深度文化理解的内容时,表现会显著下降。这提醒我们,真正的人工通用智能不仅需要技术突破,还需要对全球语言和文化多样性的深入理解和尊重。

研究结果对教育技术的发展也有重要启示。如果AI系统要在非英语教育环境中发挥重要作用,就需要针对具体语言和文化背景进行专门的优化和训练。同时,这也为发展中国家的AI研究提供了机会——专注于本土语言和文化的AI系统可能比通用的英语AI更有价值。

从技术发展的角度,这项研究指出了几个值得关注的方向。首先是多模态推理能力的改进,特别是在非英语环境下的图文理解能力。其次是消除训练数据中的偏见,减少AI系统在选择答案时的不合理倾向。最后是开发更好的跨语言迁移学习方法,让AI系统能够更有效地将在一种语言中学到的知识应用到其他语言中。

这项研究的意义不仅在于揭示了当前AI系统的局限性,更在于为未来的发展指明了方向。随着全球化的深入发展,AI系统需要具备真正的多语言多文化能力,而不仅仅是英语世界的"学霸"。只有这样,AI技术才能真正惠及全球不同语言和文化背景的用户。

说到底,这场AI与越南学生的"考试较量"告诉我们,技术的进步还有很长的路要走。尽管AI在很多方面已经超越了人类,但在理解和处理真实世界的复杂性,特别是涉及不同语言文化的内容时,AI仍然需要向人类学习。这不仅是技术挑战,也是如何让AI更好地服务于多元化世界的重要课题。

Q&A

Q1:ViExam数据集是什么?它包含哪些内容?

A:ViExam是由韩国科技院研究团队创建的越南语多模态考试题数据集,包含2548道需要同时理解图像和越南语文字的题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域,是首个专门评估AI越南语图文理解能力的综合测试基准。

Q2:为什么AI模型在越南语考试中表现不如人类学生?

A:主要原因是多模态推理的挑战而非语言障碍。研究显示AI能很好识别越南语文字(错误率只有6.68%),但在需要同时理解图像和文字内容进行综合推理时表现下降。纯文字题目AI准确率为70.60%,而多模态题目只有61.19%,说明图文结合理解是真正的难点。

Q3:不同AI模型在越南语考试中的表现差异有多大?

A:差异非常显著。最先进的思维链模型o3准确率达到74.07%,是唯一超过人类平均水平(66.54%)的AI系统。商业模型平均57.74%,而开源模型仅27.70%。其中表现最好的开源模型Qwen 2.5 VL 72B为41.77%,仍远低于表现最差的商业模型48.28%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
打工人增收记:一辆“春风”大巴上的流动中国

打工人增收记:一辆“春风”大巴上的流动中国

第一财经资讯
2026-02-27 18:38:12
詹俊:阿森纳赢得胆战心惊;切尔西容易染红的顽疾还在拖后腿

詹俊:阿森纳赢得胆战心惊;切尔西容易染红的顽疾还在拖后腿

懂球帝
2026-03-02 03:13:15
伊朗发起新一轮导弹袭击 以色列多地传出爆炸声

伊朗发起新一轮导弹袭击 以色列多地传出爆炸声

财联社
2026-03-02 03:35:26
伊朗外长说伊朗最高领袖平安

伊朗外长说伊朗最高领袖平安

新华社
2026-02-28 22:35:39
河北孟村杀妻案最新消息,堂哥说已经被执行

河北孟村杀妻案最新消息,堂哥说已经被执行

九方鱼论
2026-03-01 20:14:28
美以突袭伊朗引发避险情绪,国内金饰价格集体突破1600元,专家:黄金已叠加了过多的地缘风险溢价

美以突袭伊朗引发避险情绪,国内金饰价格集体突破1600元,专家:黄金已叠加了过多的地缘风险溢价

极目新闻
2026-03-01 17:37:18
“100%椰子水”到底有几分真?四款产品送检均疑似加水加糖

“100%椰子水”到底有几分真?四款产品送检均疑似加水加糖

闪电新闻
2026-02-28 17:31:36
胡锡进评哈梅内伊事件引群嘲,骑墙发言惹网友吐槽,事后诸葛亮!

胡锡进评哈梅内伊事件引群嘲,骑墙发言惹网友吐槽,事后诸葛亮!

眼光很亮
2026-03-01 15:56:18
智能手机出货量或创10年来新低/豆包手机助手回应「安全漏洞」传闻:黑公关/阿里千问将发布多款AI硬件

智能手机出货量或创10年来新低/豆包手机助手回应「安全漏洞」传闻:黑公关/阿里千问将发布多款AI硬件

AppSo
2026-02-28 08:57:39
美军若能打赢伊朗,我就退网!

美军若能打赢伊朗,我就退网!

达文西看世界
2026-02-28 22:04:16
32万彩礼不让碰后续:彩礼已花完,女方全村社死,自曝另有隐情

32万彩礼不让碰后续:彩礼已花完,女方全村社死,自曝另有隐情

离离言几许
2026-02-28 18:06:09
哈梅内伊的最后一课:给所有掌权者的八条警示

哈梅内伊的最后一课:给所有掌权者的八条警示

迷世书童H9527
2026-03-01 16:03:12
金价,飙升!

金价,飙升!

天津族
2026-03-02 01:23:37
特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

特朗普苦等4天中方终于回信,对美开出两大条件,做不到访华免谈

安珈使者啊
2026-03-01 12:15:35
哈梅内伊给所有掌权者,上了最后一课

哈梅内伊给所有掌权者,上了最后一课

梳子姐
2026-03-01 15:14:59
被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

诺诺谈史
2026-03-01 20:29:12
伊朗革命卫队连发三份声明,字字泣血,伊外长表态:希望和美谈判

伊朗革命卫队连发三份声明,字字泣血,伊外长表态:希望和美谈判

社会日日鲜
2026-03-02 03:07:35
为什么科学家说:如果宇宙中只有人类,比找到外星人更可怕?

为什么科学家说:如果宇宙中只有人类,比找到外星人更可怕?

观察宇宙
2026-03-01 20:46:19
被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

被震撼到了!哈梅内伊一死普京马上下令,俄罗斯全体高层紧急到场

皇朝冰酷
2026-03-01 23:27:08
美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

削桐作琴
2026-03-01 14:27:41
2026-03-02 04:11:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7389文章数 553关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

艺术
健康
家居
时尚
军事航空

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

转头就晕的耳石症,能开车上班吗?

家居要闻

素色肌理 品意式格调

今年春天最流行的4件卫衣,照着穿就很好看

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版