网易首页 > 网易号 > 正文 申请入驻

KAIST韩国科技院的新发现:AI能看懂越南考试题吗?答案让人意外

0
分享至

这项由韩国科技院(KAIST)的邓维祥、沃安等研究员合作完成的研究发表于2025年8月,研究成果以论文形式呈现,感兴趣的读者可以通过arXiv:2508.13680访问完整论文。这是首次针对视觉语言模型在越南语多模态教育内容上的综合性评估研究。

想象一下,你正在参加一场特殊的考试比赛。参赛选手不是普通的学生,而是那些号称"无所不知"的人工智能系统,比如GPT-4和Claude等知名AI助手。考试内容也很特别——全部是越南语的考试题目,而且每道题都包含图表、图片或示意图,需要同时理解文字和图像才能答对。

这场"AI大考"的设计者就是韩国科技院的研究团队。他们想要回答一个有趣而重要的问题:这些在英语世界表现出色的AI系统,面对越南语的多模态考试题时,到底能考多少分?

考虑到越南语是全世界第十大使用人数最多的语言,拥有超过1亿母语使用者,这个问题的答案显然具有重要意义。更有趣的是,研究团队发现现有的测试基准存在明显不足。比如一些声称包含越南语多模态题目的数据集,实际上要么把所有图像内容都转换成了纯文字,要么所谓的"多模态题目"只是文字题目的截图而已,根本不需要真正的图文理解能力。

为了创建一个真正有挑战性的测试环境,研究团队构建了ViExam数据集。这就像是为AI准备了一场越南版的"高考",包含2548道精心筛选的多模态题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域。每道题目都包含需要同时理解的图像和越南语文字,就像真实的考试情境一样。

数据收集的过程颇具挑战性。研究团队使用自动化网络爬虫从越南教育网站收集考试材料,然后通过复杂的图像处理算法自动识别哪些题目真正包含有意义的图像元素,而不只是文字的截图。接着,他们开发了一套基于网页的审核系统,由三名越南语母语使用者对每道题目进行人工验证,确保题目质量和答案准确性。

研究结果让人颇感意外。当前最先进的AI系统在这场"越南语大考"中的表现远不如预期。总体而言,顶级AI模型的平均准确率只有57.74%,而普通的越南学生平均能达到66.54%的正确率。这意味着大多数AI系统的表现还不如人类考生的平均水平。

更有趣的是,不同AI系统之间的表现差异巨大。OpenAI最新的"思维链"模型o3表现最佳,达到了74.07%的准确率,成为唯一超过人类平均水平的AI系统。相比之下,开源的AI模型表现普遍较差,平均准确率只有27.70%,与闭源商业模型之间存在近30个百分点的巨大差距。

通过深入分析,研究团队揭示了几个有趣的现象。首先,AI系统在不同学科上的表现差异明显。地理题目对AI来说相对简单,准确率达到72.81%,这主要是因为地理题目经常包含直观的图表和数据,只需要读取和比较信息即可。相反,物理题目最为困难,准确率仅为44.60%,因为这些题目需要复杂的图形解读和物理概念理解。

令人困惑的是,AI系统在回答错误时表现出明显的选择偏向。当面对多选题时,所有AI模型都倾向于选择B选项,频率达到31.09%,远高于随机选择应有的25%。这种偏向可能源于训练数据中B选项作为正确答案的频率较高,揭示了AI训练过程中的隐含偏见。

研究团队还进行了一系列对照实验来理解AI失败的原因。他们发现,当把越南语的多模态题目改为纯文字题目时,AI的表现明显提升,平均准确率从61.19%上升到70.60%。这说明真正的挑战不在于越南语本身,而在于图文信息的综合理解。

为了验证这一点,研究团队测试了AI的越南语文字识别能力。结果显示,所有主流AI系统都能很好地识别越南语文字,字符错误率只有6.68%,词错误率为9.32%。这证明AI的困难确实在于多模态推理,而非基础的文字识别。

一个有趣的发现是,用英语提示词来询问越南语题目并不能改善AI的表现。对于顶级的商业AI模型,英语提示反而会略微降低准确率约1个百分点,而对开源模型则有约2.9个百分点的提升。这种差异可能反映了不同AI系统在多语言处理方面的架构差异。

研究团队还探索了"人机协作"的可能性。当人类专家帮助AI系统处理图像内容,提供更准确的图像描述和文字识别结果时,AI的表现确实有所改善,准确率提升了约5.71个百分点。这暗示了未来AI系统的一个发展方向:不是完全替代人类,而是与人类形成更有效的协作关系。

驾驶考试题目提供了另一个有趣的观察角度。虽然这些题目对人类来说相对简单,涉及的都是基本的交通规则和标志识别,但AI系统的准确率只有67.51%,远低于人类驾驶员应该达到的水平。这种表现差异可能源于AI对特定文化背景下的交通规则理解不足,也反映了AI在处理需要常识性判断的实际场景时的局限性。

智力测验题目同样具有挑战性。这类题目主要测试抽象推理和模式识别能力,AI系统的平均准确率为47.08%。有趣的是,这个分数接近随机猜测的水平,说明当前的AI系统在处理需要深度抽象思维的问题时仍有很大改进空间。

开源AI模型与商业模型之间的巨大性能差距值得特别关注。表现最好的开源模型Qwen 2.5 VL 72B的准确率为41.77%,仍然远低于表现最差的商业模型Claude 4.0的48.28%。这种差距不仅反映了计算资源和训练数据的差异,也暗示了多语言多模态能力的开发需要更多的技术积累和资源投入。

从更广的角度来看,这项研究揭示了AI发展中的一个重要问题:语言和文化的多样性。虽然当前的AI系统在英语环境下表现出色,但当面对其他语言特别是需要深度文化理解的内容时,表现会显著下降。这提醒我们,真正的人工通用智能不仅需要技术突破,还需要对全球语言和文化多样性的深入理解和尊重。

研究结果对教育技术的发展也有重要启示。如果AI系统要在非英语教育环境中发挥重要作用,就需要针对具体语言和文化背景进行专门的优化和训练。同时,这也为发展中国家的AI研究提供了机会——专注于本土语言和文化的AI系统可能比通用的英语AI更有价值。

从技术发展的角度,这项研究指出了几个值得关注的方向。首先是多模态推理能力的改进,特别是在非英语环境下的图文理解能力。其次是消除训练数据中的偏见,减少AI系统在选择答案时的不合理倾向。最后是开发更好的跨语言迁移学习方法,让AI系统能够更有效地将在一种语言中学到的知识应用到其他语言中。

这项研究的意义不仅在于揭示了当前AI系统的局限性,更在于为未来的发展指明了方向。随着全球化的深入发展,AI系统需要具备真正的多语言多文化能力,而不仅仅是英语世界的"学霸"。只有这样,AI技术才能真正惠及全球不同语言和文化背景的用户。

说到底,这场AI与越南学生的"考试较量"告诉我们,技术的进步还有很长的路要走。尽管AI在很多方面已经超越了人类,但在理解和处理真实世界的复杂性,特别是涉及不同语言文化的内容时,AI仍然需要向人类学习。这不仅是技术挑战,也是如何让AI更好地服务于多元化世界的重要课题。

Q&A

Q1:ViExam数据集是什么?它包含哪些内容?

A:ViExam是由韩国科技院研究团队创建的越南语多模态考试题数据集,包含2548道需要同时理解图像和越南语文字的题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域,是首个专门评估AI越南语图文理解能力的综合测试基准。

Q2:为什么AI模型在越南语考试中表现不如人类学生?

A:主要原因是多模态推理的挑战而非语言障碍。研究显示AI能很好识别越南语文字(错误率只有6.68%),但在需要同时理解图像和文字内容进行综合推理时表现下降。纯文字题目AI准确率为70.60%,而多模态题目只有61.19%,说明图文结合理解是真正的难点。

Q3:不同AI模型在越南语考试中的表现差异有多大?

A:差异非常显著。最先进的思维链模型o3准确率达到74.07%,是唯一超过人类平均水平(66.54%)的AI系统。商业模型平均57.74%,而开源模型仅27.70%。其中表现最好的开源模型Qwen 2.5 VL 72B为41.77%,仍远低于表现最差的商业模型48.28%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越领导坐了12个小时高铁回国,直言落后太多,这是最狠的一次拒绝

越领导坐了12个小时高铁回国,直言落后太多,这是最狠的一次拒绝

田园小归
2026-04-19 08:40:30
印度油轮霍尔木兹海峡遭炮击,船员喊话录音:你们批准我们通行,却又向我们开火

印度油轮霍尔木兹海峡遭炮击,船员喊话录音:你们批准我们通行,却又向我们开火

红星新闻
2026-04-19 17:03:18
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
恒大暴雷之前,许家印为什么没有跑?

恒大暴雷之前,许家印为什么没有跑?

担扑
2026-04-19 13:40:25
吹响集结号!欧亚53国达成共识,泽连斯基宣布不再将美国视为盟友

吹响集结号!欧亚53国达成共识,泽连斯基宣布不再将美国视为盟友

史政先锋
2026-04-19 13:45:53
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
大英帝星究竟发生了什么?替补两次送礼,埃梅里还会再信任他吗?

大英帝星究竟发生了什么?替补两次送礼,埃梅里还会再信任他吗?

硬腿子聊个球
2026-04-20 00:15:23
英超神剧情:4-3险胜,亚伯拉罕补时绝杀,埃梅里疯狂庆祝

英超神剧情:4-3险胜,亚伯拉罕补时绝杀,埃梅里疯狂庆祝

足球狗说
2026-04-19 22:59:23
11个月建成,投产即满产!君乐宝开启一盘国际化大棋

11个月建成,投产即满产!君乐宝开启一盘国际化大棋

铑财
2026-04-17 09:58:18
宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

宇树机器人打破人类1500米世界纪录:1.9公里4分13秒自主跑完

快科技
2026-04-19 07:47:05
摧毁海上偷渡链!“獴猎”行动68人落网细节曝光

摧毁海上偷渡链!“獴猎”行动68人落网细节曝光

环球网资讯
2026-04-19 13:23:28
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
五一假期火车票开售以来,铁路12306拒绝出票105.6万张

五一假期火车票开售以来,铁路12306拒绝出票105.6万张

环球网资讯
2026-04-19 15:23:04
珠海家长:自家孩子趴桌睡,凭啥先给别人捐躺椅?官方回应

珠海家长:自家孩子趴桌睡,凭啥先给别人捐躺椅?官方回应

南方都市报
2026-04-17 15:48:13
中俄关系比传统“联盟”更深厚、更可靠

中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews
2026-04-19 08:36:10
章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

观鱼听雨
2026-04-17 22:15:44
文班首场季后赛14分3帽!两节就把联盟未来扛肩上

文班首场季后赛14分3帽!两节就把联盟未来扛肩上

茅塞盾开本尊
2026-04-19 20:31:44
极端情况下,切尔西可能要靠输给利物浦来获得欧冠资格

极端情况下,切尔西可能要靠输给利物浦来获得欧冠资格

懂球帝
2026-04-20 00:22:46
雷来了,周末24家公司利空,4家被st,2家被立案调查,18家减持!

雷来了,周末24家公司利空,4家被st,2家被立案调查,18家减持!

夜深爱杂谈
2026-04-19 17:02:12
何润东涨粉百万!半个月商务抵张凌赫半年,内娱隔空掀桌第一人

何润东涨粉百万!半个月商务抵张凌赫半年,内娱隔空掀桌第一人

萌神木木
2026-04-19 15:25:14
2026-04-20 00:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8048文章数 562关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

房产
健康
教育
艺术
时尚

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

干细胞抗衰4大误区,90%的人都中招

教育要闻

27fall,申请最容易翻车的三所英国大学!

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

装修“精神角落”,就是这么上瘾

无障碍浏览 进入关怀版