网易首页 > 网易号 > 正文 申请入驻

KAIST韩国科技院的新发现:AI能看懂越南考试题吗?答案让人意外

0
分享至

这项由韩国科技院(KAIST)的邓维祥、沃安等研究员合作完成的研究发表于2025年8月,研究成果以论文形式呈现,感兴趣的读者可以通过arXiv:2508.13680访问完整论文。这是首次针对视觉语言模型在越南语多模态教育内容上的综合性评估研究。

想象一下,你正在参加一场特殊的考试比赛。参赛选手不是普通的学生,而是那些号称"无所不知"的人工智能系统,比如GPT-4和Claude等知名AI助手。考试内容也很特别——全部是越南语的考试题目,而且每道题都包含图表、图片或示意图,需要同时理解文字和图像才能答对。

这场"AI大考"的设计者就是韩国科技院的研究团队。他们想要回答一个有趣而重要的问题:这些在英语世界表现出色的AI系统,面对越南语的多模态考试题时,到底能考多少分?

考虑到越南语是全世界第十大使用人数最多的语言,拥有超过1亿母语使用者,这个问题的答案显然具有重要意义。更有趣的是,研究团队发现现有的测试基准存在明显不足。比如一些声称包含越南语多模态题目的数据集,实际上要么把所有图像内容都转换成了纯文字,要么所谓的"多模态题目"只是文字题目的截图而已,根本不需要真正的图文理解能力。

为了创建一个真正有挑战性的测试环境,研究团队构建了ViExam数据集。这就像是为AI准备了一场越南版的"高考",包含2548道精心筛选的多模态题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域。每道题目都包含需要同时理解的图像和越南语文字,就像真实的考试情境一样。

数据收集的过程颇具挑战性。研究团队使用自动化网络爬虫从越南教育网站收集考试材料,然后通过复杂的图像处理算法自动识别哪些题目真正包含有意义的图像元素,而不只是文字的截图。接着,他们开发了一套基于网页的审核系统,由三名越南语母语使用者对每道题目进行人工验证,确保题目质量和答案准确性。

研究结果让人颇感意外。当前最先进的AI系统在这场"越南语大考"中的表现远不如预期。总体而言,顶级AI模型的平均准确率只有57.74%,而普通的越南学生平均能达到66.54%的正确率。这意味着大多数AI系统的表现还不如人类考生的平均水平。

更有趣的是,不同AI系统之间的表现差异巨大。OpenAI最新的"思维链"模型o3表现最佳,达到了74.07%的准确率,成为唯一超过人类平均水平的AI系统。相比之下,开源的AI模型表现普遍较差,平均准确率只有27.70%,与闭源商业模型之间存在近30个百分点的巨大差距。

通过深入分析,研究团队揭示了几个有趣的现象。首先,AI系统在不同学科上的表现差异明显。地理题目对AI来说相对简单,准确率达到72.81%,这主要是因为地理题目经常包含直观的图表和数据,只需要读取和比较信息即可。相反,物理题目最为困难,准确率仅为44.60%,因为这些题目需要复杂的图形解读和物理概念理解。

令人困惑的是,AI系统在回答错误时表现出明显的选择偏向。当面对多选题时,所有AI模型都倾向于选择B选项,频率达到31.09%,远高于随机选择应有的25%。这种偏向可能源于训练数据中B选项作为正确答案的频率较高,揭示了AI训练过程中的隐含偏见。

研究团队还进行了一系列对照实验来理解AI失败的原因。他们发现,当把越南语的多模态题目改为纯文字题目时,AI的表现明显提升,平均准确率从61.19%上升到70.60%。这说明真正的挑战不在于越南语本身,而在于图文信息的综合理解。

为了验证这一点,研究团队测试了AI的越南语文字识别能力。结果显示,所有主流AI系统都能很好地识别越南语文字,字符错误率只有6.68%,词错误率为9.32%。这证明AI的困难确实在于多模态推理,而非基础的文字识别。

一个有趣的发现是,用英语提示词来询问越南语题目并不能改善AI的表现。对于顶级的商业AI模型,英语提示反而会略微降低准确率约1个百分点,而对开源模型则有约2.9个百分点的提升。这种差异可能反映了不同AI系统在多语言处理方面的架构差异。

研究团队还探索了"人机协作"的可能性。当人类专家帮助AI系统处理图像内容,提供更准确的图像描述和文字识别结果时,AI的表现确实有所改善,准确率提升了约5.71个百分点。这暗示了未来AI系统的一个发展方向:不是完全替代人类,而是与人类形成更有效的协作关系。

驾驶考试题目提供了另一个有趣的观察角度。虽然这些题目对人类来说相对简单,涉及的都是基本的交通规则和标志识别,但AI系统的准确率只有67.51%,远低于人类驾驶员应该达到的水平。这种表现差异可能源于AI对特定文化背景下的交通规则理解不足,也反映了AI在处理需要常识性判断的实际场景时的局限性。

智力测验题目同样具有挑战性。这类题目主要测试抽象推理和模式识别能力,AI系统的平均准确率为47.08%。有趣的是,这个分数接近随机猜测的水平,说明当前的AI系统在处理需要深度抽象思维的问题时仍有很大改进空间。

开源AI模型与商业模型之间的巨大性能差距值得特别关注。表现最好的开源模型Qwen 2.5 VL 72B的准确率为41.77%,仍然远低于表现最差的商业模型Claude 4.0的48.28%。这种差距不仅反映了计算资源和训练数据的差异,也暗示了多语言多模态能力的开发需要更多的技术积累和资源投入。

从更广的角度来看,这项研究揭示了AI发展中的一个重要问题:语言和文化的多样性。虽然当前的AI系统在英语环境下表现出色,但当面对其他语言特别是需要深度文化理解的内容时,表现会显著下降。这提醒我们,真正的人工通用智能不仅需要技术突破,还需要对全球语言和文化多样性的深入理解和尊重。

研究结果对教育技术的发展也有重要启示。如果AI系统要在非英语教育环境中发挥重要作用,就需要针对具体语言和文化背景进行专门的优化和训练。同时,这也为发展中国家的AI研究提供了机会——专注于本土语言和文化的AI系统可能比通用的英语AI更有价值。

从技术发展的角度,这项研究指出了几个值得关注的方向。首先是多模态推理能力的改进,特别是在非英语环境下的图文理解能力。其次是消除训练数据中的偏见,减少AI系统在选择答案时的不合理倾向。最后是开发更好的跨语言迁移学习方法,让AI系统能够更有效地将在一种语言中学到的知识应用到其他语言中。

这项研究的意义不仅在于揭示了当前AI系统的局限性,更在于为未来的发展指明了方向。随着全球化的深入发展,AI系统需要具备真正的多语言多文化能力,而不仅仅是英语世界的"学霸"。只有这样,AI技术才能真正惠及全球不同语言和文化背景的用户。

说到底,这场AI与越南学生的"考试较量"告诉我们,技术的进步还有很长的路要走。尽管AI在很多方面已经超越了人类,但在理解和处理真实世界的复杂性,特别是涉及不同语言文化的内容时,AI仍然需要向人类学习。这不仅是技术挑战,也是如何让AI更好地服务于多元化世界的重要课题。

Q&A

Q1:ViExam数据集是什么?它包含哪些内容?

A:ViExam是由韩国科技院研究团队创建的越南语多模态考试题数据集,包含2548道需要同时理解图像和越南语文字的题目,涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域,是首个专门评估AI越南语图文理解能力的综合测试基准。

Q2:为什么AI模型在越南语考试中表现不如人类学生?

A:主要原因是多模态推理的挑战而非语言障碍。研究显示AI能很好识别越南语文字(错误率只有6.68%),但在需要同时理解图像和文字内容进行综合推理时表现下降。纯文字题目AI准确率为70.60%,而多模态题目只有61.19%,说明图文结合理解是真正的难点。

Q3:不同AI模型在越南语考试中的表现差异有多大?

A:差异非常显著。最先进的思维链模型o3准确率达到74.07%,是唯一超过人类平均水平(66.54%)的AI系统。商业模型平均57.74%,而开源模型仅27.70%。其中表现最好的开源模型Qwen 2.5 VL 72B为41.77%,仍远低于表现最差的商业模型48.28%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

处长把我踢出工作群还标“编外”,隔天求我救急?我:没权限!

晓艾故事汇
2026-03-21 15:19:51
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
顺德女老板,叫板国际巨头,一年卖出5个亿

顺德女老板,叫板国际巨头,一年卖出5个亿

最华人
2026-03-25 12:33:15
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
第六险来了!一文读懂“长护险”

第六险来了!一文读懂“长护险”

极目新闻
2026-03-26 07:21:00
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

姐弟闹掰?李鑫拒绝录口供,直言这样下去姐弟没得做,李林哭了!

李橑在北漂
2026-03-26 01:56:27
谭瑞松,被判死缓

谭瑞松,被判死缓

新京报政事儿
2026-03-25 17:17:03
致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

致命围堵!7500人强攻哈尔克岛,伊朗生死线告急

孤城落叶
2026-03-25 14:06:37
52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

52年岳飞后人找毛主席求安排工作,主席听完沉默片刻,说了句话让他当场愣住

老杉说历史
2026-03-13 23:00:06
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
2026-03-26 14:00:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7745文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
房产
时尚
游戏
家居

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

2026年了,最好看的还是“这件针织”!

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版