KAIST韩国科技院的新发现：AI能看懂越南考试题吗？答案让人意外|英语|推理|数学试卷|kaist

KAIST韩国科技院的新发现：AI能看懂越南考试题吗？答案让人意外

2025-08-28 14:09:26　来源: 科技行者

北京举报

分享至

这项由韩国科技院（KAIST）的邓维祥、沃安等研究员合作完成的研究发表于2025年8月，研究成果以论文形式呈现，感兴趣的读者可以通过arXiv:2508.13680访问完整论文。这是首次针对视觉语言模型在越南语多模态教育内容上的综合性评估研究。

想象一下，你正在参加一场特殊的考试比赛。参赛选手不是普通的学生，而是那些号称"无所不知"的人工智能系统，比如GPT-4和Claude等知名AI助手。考试内容也很特别——全部是越南语的考试题目，而且每道题都包含图表、图片或示意图，需要同时理解文字和图像才能答对。

这场"AI大考"的设计者就是韩国科技院的研究团队。他们想要回答一个有趣而重要的问题：这些在英语世界表现出色的AI系统，面对越南语的多模态考试题时，到底能考多少分？

考虑到越南语是全世界第十大使用人数最多的语言，拥有超过1亿母语使用者，这个问题的答案显然具有重要意义。更有趣的是，研究团队发现现有的测试基准存在明显不足。比如一些声称包含越南语多模态题目的数据集，实际上要么把所有图像内容都转换成了纯文字，要么所谓的"多模态题目"只是文字题目的截图而已，根本不需要真正的图文理解能力。

为了创建一个真正有挑战性的测试环境，研究团队构建了ViExam数据集。这就像是为AI准备了一场越南版的"高考"，包含2548道精心筛选的多模态题目，涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域。每道题目都包含需要同时理解的图像和越南语文字，就像真实的考试情境一样。

数据收集的过程颇具挑战性。研究团队使用自动化网络爬虫从越南教育网站收集考试材料，然后通过复杂的图像处理算法自动识别哪些题目真正包含有意义的图像元素，而不只是文字的截图。接着，他们开发了一套基于网页的审核系统，由三名越南语母语使用者对每道题目进行人工验证，确保题目质量和答案准确性。

研究结果让人颇感意外。当前最先进的AI系统在这场"越南语大考"中的表现远不如预期。总体而言，顶级AI模型的平均准确率只有57.74%，而普通的越南学生平均能达到66.54%的正确率。这意味着大多数AI系统的表现还不如人类考生的平均水平。

更有趣的是，不同AI系统之间的表现差异巨大。OpenAI最新的"思维链"模型o3表现最佳，达到了74.07%的准确率，成为唯一超过人类平均水平的AI系统。相比之下，开源的AI模型表现普遍较差，平均准确率只有27.70%，与闭源商业模型之间存在近30个百分点的巨大差距。

通过深入分析，研究团队揭示了几个有趣的现象。首先，AI系统在不同学科上的表现差异明显。地理题目对AI来说相对简单，准确率达到72.81%，这主要是因为地理题目经常包含直观的图表和数据，只需要读取和比较信息即可。相反，物理题目最为困难，准确率仅为44.60%，因为这些题目需要复杂的图形解读和物理概念理解。

令人困惑的是，AI系统在回答错误时表现出明显的选择偏向。当面对多选题时，所有AI模型都倾向于选择B选项，频率达到31.09%，远高于随机选择应有的25%。这种偏向可能源于训练数据中B选项作为正确答案的频率较高，揭示了AI训练过程中的隐含偏见。

研究团队还进行了一系列对照实验来理解AI失败的原因。他们发现，当把越南语的多模态题目改为纯文字题目时，AI的表现明显提升，平均准确率从61.19%上升到70.60%。这说明真正的挑战不在于越南语本身，而在于图文信息的综合理解。

为了验证这一点，研究团队测试了AI的越南语文字识别能力。结果显示，所有主流AI系统都能很好地识别越南语文字，字符错误率只有6.68%，词错误率为9.32%。这证明AI的困难确实在于多模态推理，而非基础的文字识别。

一个有趣的发现是，用英语提示词来询问越南语题目并不能改善AI的表现。对于顶级的商业AI模型，英语提示反而会略微降低准确率约1个百分点，而对开源模型则有约2.9个百分点的提升。这种差异可能反映了不同AI系统在多语言处理方面的架构差异。

研究团队还探索了"人机协作"的可能性。当人类专家帮助AI系统处理图像内容，提供更准确的图像描述和文字识别结果时，AI的表现确实有所改善，准确率提升了约5.71个百分点。这暗示了未来AI系统的一个发展方向：不是完全替代人类，而是与人类形成更有效的协作关系。

驾驶考试题目提供了另一个有趣的观察角度。虽然这些题目对人类来说相对简单，涉及的都是基本的交通规则和标志识别，但AI系统的准确率只有67.51%，远低于人类驾驶员应该达到的水平。这种表现差异可能源于AI对特定文化背景下的交通规则理解不足，也反映了AI在处理需要常识性判断的实际场景时的局限性。

智力测验题目同样具有挑战性。这类题目主要测试抽象推理和模式识别能力，AI系统的平均准确率为47.08%。有趣的是，这个分数接近随机猜测的水平，说明当前的AI系统在处理需要深度抽象思维的问题时仍有很大改进空间。

开源AI模型与商业模型之间的巨大性能差距值得特别关注。表现最好的开源模型Qwen 2.5 VL 72B的准确率为41.77%，仍然远低于表现最差的商业模型Claude 4.0的48.28%。这种差距不仅反映了计算资源和训练数据的差异，也暗示了多语言多模态能力的开发需要更多的技术积累和资源投入。

从更广的角度来看，这项研究揭示了AI发展中的一个重要问题：语言和文化的多样性。虽然当前的AI系统在英语环境下表现出色，但当面对其他语言特别是需要深度文化理解的内容时，表现会显著下降。这提醒我们，真正的人工通用智能不仅需要技术突破，还需要对全球语言和文化多样性的深入理解和尊重。

研究结果对教育技术的发展也有重要启示。如果AI系统要在非英语教育环境中发挥重要作用，就需要针对具体语言和文化背景进行专门的优化和训练。同时，这也为发展中国家的AI研究提供了机会——专注于本土语言和文化的AI系统可能比通用的英语AI更有价值。

从技术发展的角度，这项研究指出了几个值得关注的方向。首先是多模态推理能力的改进，特别是在非英语环境下的图文理解能力。其次是消除训练数据中的偏见，减少AI系统在选择答案时的不合理倾向。最后是开发更好的跨语言迁移学习方法，让AI系统能够更有效地将在一种语言中学到的知识应用到其他语言中。

这项研究的意义不仅在于揭示了当前AI系统的局限性，更在于为未来的发展指明了方向。随着全球化的深入发展，AI系统需要具备真正的多语言多文化能力，而不仅仅是英语世界的"学霸"。只有这样，AI技术才能真正惠及全球不同语言和文化背景的用户。

说到底，这场AI与越南学生的"考试较量"告诉我们，技术的进步还有很长的路要走。尽管AI在很多方面已经超越了人类，但在理解和处理真实世界的复杂性，特别是涉及不同语言文化的内容时，AI仍然需要向人类学习。这不仅是技术挑战，也是如何让AI更好地服务于多元化世界的重要课题。

Q&A

Q1：ViExam数据集是什么？它包含哪些内容？

A：ViExam是由韩国科技院研究团队创建的越南语多模态考试题数据集，包含2548道需要同时理解图像和越南语文字的题目，涵盖数学、物理、化学、生物、地理、驾驶考试和智力测验七个领域，是首个专门评估AI越南语图文理解能力的综合测试基准。

Q2：为什么AI模型在越南语考试中表现不如人类学生？

A：主要原因是多模态推理的挑战而非语言障碍。研究显示AI能很好识别越南语文字（错误率只有6.68%），但在需要同时理解图像和文字内容进行综合推理时表现下降。纯文字题目AI准确率为70.60%，而多模态题目只有61.19%，说明图文结合理解是真正的难点。

Q3：不同AI模型在越南语考试中的表现差异有多大？

A：差异非常显著。最先进的思维链模型o3准确率达到74.07%，是唯一超过人类平均水平（66.54%）的AI系统。商业模型平均57.74%，而开源模型仅27.70%。其中表现最好的开源模型Qwen 2.5 VL 72B为41.77%，仍远低于表现最差的商业模型48.28%。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.