网易首页 > 网易号 > 正文 申请入驻

南洋理工大学团队突破:让AI像人类一样"深思熟虑"地看图说话

0
分享至


这项由南洋理工大学、清华大学、百度公司和中山大学联合完成的研究发表于2024年12月31日的arXiv预印本平台(论文编号:arXiv:2412.18319v2),研究团队开发出了一种名为"集体蒙特卡洛树搜索"(CoMCTS)的全新方法,让人工智能在看图回答问题时能像人类一样进行深度思考和反思。

当我们看到一张复杂的几何图形或者数学题目时,不会立即给出答案,而是会在脑海中一步步分析:先看看图形的特点,然后回忆相关的公式,接着进行计算验证,如果发现哪一步有问题,还会回头重新思考。然而,目前的多模态大语言模型(就是那些既能看图又能理解文字的AI系统)却往往像"急性子"一样,看到问题就直接给出答案,缺乏这种深思熟虑的过程。

这就好比让一个从未学过下棋的人直接和棋王对弈,显然很难取胜。研究团队意识到,如果能让AI学会像人类一样"深思熟虑",那么它在处理复杂的视觉推理任务时就能表现得更加出色。于是,他们开发出了CoMCTS这套方法,并基于此构建了包含26万个样本的Mulberry数据集,训练出了具备逐步推理和反思能力的Mulberry模型系列。

一、为什么AI需要学会"深思熟虑"

当前的多模态大语言模型就像是一个聪明但冲动的学生。当老师提出一个数学问题时,这个学生往往会凭借第一印象快速给出答案,而不是像优秀学生那样先仔细分析题目、列出解题步骤、逐步计算并检查结果。

研究团队发现了一个有趣的现象:虽然这些AI模型在简单任务上表现不错,但一旦遇到需要深度推理的复杂问题,比如几何证明或者多步数学计算,它们的表现就会明显下降。这是因为它们缺乏"中间思考过程"——就像一个学生在考试时没有写出解题步骤,只是直接写出了最终答案,这样的答案往往是不可靠的。

更严重的问题是,当AI犯错时,它们很难像人类一样意识到错误并进行纠正。人类在解决问题时,如果发现某一步的结果看起来不对劲,会自然地回到前面重新检查,找出错误所在。但现有的AI模型缺乏这种"自我反思"的能力,一旦走错方向就很难自己纠正过来。

正是基于这样的观察,研究团队提出了一个核心观点:要想让AI真正擅长复杂推理,就必须让它学会创造和理解解题的每一个中间步骤,而不仅仅是给出最终答案。这就像教导一个学生不仅要知道答案是什么,更重要的是要理解为什么这个答案是正确的。

二、集体智慧:让多个AI"群策群力"

面对这个挑战,研究团队想到了一个绝妙的解决方案:既然单个AI容易陷入思维定式,那么为什么不让多个AI协同工作呢?这就像解决一个复杂问题时,我们会邀请不同背景的专家一起讨论,每个人都能提供独特的见解。

CoMCTS的核心思想就是"集体学习"。研究团队让四个不同的AI模型(包括GPT-4o、Qwen2-VL-7B、LLaMA-3.2-11B-Vision-Instruct和Qwen2-VL-72B)组成一个"专家团队",共同攻克每一个复杂问题。这种协作方式就像一群医生在进行疑难杂症的会诊,每个医生都会基于自己的经验和知识提出不同的诊断思路,然后大家一起讨论,最终达成最可靠的诊断结果。

在这个协作过程中,每个AI模型都会提供自己的推理路径,然后系统会对这些不同的思路进行评估。如果某个推理步骤被多数模型认为是合理的,那么这个步骤就会被保留下来;如果某个步骤存在明显错误,其他模型很快就能识别出来并将其淘汰。这种机制确保了最终的推理路径既多样化又可靠。

更巧妙的是,这种集体协作还能加快问题解决的速度。传统的树搜索方法就像一个人在迷宫中摸索,每次只能走一小步,需要很长时间才能找到出路。而CoMCTS则像是派出了多个探索队同时在不同方向上前进,每个队伍都能走得很快,最终能够更高效地找到正确的路径。

通过这种集体智慧的方式,CoMCTS在搜索成功率上达到了80.2%,远超传统方法的58.2%,同时平均搜索时间也大大缩短,从传统方法需要的42.1次迭代降低到仅需12.7次迭代。

三、像棋手一样思考:蒙特卡洛树搜索的魅力

为了理解CoMCTS是如何工作的,我们可以把它想象成一个高超的棋手在下棋时的思考过程。当面对一个复杂的棋局时,优秀的棋手不会随意走棋,而是会在心中构建一棵"可能性之树":从当前局面出发,考虑所有可能的走法,然后对每种走法进行评估,选择最有前途的路径继续深入思考。

CoMCTS采用了类似的策略,但加入了集体智慧的元素。整个过程包含四个关键步骤,就像一个专业团队在解决复杂问题时的标准流程。

首先是"扩展"阶段,就像头脑风暴会议一样。当面对一个推理节点时(比如解数学题的某个中间步骤),团队中的每个AI模型都会提出自己的后续思路,生成多种可能的推理路径。这确保了思路的多样性,避免了单一模型可能存在的盲点。

接下来是"模拟和错误定位"阶段,这个过程就像是同行评议。每个AI模型都会对其他模型提出的推理步骤进行评估,判断哪些步骤是合理的,哪些可能存在错误。如果某个推理步骤被多数模型认为是有问题的,那么这个步骤以及基于它的所有后续推理都会被淘汰掉。这种机制能够及早发现和纠正错误,避免在错误的道路上越走越远。

然后是"反向传播"阶段,就像是经验总结。系统会根据评估结果更新每个推理节点的价值评分,那些被证明是正确且有用的推理步骤会获得更高的评分,而那些被发现有问题的步骤则会被降低评分。这种机制帮助系统学习什么样的推理模式是有效的。

最后是"选择"阶段,系统会综合考虑每个推理节点的价值评分和探索程度,选择最有希望的节点作为下一轮搜索的起点。这个过程平衡了对已知好方案的利用和对未知可能性的探索。

四、学会反思:从错误中汲取智慧

人类智慧的一个重要特征就是能够从错误中学习。当我们在解题过程中发现某个步骤有问题时,我们不会简单地忽略这个错误,而是会分析错误的原因,然后调整思路重新开始。CoMCTS巧妙地将这种反思能力融入了AI的学习过程中。

在构建推理树的过程中,CoMCTS会特意保留那些被识别为错误的推理步骤。这些错误步骤并不是无用的垃圾,相反,它们是宝贵的学习资源。系统会创建"反思轨迹",将错误的推理步骤和正确的推理步骤进行对比,形成一种特殊的学习样本。

这种学习方式就像是让学生同时看到错误解法和正确解法的对比。学生不仅知道了正确答案是什么,更重要的是理解了为什么某种思路是错误的,应该如何纠正。这种对比学习比单纯的正面示例更加有效,因为它能帮助AI建立更加健壮的推理能力。

在训练过程中,Mulberry模型会学习这些反思轨迹,逐渐掌握如何识别错误、分析错误原因,并找到正确的解决路径。这使得模型在实际应用中遇到类似错误时,能够及时发现并自我纠正,大大提高了推理的准确性和可靠性。

五、构建推理数据库:Mulberry-260k的诞生

基于CoMCTS方法,研究团队构建了一个包含26万个样本的大规模数据集,命名为Mulberry-260k。这个数据集就像是一个巨大的"推理案例库",收录了各种复杂问题的详细解答过程。

这些样本涵盖了极其广泛的领域:从基础的数学计算到复杂的几何证明,从图表分析到科学推理,从医学影像理解到日常生活问题解答。每个样本都不是简单的问答对,而是包含了完整的推理树结构,记录了从问题到答案的每一个思考步骤。

更重要的是,这些推理步骤的数量是灵活的。对于简单问题,推理路径可能只需要6-7步;而对于复杂的几何证明问题,可能需要8-10步甚至更多。这种灵活性反映了人类思维的真实特点:面对不同难度的问题,我们会自然地调整思考的深度和复杂度。

数据集中还包含了大量的反思样本,这些样本记录了AI如何从错误的推理路径转向正确的解决方案。这些珍贵的学习资源帮助模型培养了强大的自我纠错能力。

六、Mulberry模型:推理能力的新突破

基于CoMCTS搜索得到的高质量数据,研究团队训练出了Mulberry系列模型,包括2B、7B、8B、11B等不同规模的版本。这些模型就像是经过专业训练的"推理专家",具备了类似人类的逐步思考和自我反思能力。

在性能测试中,Mulberry模型展现出了令人印象深刻的能力提升。以Mulberry-7B为例,它在MathVista数学推理测试中的得分从基础模型的58.2%提升到了63.1%,在MMMU多学科理解测试中从54.1%提升到了55.0%。虽然这些提升看起来不是特别大,但在AI领域,这样的性能提升是非常显著的,因为这些测试本身就极其困难。

更令人惊喜的是,Mulberry模型在与其他专门的推理模型对比中表现优异。例如,使用相同基础架构的LLaVA-NeXT-8B模型在数学推理上只能达到37.5%的准确率,而Mulberry-8B则达到了56.3%,提升幅度达到了18.8个百分点。

这种显著的性能提升主要归功于CoMCTS带来的高质量训练数据。与那些只是简单问答对的传统训练数据不同,Mulberry的训练数据包含了丰富的推理过程和反思机制,让模型能够真正学会"如何思考",而不仅仅是记住"标准答案"。

七、实验验证:数据说话

为了验证CoMCTS和Mulberry模型的有效性,研究团队进行了大量的对比实验。这些实验就像是严格的临床试验,通过客观的数据来证明新方法的优势。

在搜索效率的对比中,CoMCTS展现出了压倒性的优势。传统的MCTS方法在GPT-4o上的搜索成功率只有63.8%,而CoMCTS达到了80.2%。更重要的是,CoMCTS的搜索效率极高,平均只需要12.7次迭代就能找到正确答案,而传统方法需要42.1次迭代。这就像是两个探险队在寻宝,一个队伍需要摸索一个多月才能找到宝藏,而另一个队伍只需要不到两周时间。

在不同规模模型的测试中,Mulberry系列都表现出了一致的优势。无论是2B的小模型还是11B的大模型,经过CoMCTS数据训练后都获得了显著的性能提升。这证明了CoMCTS方法的普适性,不依赖于特定的模型架构或规模。

研究团队还进行了详细的消融实验,分析了集体学习中每个组件的贡献。结果显示,即使是相对较小的模型(如Qwen2-VL-7B),在集体协作中也能提供有价值的贡献,将整体性能提升2.4%。这个发现很有意思:就像在团队合作中,不是只有最聪明的人才能做出贡献,每个团队成员都能从不同角度提供有用的想法。

八、质量分析:推理步骤的深度探索

研究团队对生成的推理数据进行了深入分析,发现了一些有趣的规律。在Mulberry-260k数据集中,推理步骤的分布呈现出明显的任务相关性:简单的图表理解任务平均需要6.8步推理,而复杂的几何问题则需要平均8.9步推理。

这种自适应的推理深度反映了人类思维的真实特点。当我们面对简单问题时,大脑会自动采用较为直接的思考路径;而面对复杂问题时,我们会本能地启动更深层次的分析过程。Mulberry模型学会了这种智能化的思考深度调节,既能在简单问题上快速给出答案,又能在复杂问题上进行深度思考。

通过对推理树结构的分析,研究团队发现CoMCTS生成的推理路径具有良好的逻辑连贯性和多样性。不同的AI模型贡献了互补性的推理角度,形成了丰富的思考维度。这就像是一个多学科专家团队,每个专家都从自己的专业角度提供见解,最终形成了全面而深入的问题分析。

九、应用展望:改变AI推理的未来

CoMCTS和Mulberry模型的成功,不仅仅是学术研究上的突破,更重要的是为AI应用开辟了新的可能性。这种具备深度推理能力的AI,在许多实际场景中都能发挥重要作用。

在教育领域,这种AI可以成为优秀的智能导师。传统的AI教学系统往往只能给出标准答案,而具备推理能力的AI则能够展示完整的解题过程,帮助学生理解每一个步骤的逻辑。更重要的是,它还能识别学生的错误思路,并提供针对性的纠正建议,就像一个耐心的老师一样。

在科学研究中,这种AI能够协助研究人员进行复杂的数据分析和假设验证。它不仅能处理大量的实验数据,还能提供详细的分析过程和推理逻辑,帮助研究人员更好地理解实验结果的含义。

在工业应用中,具备推理能力的AI可以用于复杂系统的故障诊断。当设备出现异常时,AI不仅能识别问题所在,还能提供详细的诊断过程,包括排除了哪些可能性、为什么选择某个诊断结果等,这种透明的推理过程对于工程师来说是极其宝贵的。

在金融分析领域,这种AI能够提供不仅仅是投资建议,还包括完整的分析推理过程。投资者可以清楚地了解AI是如何得出结论的,基于哪些关键因素,考虑了哪些风险因素,这种透明度大大增强了AI建议的可信度。

说到底,CoMCTS和Mulberry模型的真正价值在于让AI从"黑盒子"变成了"透明盒子"。以前我们使用AI时,往往只能看到输入和输出,不知道中间发生了什么。现在,我们可以清楚地看到AI的思考过程,理解它是如何一步步得出结论的。这种透明度不仅提高了AI的可信度,也为人机协作开创了新的模式。

这项研究还为AI的未来发展指明了一个重要方向:不是简单地让AI变得更大更强,而是让它们变得更聪明、更像人类。通过集体智慧和深度推理,AI正在从工具演变为真正的智能伙伴。

当然,这项技术目前还处于研究阶段,距离大规模商业应用还有一定距离。但研究团队已经开源了相关代码和数据,这意味着全世界的研究者都可以基于这项工作继续改进和优化。随着技术的不断完善,我们有理由相信,具备深度推理能力的AI将在不久的将来走进我们的日常生活,成为我们解决复杂问题的得力助手。

对于有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2412.18319v2在arXiv平台上查询完整的研究论文,其中包含了详细的算法描述、实验设置和性能分析。

Q&A

Q1:CoMCTS和传统的MCTS有什么区别?

A:最大区别在于CoMCTS引入了"集体学习"概念,让多个AI模型协同工作,而传统MCTS只依靠单个模型自我搜索。这就像传统方法是一个人独自解题,而CoMCTS是让多个专家组成团队共同攻克难题,不仅搜索效率更高(从42.1次迭代降到12.7次),成功率也从63.8%提升到80.2%。

Q2:Mulberry模型的推理能力是如何实现的?

A:Mulberry模型通过学习CoMCTS生成的Mulberry-260k数据集获得推理能力。这个数据集包含26万个样本,每个样本都记录了完整的推理过程,包括正确的推理步骤和错误的推理步骤对比。模型通过学习这些丰富的推理轨迹,掌握了逐步思考和自我纠错的能力,就像学生通过大量练习题学会了解题方法。

Q3:这项技术在实际应用中有哪些优势?

A:主要优势是透明度和可靠性大幅提升。传统AI像"黑盒子",只给结果不给过程,而Mulberry能展示完整的推理步骤,让用户清楚了解AI是如何得出结论的。在数学推理任务中,Mulberry-8B比同类模型提升了18.8个百分点,这种性能提升在教育、科研、工业诊断等需要复杂推理的领域都有重要应用价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邝兆镭中超处子秀!09年龄段第一人,0突破0射门,3次对抗均失败

邝兆镭中超处子秀!09年龄段第一人,0突破0射门,3次对抗均失败

奥拜尔
2026-03-07 21:31:37
人伦崩塌,谁在毁掉我们的家庭?

人伦崩塌,谁在毁掉我们的家庭?

青苹果sht
2026-03-07 05:52:19
振聋发聩!中国总结伊朗五个教训,给全世界敲响警钟

振聋发聩!中国总结伊朗五个教训,给全世界敲响警钟

兵国大事
2026-03-07 00:05:10
伊朗女足被逼唱国歌!否则亲属将被逮捕 遭批:叛国者 可判绞刑

伊朗女足被逼唱国歌!否则亲属将被逮捕 遭批:叛国者 可判绞刑

念洲
2026-03-07 20:39:56
伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

伊朗发视频嘲讽:500万美元导弹摧毁10美元假直升机 这就是所谓的“精准胜利”

闪电新闻
2026-03-07 14:00:07
两名美军飞行员拒绝执行任务被捕:军队不是表达个人立场的地方

两名美军飞行员拒绝执行任务被捕:军队不是表达个人立场的地方

沉光映雪
2026-03-07 15:24:16
韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

韩磊税务罚单落地,豪宅被查封,一首歌收85万为何还要逃税?

老特有话说
2026-03-06 21:52:34
清朝时期,康熙若要从北京到承德避暑山庄,究竟需要多长时间?

清朝时期,康熙若要从北京到承德避暑山庄,究竟需要多长时间?

芊芊子吟
2026-03-07 20:25:03
绝命掐脖子!以色列全境断水,海湾多国命悬一线,水比石油更致命

绝命掐脖子!以色列全境断水,海湾多国命悬一线,水比石油更致命

策略述
2026-03-07 15:12:41
海澜之家被军队设局坑害?真相到底是什么?

海澜之家被军队设局坑害?真相到底是什么?

有牙的兔纸
2026-03-07 15:26:41
伊朗导弹,夜袭美航母

伊朗导弹,夜袭美航母

极目新闻
2026-03-07 07:22:23
伊朗与王毅通话后,中俄领衔27国集体发声必保全伊朗

伊朗与王毅通话后,中俄领衔27国集体发声必保全伊朗

命运自认幽默
2026-03-07 04:24:25
16GB+1TB!新机官宣:3月10日,全面开售!

16GB+1TB!新机官宣:3月10日,全面开售!

科技堡垒
2026-03-07 11:00:58
三婚又要离,越扒越窒息,他也太渣了!

三婚又要离,越扒越窒息,他也太渣了!

背包旅行
2026-03-07 20:05:55
特朗普没想到:美伊大战打醒两个国家,一个是越南,一个是菲律宾

特朗普没想到:美伊大战打醒两个国家,一个是越南,一个是菲律宾

东极妙严
2026-03-07 12:41:17
两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

两会不到3天,5大好消息传来!老百姓暗暗叫好:希望国家尽快落实

谈史论天地
2026-03-07 06:54:29
文旅部部长:有外国游客购买40箱中国货离境退税,被航司罚款后发现还是划算,手机无人机已成“中国特产”

文旅部部长:有外国游客购买40箱中国货离境退税,被航司罚款后发现还是划算,手机无人机已成“中国特产”

极目新闻
2026-03-07 12:57:58
祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

祸国殃民——赞美真主党?先摸摸自己的良心再说话吧

老王说正义
2026-03-07 07:47:38
大量滞留在迪拜的黄金,正折价出售

大量滞留在迪拜的黄金,正折价出售

中国能源网
2026-03-07 09:15:13
离谱!67亿身价的宇树科技王兴兴被扒在青藤相亲,网友急了

离谱!67亿身价的宇树科技王兴兴被扒在青藤相亲,网友急了

雷科技
2026-03-07 15:42:00
2026-03-08 02:03:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7486文章数 553关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

教育
手机
本地
公开课
军事航空

教育要闻

初中三年悄悄筛人,输的常常不是脑子

手机要闻

网曝OPPO Find N6渲染图,或有橙色版本

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版