网易首页 > 网易号 > 正文 申请入驻

中科院让AI学会"有图有真相":用画图来证明数学题的答案对不对

0
分享至


这项由中科院沈阳计算所、中科院大学、字节跳动以及西湖大学联合完成的研究发表于2026年2月的arXiv预印本平台(论文编号:arXiv:2602.11731v1),提出了一个听起来有些神奇的想法:让AI不再只是"看得懂"和"画得出",而是真正学会"边画边想"。

现在的AI已经很厉害了,既能准确识别图片中的文字和符号,也能生成各种精美的图像。但就像一个只会照葫芦画瓢的学生,它们在处理复杂推理任务时总是出现一个奇怪的矛盾:看图的时候很精准,能把复杂的数学符号都识别出来;画图的时候很漂亮,生成的图像看起来很专业。可是一旦需要严格的逻辑推理,比如解数学题,问题就来了。

这就好比一个学生,抄写数学题时字迹工整,画示意图时也很漂亮,但真正解题时却经常算错。AI面临的困境也是如此:它能"看懂"题目中的每个符号,也能"画出"看起来正确的解答图,但往往缺乏严格的逻辑精确性。生成的图可能在视觉上很合理,但数学关系却是错误的。

为了解决这个问题,研究团队提出了一个巧妙的解决方案,他们称之为"思维与绘图"(Thinking with Drafting,简称TwD)。这个方法的核心思想是将AI的视觉理解过程重新定义为"光学解压缩"——就像解压缩文件一样,从压缩的视觉信息中重建出完整的逻辑结构。

研究团队认为,"解析即推理"是一个关键原则。真正的理解不是产生流畅的文字解释,而是能够将模糊的自然语言和视觉线索转换成结构化的形式。就像一个优秀的数学老师,不仅要能读懂题目,更要能画出严格的示意图来辅助解题。

TwD方法的工作原理可以用厨师做菜来类比。传统AI就像一个只会看菜谱的厨师,能识别所有食材和步骤,但做出来的菜往往不尽人意。而TwD就像一个会边做边尝的厨师,它会先画出一个"草图食谱",然后根据这个草图来验证每一步是否正确,最后才给出最终答案。

具体来说,TwD使用了一种专门设计的简化图形语言作为"草稿本"。这种语言专门用来表示数学中的条形图模型——一种在数学教育中广泛使用的可视化工具。就像建筑师在盖房子前要先画施工图一样,AI在解题前也要先画出逻辑结构图。

这种图形语言包含三种基本元素。首先是实体元素,用来表示题目中的具体数量或对象,就像用不同长度的积木条来表示不同的数值。其次是关系元素,用来表示数量之间的逻辑关系,比如相等、大小比较等,就像用连接线来表示积木条之间的关系。最后是聚合元素,用来表示加法、减法等运算操作,就像用括号来组织不同的积木条组合。

为了验证这种方法的效果,研究团队专门构建了一个名为VisAlg的数据集。这个数据集包含了超过11000个视觉代数问题,涵盖了五种主要的问题类型。比例分配类问题占了最大比例,主要涉及"A是B的多少倍"这类问题。比率百分比类问题排在第二位,主要涉及分数和百分比运算。变化回归类问题涉及假设性的操作和状态变化。总和分割类问题涉及整体和部分的关系。差异分析类问题则涉及比较和差值计算。

数据集的构建过程就像精心制作一本教辅书。研究团队首先收集了15000个条形图词汇题,然后使用AI工具生成初步的解答草图,接着通过三轮严格的质量检查来确保每个样本都符合标准。第一轮检查语法是否正确,第二轮检查信息是否完整,第三轮检查风格是否一致。最终,只有通过所有检查的高质量样本才会被保留在数据集中。

实验结果显示,使用TwD方法训练的AI模型在各项指标上都有显著提升。在代码相似度、图像相似度和逻辑一致性等方面,TwD都超过了现有的最先进模型。更重要的是,经过TwD训练的8B参数模型甚至超越了一些大型商业模型的表现,这说明方法的有效性不仅仅依赖于模型规模,更在于训练方式的改进。

研究团队还进行了人工评估,发现AI生成的结构化草图与人类专家的评分有高达95.75%的相关性。这表明TwD确实能够生成符合人类逻辑的推理过程,而不是简单的模式匹配。

TwD方法的一个独特之处在于它将视觉生成重新定义为逻辑验证工具,而不是创意输出。传统的AI图像生成往往追求视觉效果,而TwD生成的图像主要用来验证逻辑推理的正确性。这就像数学老师在黑板上画示意图,目的不是为了好看,而是为了帮助学生理解解题思路。

这种方法的优势在多种问题类型上都得到了验证。对于比例分配问题,TwD能够通过重复相等长度的单元段来直观表示倍数关系,使抽象的乘法运算变成具体的单元重复任务。对于变化回归问题,TwD通过配对的增减段来表示假设性转移,然后在对齐的后续状态上施加约束条件。对于差异分析问题,TwD将一个实体作为参考锚点,用明确的偏移段来编码"大于"或"小于"关系,将比较语言转换为几何一致的减法布局。

研究团队还测试了TwD在更复杂的集合论推理任务上的表现。结果表明,当面对涉及多集合约束的高阶推理任务时,传统的大型语言模型往往会出现"拓扑幻觉"——生成的图看起来合理,但实际上违反了严格的布尔逻辑。而TwD能够成功地将抽象的集合问题分解为顺序几何操作,通过明确渲染原子交集来有效地可视化集合代数。

这项研究的意义不仅在于提升了AI的数学推理能力,更重要的是提供了一种新的思路:通过结构化的中间表示来桥接感知和推理的鸿沟。这就像给AI配备了一本"草稿本",让它能够像人类学生一样,通过画图来整理思路、验证答案。

当然,这种方法也有其局限性。目前的图形语言主要针对条形图视觉代数设计,要扩展到更广泛的科学图表类型还需要进一步研究。此外,虽然这种方法在数学推理上表现出色,但在其他类型的复杂推理任务上的效果还需要更多验证。

总的来说,这项研究为多模态AI的发展开辟了新的道路。它表明,真正智能的AI不仅要能"看得懂"和"画得出",更要能"想得清"。通过让AI学会使用结构化的视觉草图来辅助推理,我们正在向更可靠、更可验证的人工智能系统迈出重要一步。这种"有图有真相"的推理方式,也许正是通向真正智能的关键所在。

Q&A

Q1:什么是"思维与绘图"(TwD)方法?

A:TwD是一种让AI边画图边思考的新方法,它要求AI在解决数学问题时先画出结构化的草图,然后基于这个草图进行推理验证。就像学生解题时会画示意图一样,TwD让AI也学会用可视化的方式来整理和验证自己的推理过程,从而避免逻辑错误。

Q2:VisAlg数据集包含哪些类型的数学题?

A:VisAlg数据集包含五种主要的视觉代数问题类型:比例分配类(如"A是B的3倍"),比率百分比类(涉及分数和百分比),变化回归类(假设性操作),总和分割类(整体与部分关系),以及差异分析类(比较和差值计算)。总共包含超过11000个高质量题目。

Q3:TwD方法比传统AI方法好在哪里?

A:TwD的优势在于它生成的图不仅视觉上合理,逻辑上也严格正确。传统AI可能生成看起来正确但数学关系错误的图,而TwD通过结构化的图形语言确保每一步推理都有几何依据,就像有了一个可以自我验证的"验算器",大大提高了推理的准确性和可靠性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
司马南倒台一周年,爱国生意的流毒必须清除

司马南倒台一周年,爱国生意的流毒必须清除

涛哥锐评
2026-02-14 21:46:14
WTA官宣:郑钦文因病退出迪拜站 无缘连续两年战斯特恩斯

WTA官宣:郑钦文因病退出迪拜站 无缘连续两年战斯特恩斯

醉卧浮生
2026-02-15 15:04:22
中央戏剧学院表演系主任王鑫的权多大?震碎三观

中央戏剧学院表演系主任王鑫的权多大?震碎三观

雪中风车
2026-02-15 10:46:55
明日除夕,朋友圈别只会发“新年快乐”,30句祝福语,好听又高雅

明日除夕,朋友圈别只会发“新年快乐”,30句祝福语,好听又高雅

餐饮新纪元
2026-02-15 00:17:57
黄仁勋带火的水果摊主,今年春节怎么过?

黄仁勋带火的水果摊主,今年春节怎么过?

澎湃新闻
2026-02-15 13:12:09
56岁“恋爱脑”阿姨发现丈夫13年婚外情哭瞎右眼,离婚后10年游43国

56岁“恋爱脑”阿姨发现丈夫13年婚外情哭瞎右眼,离婚后10年游43国

上观新闻
2026-02-15 13:12:41
北漂女高管辞职当守岛人:27天不花钱,颠覆了对车、房的物质执念,精神自由无价

北漂女高管辞职当守岛人:27天不花钱,颠覆了对车、房的物质执念,精神自由无价

大风新闻
2026-02-14 15:17:08
韩媒:中国或0金收官创最差纪录!离开主场原形毕露 只能靠谷爱凌

韩媒:中国或0金收官创最差纪录!离开主场原形毕露 只能靠谷爱凌

念洲
2026-02-14 16:28:58
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

天天热点见闻
2026-02-15 08:24:58
最大10级北风+小雪中雪+雨+雷电除旧岁!马年大年初一多云相随气温升

最大10级北风+小雪中雪+雨+雷电除旧岁!马年大年初一多云相随气温升

极目新闻
2026-02-15 14:58:47
安徽一网友称嘴馋去买零食,意外抽中10克金条,零食很忙客服:消费满58元即可参与,总共10份

安徽一网友称嘴馋去买零食,意外抽中10克金条,零食很忙客服:消费满58元即可参与,总共10份

极目新闻
2026-02-15 14:37:26
纽约交易所被“搬空”,黄金白银价格闪崩,中国休市,有更大风浪?

纽约交易所被“搬空”,黄金白银价格闪崩,中国休市,有更大风浪?

安珈使者啊
2026-02-14 16:57:40
冯小刚一家三口拍春节全家福!冯朵被夸像王楚然,母女关系很微妙

冯小刚一家三口拍春节全家福!冯朵被夸像王楚然,母女关系很微妙

夜里的海风
2026-02-15 10:11:40
太抠了!网友怒斥表哥月工资14000块,每次拜年都是一桶油一袋米

太抠了!网友怒斥表哥月工资14000块,每次拜年都是一桶油一袋米

火山詩话
2026-02-15 11:03:31
欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

欧洲小偷,都传疯了,达成了一个行业共识,中国人的钱包,随便拿

西楼知趣杂谈
2026-02-14 18:35:51
高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

高市没想到,日本刚扣押中国渔船,抓走船长,中方就迅速出手了

清欢百味
2026-02-14 14:26:47
“最快女护士”张水华,签约特步!一周内连签2大品牌,业内:其商业价值有望持续提升!她1月刚从医院辞职,曾50天内赢得20万元奖金

“最快女护士”张水华,签约特步!一周内连签2大品牌,业内:其商业价值有望持续提升!她1月刚从医院辞职,曾50天内赢得20万元奖金

每日经济新闻
2026-02-15 15:10:07
4-1!3粒点球,榜首易主,皇马疯狂8连胜,超越巴萨登顶

4-1!3粒点球,榜首易主,皇马疯狂8连胜,超越巴萨登顶

足球狗说
2026-02-15 05:55:16
看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

火山詩话
2026-02-14 06:28:40
7-2惨案!39岁胡尔克暴力35米下坠任意球:30分钟3球 大腿粗得吓人

7-2惨案!39岁胡尔克暴力35米下坠任意球:30分钟3球 大腿粗得吓人

风过乡
2026-02-15 09:20:11
2026-02-15 16:08:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1848文章数 161关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

头条要闻

牛弹琴:鲁比奥演讲获热烈掌声 欧洲人又被美国忽悠了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

房产
本地
手机
教育
军事航空

房产要闻

三亚新机场,又传出新消息!

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

手机要闻

中兴星悦70 Ultra亮相:6000mAh电池、内置AI明星数字人

教育要闻

不得不说,近年来教育中的各种乱象,促进了教育巨大进步

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版