![]()
这项由北京大学与阿卡迪亚大学联合开展的研究发表于2025年的人工智能领域重要会议,论文编号为arXiv:2601.15224v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
想象一下这样的场景:你正在教孩子如何收拾房间,当孩子把一半的玩具放回玩具箱后,你能立刻看出房间收拾了大概50%。但对于人工智能来说,这种看似简单的"进度评估"能力却是一个巨大的挑战。就像教一个从未见过人类活动的外星人学会判断"这件事做到了什么程度"一样困难。
这项突破性研究首次系统性地探索了如何让视觉语言模型获得"进度推理"能力。研究团队发现,目前最先进的AI模型在判断任务完成度方面表现得令人意外地糟糕,经常会把刚开始的任务误判为快完成了,或者在面对根本无法评估的情况时依然给出一个看似确定的答案。
为了解决这个问题,研究团队开创了一个全新的研究方向,他们不仅构建了专门的测试平台来评估AI的进度判断能力,还开发了一套模仿人类思维方式的"两阶段推理方法"。更令人兴奋的是,他们证明了即使是相对较小的AI模型,只要接受了正确的训练,也能在这项任务上超越那些体积庞大的通用模型。
这项研究的意义远超学术范畴。在未来的智能家居、自动驾驶、医疗辅助等领域,AI需要准确判断各种任务的完成程度,从而做出合适的下一步决策。这就像培养了一个不仅能干活,还能准确评估工作进展的智能助手。
一、构建全新的AI能力测试平台:PROGRESS-BENCH
传统的AI测试就像考试只出选择题,而这次研究团队设计的测试更像是让AI参加实际工作面试。他们构建了一个名为PROGRESS-BENCH的综合测试平台,专门用来检验AI是否真的具备判断任务完成度的能力。
这个测试平台的设计思路很巧妙。研究团队收集了大量机器人执行各种任务的视频,比如机器人收拾餐具、搬运物品、组装部件等。然后他们从这些完整的任务视频中随机截取一个时刻的画面,就像在电影播放过程中随机按下暂停键一样。接下来,他们要求AI模型观看这张"暂停"的图片,并判断这个任务已经完成了百分之多少。
测试的巧妙之处在于它的多维度设计。首先是演示方式的差异:有时候给AI看的是完整的视频演示,就像先播放一遍完整电影让AI了解剧情发展;有时候只给AI看文字描述,就像只提供电影剧本而不给视觉画面。这种设计能够测试AI在不同信息条件下的判断能力。
其次是视角变化的挑战。有时候演示视频和需要评估的图片来自同一个摄像机角度,这相对简单,就像从同一个座位观看舞台表演;但有时候它们来自不同角度,这就像要求观众从包厢的角度理解舞台正中央发生的事情,难度大大增加。
最有趣的设计是"无法回答"的情况。研究团队故意制造了一些根本无法判断进度的陷阱场景。比如,演示的是"把苹果放进篮子"的任务,但给出的评估图片却显示机器人在操作香蕉。这就像问你"把大象装进冰箱进行到了第几步",但图片显示的却是在操作猴子。一个聪明的AI应该诚实地回答"无法判断",而不是胡编乱造一个看似合理的数字。
整个测试平台包含了超过3000个精心设计的问题,涵盖了四种不同的机器人平台和各种复杂程度的任务。这种全面性确保了测试结果的可靠性和代表性。
二、揭开AI进度判断能力的真实面目
当研究团队用这个测试平台检验14个最先进的AI模型时,结果让所有人都大吃一惊。这些平时在回答问题、翻译语言、分析图片方面表现优异的AI模型,在判断任务完成度这个看似简单的问题上,表现得像初学者一样笨拙。
大部分AI模型展现出了三个主要问题。第一个问题是极度的"敏感性",就像情绪不稳定的人一样。同样是判断一个擦桌子的任务完成了多少,如果给它看视频演示,它可能说完成了60%;但如果只给它看文字描述"拿起抹布,擦拭桌面,放回抹布",它可能就说完成了30%。这种不一致性表明这些AI模型并没有真正理解任务的本质,而是在依赖表面的视觉或文字线索进行猜测。
第二个问题是"视角依赖症"。当演示视频和评估图片来自不同摄像机角度时,AI的表现会显著下降。这就像一个人只能从正面识别朋友,一旦朋友转个身从侧面出现就认不出来了。这说明这些AI模型还没有建立起对三维空间和任务状态的深层理解,它们更像是在进行图片匹配游戏,而不是真正的进度推理。
第三个问题最为严重,就是"盲目自信"。面对那些根本无法判断进度的陷阱情况,大多数AI模型不是诚实地承认"不知道",而是依然给出看似确定的答案。这就像一个从未学过医学的人面对病人时依然装作专业医生一样危险。在实际应用中,这种盲目自信可能导致严重的决策错误。
更令人担忧的是,即使是那些参数量庞大、训练数据丰富的顶级AI模型,在这项测试中的表现也好不了多少。有些模型在预测任务进度时表现出明显的"极端化倾向",要么说任务几乎没开始(接近0%),要么说快完成了(接近100%),很少给出中间值。这就像一个只能说"非常冷"或"非常热"的温度计,完全失去了精确测量的价值。
研究团队还发现了一个有趣的现象:同一个AI模型在面对相同任务的不同时刻时,给出的进度评估竟然没有合理的递增关系。按理说,如果一个任务在时刻A完成了30%,在稍后的时刻B应该完成更多,比如45%。但很多AI模型给出的答案毫无逻辑可言,时而高时而低,就像坏掉的里程表一样不可靠。
三、模仿人类思维的两阶段推理方法
面对AI模型在进度判断上的糟糕表现,研究团队决定从人类的思维方式中寻找灵感。他们观察到,当人类判断一个任务的完成度时,大脑其实经历了两个清晰的阶段,就像侦探破案一样。
第一个阶段是"寻找参照物"。当你看到朋友正在做饭时,你的大脑会自动搜索记忆中关于做饭流程的知识,然后找到一个与当前情况最相似的步骤作为参照点。比如,看到朋友正在切菜,你会想起"切菜"通常是做饭流程中的第二或第三个步骤,这就成了你的参照锚点。
第二个阶段是"精细对比"。有了参照点之后,你会仔细观察当前状况与这个参照点的具体差异。也许你记忆中的"切菜"步骤是切洋葱,但朋友现在切的是胡萝卜,而且已经切了一大半。基于这种精细对比,你能够调整对进度的估计,得出更准确的判断。
基于这种观察,研究团队设计了一套"两阶段进度推理方法"。首先让AI模型执行"情节记忆检索",也就是从给定的任务演示中找出与当前观察最相似的步骤作为参照锚点。这就像让AI先成为一个合格的"档案管理员",能够从大量信息中快速定位到最相关的内容。
然后进入"心理模拟"阶段,让AI模型详细比较当前观察到的情况与参照锚点之间的细微差别,从而推断出精确的进度估计。这个过程就像让AI成为一个细心的"质量检验员",能够发现和分析细节上的差异。
为了验证这种方法的有效性,研究团队首先尝试了"免训练"的方式,也就是不改变AI模型本身,只是改变向它提问的方式。他们设计了特殊的提示语,强制要求AI必须按照两阶段方式思考。比如,不是直接问"这个任务完成了多少",而是先问"在演示中,哪一步与当前情况最相似",然后再问"基于这种相似性,你认为任务进度如何"。
结果显示,这种方法对大型AI模型确实有一定效果,就像给一个聪明但缺乏方法的学生提供了解题思路。但对于较小的模型,效果并不理想,这说明仅仅改变提问方式是不够的,AI模型本身也需要接受专门的训练。
四、专门训练出的进度推理专家:PROGRESSLM
意识到仅仅改变提问方式无法根本解决问题后,研究团队决定从零开始训练一个专门的"进度推理专家"。这就像培养一个专业的项目经理,让他专门负责评估各种任务的完成情况。
他们构建了一个包含45000个训练样本的数据集PROGRESSLM-45K。这个数据集的设计非常精妙:它包含了各种类型的机器人任务,但关键是这些训练任务与测试任务完全不同。这样做是为了确保AI模型学到的是通用的"进度判断能力",而不是对特定任务的记忆。就像教会一个人阅读的能力,而不是让他背诵特定的文章。
训练过程分为两个阶段。第一阶段是"监督学习",研究团队为每个训练样本提供了标准答案,包括应该选择哪个参照步骤,以及最终的进度评估结果。更重要的是,他们还提供了详细的推理过程,教AI模型如何一步步思考。这就像给学生提供不仅有标准答案,还有详细解题步骤的练习册。
第二阶段是"强化学习",让AI模型在实践中不断改进自己的判断能力。系统会根据AI模型的表现给出奖励或惩罚信号:准确的进度判断会得到奖励,错误的判断会受到惩罚,而在应该说"不知道"的时候诚实承认无法判断也会得到奖励。这种训练方式鼓励AI模型既要追求准确性,也要保持诚实。
经过这种专门训练后,诞生了PROGRESSLM-3B模型。虽然它的参数量只有30亿,远小于那些千亿级别的大型模型,但在进度判断任务上的表现却令人刮目相看。这证明了专业化训练的威力,就像一个专业的心脏外科医生虽然不一定比全科医生知识面广,但在心脏手术方面绝对更加专业。
PROGRESSLM-3B展现出了三个显著优势。首先是稳定性,无论演示是视频还是文字,无论视角是否发生变化,它都能给出相对一致的判断。其次是诚实性,面对那些无法判断进度的陷阱情况,它会诚实地承认"无法确定",而不是给出虚假的确定答案。最后是准确性,它的进度预测与人类专家的判断高度一致。
五、深入探究AI进度推理的工作机制
为了更好地理解AI模型是如何进行进度推理的,研究团队进行了大量的内部机制分析,就像解剖学家研究人体结构一样。他们发现了一些非常有趣的现象。
首先,他们验证了"两阶段推理"确实在起作用。通过分析PROGRESSLM模型的内部工作过程,研究团队发现模型在第一阶段选择的参照步骤与最终给出的进度评估之间存在强烈的相关性。这就像发现侦探确实是先找到了关键线索,然后基于这个线索推出了最终结论,整个过程逻辑清晰。
更有趣的是,研究团队发现不同类型的演示对AI模型的影响截然不同。当给AI模型看视频演示时,它的判断主要基于视觉特征的匹配,就像通过外观识别物品。但当只给文字描述时,AI模型必须进行更抽象的推理,它需要在脑海中构建任务进展的"心理模型",然后将当前观察映射到这个抽象模型中。
研究团队还分析了AI模型的"错误模式"。他们发现,失败的模型通常会陷入几种典型的错误陷阱。有些模型表现出"锚定偏差",就是过度依赖第一印象,一旦选定了参照步骤就很难调整。有些模型则表现出"极化倾向",总是给出接近0%或100%的极端答案,缺乏精细的区分能力。
最令人惊讶的发现是关于模型规模的。传统观念认为模型越大越好,但在进度推理任务上,研究团队发现专门训练比单纯增加模型规模更有效。一个只有30亿参数但接受过专业训练的模型,在进度判断上的表现可以超越700亿参数的通用大模型。这就像一个专业的钢琴师虽然不如博学的学者知识面广,但在演奏方面绝对更专业。
研究团队还测试了模型在"跨领域"场景下的表现。他们让在机器人任务上训练的PROGRESSLM模型去评估人类活动的进度,比如判断一个人做饭、整理房间或修理物品的完成度。结果显示,模型表现出了不错的迁移能力,这说明它学到的确实是通用的"进度推理"能力,而不是特定任务的模式记忆。
六、现实应用的广阔前景
这项研究的意义远远超出了学术领域的边界,它为AI在现实世界中的应用开辟了全新的可能性。现在的AI系统大多只能执行单一的、预设的任务,就像只会按照固定程序运行的机器。而具备了进度推理能力的AI,就像获得了"工作意识"的智能助手,能够理解任务的进展状况并做出相应调整。
在智能制造领域,这种能力意味着生产线上的AI系统不仅能执行操作,还能实时评估生产进度,预测完成时间,甚至在发现进度异常时主动调整策略。比如,当AI发现某个装配步骤的完成度低于预期时,它可以自动分配更多资源或调整后续环节的时间安排。
医疗康复领域也将从中受益。康复治疗往往是一个长期过程,需要持续监测患者的恢复进度。具备进度推理能力的AI助手可以通过观察患者的日常活动,评估康复训练的完成情况,为医护人员提供更准确的康复进度报告,从而制定更个性化的治疗方案。
在教育领域,这种技术可以帮助在线教育平台更好地理解学生的学习进度。不是简单地记录学生完成了哪些课程,而是真正理解学生对知识的掌握程度。AI教师可以通过观察学生解题的过程,判断学生在某个知识点上的理解程度,从而提供更精准的辅导建议。
家用机器人是另一个重要的应用场景。现在的扫地机器人只能按照预设路径工作,而具备进度推理能力的家用机器人可以根据房间的实际清洁状况调整清洁策略。它能够判断哪些区域已经清洁完毕,哪些区域还需要额外关注,从而提供更智能、更高效的服务。
自动驾驶汽车也将受益于这种技术。目前的自动驾驶系统主要关注即时的路况和障碍物,而具备进度推理能力的系统可以更好地理解整个行程的进展。比如,在复杂的城市道路中,AI可以评估当前的驾驶进度,预测到达目的地的时间,甚至在发现进度异常时主动寻找替代路线。
更进一步,这种技术还可能催生全新的AI服务模式。比如"智能项目管理助手",它可以通过观察团队的工作状况,评估项目的真实进展,识别潜在的进度风险,为项目经理提供更准确的决策支持。
七、技术挑战与未来发展方向
虽然这项研究取得了重要突破,但研究团队也诚实地指出了当前技术的局限性和未来需要解决的挑战。目前的进度推理能力主要在相对简单和结构化的任务上表现良好,面对更复杂、更开放的现实场景时,仍然存在不少困难。
首先是"任务复杂性"的挑战。现实世界中的任务往往比实验室环境中的机器人操作复杂得多。一个简单的"准备晚餐"任务就可能涉及购买食材、清洗蔬菜、切配处理、烹饪调味、摆盘装饰等多个子任务,而且这些子任务之间的顺序和重要性可能因人而异。如何让AI理解这种复杂性和个性化特征,是一个需要进一步研究的问题。
其次是"多模态信息融合"的难题。真实的进度评估往往需要综合多种信息源:不仅要看到正在发生什么,还要听到相关的声音,甚至要理解执行者的表情和肢体语言。比如,判断一个学生学习进度时,不仅要看他完成了多少练习,还要观察他的专注程度、理解表情、提问频率等。如何让AI整合这些不同类型的信息,形成更全面的进度判断,是一个技术挑战。
"个性化适应"是另一个重要课题。不同的人完成同一个任务的方式和节奏可能完全不同。有些人喜欢按部就班,有些人习惯跳跃式进展;有些人动作快但需要返工,有些人慢工出细活。如何让AI学会适应这种个体差异,给出个性化的进度评估,需要更多的研究投入。
研究团队也指出了"伦理和隐私"方面的考虑。进度推理技术如果被用于监控员工工作或学生学习,可能会引发隐私侵犯的担忧。如何在提供有用服务的同时保护个人隐私,如何确保这种技术不被滥用于过度监控,是技术发展过程中必须考虑的社会责任问题。
展望未来,研究团队提出了几个重要的发展方向。首先是扩展到更多领域和任务类型,从目前的机器人操作扩展到人类的各种日常活动、创造性工作、团队协作等场景。其次是提高实时性和效率,让进度推理能够在移动设备、边缘计算环境中流畅运行。
另一个重要方向是增强"解释性"。不仅要让AI给出进度判断,还要让它解释为什么这样判断,这样用户才能理解和信任AI的评估结果。最后是发展"主动进度管理"能力,让AI不仅能评估当前进度,还能主动建议如何改进工作效率、优化任务安排。
说到底,这项研究开辟了一个全新的AI能力领域。就像教会了AI"看懂进度条"这样一个看似简单却极其重要的技能。随着这种能力的不断完善,我们可以期待AI从简单的工具执行者,进化为真正理解任务进展的智能合作伙伴。这不仅会让AI更加实用,也会让人机协作变得更加自然和高效。
归根结底,进度推理能力的突破标志着AI正在从"按指令行事"向"理解工作本质"迈进。这种进步不仅是技术上的飞跃,更是AI智能化程度的重要提升。虽然还有很多挑战需要解决,但这项研究已经为我们展示了一个更智能、更贴心的AI未来。
Q&A
Q1:PROGRESS-BENCH测试平台是如何评估AI进度判断能力的?
A:PROGRESS-BENCH通过三个维度测试AI:演示方式(视频演示vs文字描述)、视角对应(同角度vs不同角度)、和可回答性(正常情况vs无法判断的陷阱场景)。就像给AI看任务演示后,随机截取一个时刻让它判断完成了多少百分比,还会故意设置一些根本无法评估的情况来测试AI是否会诚实地承认"不知道"。
Q2:PROGRESSLM模型相比传统大模型有什么优势?
A:PROGRESSLM虽然只有30亿参数,但通过专门的两阶段推理训练,在进度判断上超越了700亿参数的通用模型。它具备三个关键优势:稳定性(不同条件下判断一致)、诚实性(无法判断时会承认不知道)、准确性(预测结果与人类专家判断高度一致),就像专业心脏外科医生虽然知识面不如全科医生广,但在专业领域更出色。
Q3:进度推理技术在实际生活中有哪些应用前景?
A:这种技术将广泛应用于智能制造(生产线进度监控)、医疗康复(患者恢复进度评估)、在线教育(学生学习进度跟踪)、家用机器人(清洁任务智能调整)、自动驾驶(行程进展预测)等领域。它让AI从简单的指令执行者进化为能理解任务进展的智能合作伙伴,使人机协作更自然高效。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.