剑桥大学：当视频生成AI学会"思考"，竟然比文字描述更聪明？|推理|视觉|实验|人工智能

剑桥大学：当视频生成AI学会"思考"，竟然比文字描述更聪明？

2026-02-07 20:07:39　来源: 科技行者

北京举报

分享至

想象一下，如果你要给朋友描述如何从迷宫中走出来，你会怎么做？大多数人会说"先往右走，再向上，然后左转"。但如果你能直接画一张图，或者拍一段视频来展示整个过程呢？哪种方式更清楚、更准确？这个看似简单的问题，其实触及了人工智能研究的一个核心难题。

最近，由剑桥大学和哥本哈根大学人工智能中心联合领导的研究团队发表了一项突破性研究，探索了一个令人意外的发现：视频生成模型不仅能创造华丽的视觉内容，更重要的是，它们竟然比传统的文字描述方式更擅长进行复杂的视觉推理。这项研究发表于2026年的预印本论文中，标题为《Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning》，感兴趣的读者可以通过arXiv:2601.21037v1查找完整论文。

研究团队像侦探一样，首先发现了一个重要线索：目前的大型语言模型虽然在文字推理方面表现出色，但在处理需要精确空间理解的任务时却经常"卡壳"。比如说，当你要求这些模型描述如何精确地旋转和摆放一个复杂的几何图形时，它们往往会给出模糊不清或者完全错误的指令。这就像让一个只会用文字的人去指导别人完成一项精细的手工活动一样困难。

为了验证他们的猜想，研究团队设计了两个截然不同的实验场景。第一个场景叫做"迷宫导航"，就像电子游戏中常见的情形：一个小角色需要在复杂的迷宫中找到从起点到终点的最短路径，同时避免撞墙。这个任务考验的是模型的逻辑推理能力和长期规划能力。第二个场景更加有趣，叫做"七巧板拼图"，需要将七个不同形状的彩色几何块精确地拼装成指定的图案。这个任务要求模型不仅要理解空间关系，还要保持每个图形块的几何完整性。

在迷宫导航实验中，研究团队就像设计游戏关卡一样，创建了从简单到复杂的各种迷宫。最简单的是3×3的小迷宫，最复杂的则是8×8的大型迷宫。为了测试模型的适应性，他们还特意使用了训练时从未见过的角色图标。结果令人惊讶：视频生成模型不仅能在熟悉的环境中表现出色，甚至在面对完全陌生的迷宫大小和角色外观时，依然能够找到正确的路径。这就像一个从未去过某个城市的人，仅凭对导航原理的理解，就能在那里顺利找到目的地。

更有意思的是七巧板实验。研究团队设计了三种不同的难度等级。最简单的"渐现模式"让图形块逐渐出现在正确位置，就像拼图的答案慢慢显现。中等难度的"旋转模式"要求模型先将图形块旋转到正确角度，然后移动到合适位置。最困难的"平移模式"虽然图形块的方向已经正确，但需要精确计算每个块应该放在哪里。

实验结果让研究团队兴奋不已。视频生成模型在处理这些视觉推理任务时，表现远远超过了传统的文字描述方法。特别是在七巧板任务中，当传统的大型语言模型还在努力用文字描述"将蓝色三角形顺时针旋转45度，然后向右移动2.5厘米"时，视频生成模型已经能够直接展示整个拼装过程，并且保持每个图形块的完整性和准确性。

研究团队还发现了两个特别有趣的现象。首先是"视觉上下文的力量"。就像人们在做手工时需要参照图样一样，当视频生成模型能够看到具体的视觉参考时，它们的表现会显著提升。比如说，当模型能看到迷宫中角色的具体样子，或者七巧板中每个图形块的颜色和形状时，它们就能更好地保持这些视觉元素的一致性，避免在推理过程中出现"张冠李戴"的错误。

更令人惊讶的是第二个发现：研究团队观察到了一种类似于人类"慢思考"的现象。当给视频生成模型更长的"思考时间"，也就是生成更多帧的视频时，它们解决复杂问题的能力会显著提升。这就像给学生更多时间来解答难题一样，模型能够通过更长的视觉推理过程来处理那些一开始看起来无法解决的复杂情况。

在一些特别有趣的例子中，研究团队甚至观察到了模型的"自我纠错"行为。当模型在迷宫中最初选择了错误的路径时，如果给它足够的帧数，它会在视频的后续部分"意识到"错误，然后退回并选择正确的路径。这种行为非常类似于人类在解决问题时的试错过程，让人不禁思考人工智能是否正在发展出类似人类的推理过程。

当然，这项研究也揭示了一些限制。虽然视频生成模型在逻辑推理方面表现出色，但在保持视觉细节的一致性方面仍有挑战。特别是在七巧板任务中，当需要进行大幅度的图形变换时，模型有时会在保持几何形状完整性方面出现困难。这就像一个人在快速移动物体时容易失手一样，模型在处理剧烈的视觉变化时也会遇到技术瓶颈。

研究团队还测试了模型对于完全陌生环境的适应能力。他们让在规则网格迷宫上训练的模型去处理不规则形状的迷宫。令人惊讶的是，模型不仅能够适应这些全新的环境，甚至学会了在训练时从未见过的对角线移动方式。这种举一反三的能力表明，模型并不是简单地记忆训练数据，而是真正理解了导航的基本原理。

这项研究的意义远不止于技术层面的突破。它提出了一个重要问题：在人工智能的发展过程中，我们是否过分依赖了文字这种表达方式？人类在日常生活中大量使用视觉信息来理解世界和解决问题，但大多数人工智能系统却主要基于文字处理。这项研究表明，视觉推理可能是人工智能发展的一个重要方向，特别是在需要精确空间理解的应用场景中。

从实际应用的角度来看，这项研究可能会影响很多领域。在机器人技术中，视觉推理能力可以帮助机器人更好地理解和操作物理世界。在教育软件中，视觉演示可能比文字说明更有效地帮助学生理解复杂概念。在游戏和娱乐行业，这种技术可以创造更智能、更自然的角色行为。

研究团队也坦诚地讨论了当前技术的局限性。视频生成模型虽然在某些方面表现出色，但它们的训练成本较高，处理速度相对较慢，而且在处理某些类型的视觉变化时仍不够稳定。这就像任何新技术在发展初期都会面临的挑战一样，需要更多的研究和改进才能达到实用化的水平。

更深层次地看，这项研究触及了认知科学和人工智能交叉领域的一个核心问题：思维的本质是什么？当我们人类思考问题时，我们的大脑中是否也在进行类似的"视觉推理"过程？这项研究为我们理解人类认知提供了一个有趣的计算模型，也为开发更接近人类思维方式的人工智能系统指明了方向。

说到底，这项研究告诉我们一个简单而深刻的道理：有时候，一张图胜过千言万语，一段视频胜过长篇大论。在人工智能快速发展的今天，我们或许应该重新思考如何让机器更好地"看"这个世界，而不仅仅是"读"这个世界。当机器学会用视觉的方式思考时，它们可能会变得更加智能，也更加贴近人类的认知方式。

这项研究只是视觉推理领域的一个开端。随着技术的不断进步，我们可以期待看到更多能够进行复杂视觉思考的人工智能系统。也许在不久的将来，当我们需要解释复杂问题时，我们的AI助手不会给我们一大段文字，而是直接展示一个生动的视觉过程，让我们能够直观地理解答案。这样的未来既令人期待，也让我们对人工智能的发展充满好奇。

Q&A

Q1：视频生成模型如何进行视觉推理？

A：视频生成模型通过生成连续的图像帧来模拟推理过程，就像制作一部展示解决方案的动画片。每一帧都代表推理的一个步骤，整个视频序列就是完整的思考过程。这种方式比文字描述更直观，能够准确表达空间关系和几何变换。

Q2：为什么视频推理比文字推理效果更好？

A：文字在描述精确的空间位置、角度和连续动作时存在局限性，容易产生歧义或不够准确。而视频能够直接展示物体的移动轨迹、旋转过程和最终位置，避免了跨模态转换的误差。这就像用地图导航比口头描述路线更准确一样。

Q3：这项研究对普通人有什么实际意义？

A：这项技术可能会改变我们与AI的交互方式。未来的AI助手可能会用视觉演示来回答复杂问题，比如通过动画展示如何修理设备、如何进行体育动作，或者如何解决数学几何问题。这会让AI的解释更直观易懂，特别适合教育和培训场景。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.