让AI看懂长电影，这位准博士生想找到智能的真实边界|算法|模态|大模型|计算机视觉

分享至

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展，一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星，展现他们在科研前沿的突破性工作，以及对未来智能时代的独到见解。他们是谁？他们如何思考？他们又将把 AI 带向何方？与我们一同发现那些正在定义未来的 AI 新生代。

“我觉得 benchmark 要么你足够难，难到模型都没办法解决，要么你足够贴近现实生活。”

当 OpenAI 的 o4-mini-high、Google 的 Gemini 2.5 Pro 等前沿模型在困难编程题上集体拿到 0 分时，这条标准被直观地验证了。给出这组让人意外的成绩，是LiveCodeBench Pro——一个由普林斯顿大学准博士生柴文浩与团队构建的算法竞赛基准。

出身数学竞赛的柴文浩，正用自己的视角重估 AI 能力的真实边界。当行业沉浸在大模型的刷分比赛里时，他选择另一条路径：把测试做“难”，把系统的结构性短板照得更清楚。LiveCodeBench Pro 只是他探索的一角；从能理解一小时长视频的MovieChat，到对多模态统一模型的反思，这位年轻研究者希望从技术的底层机制上发问：下一步该怎么走，才算向前？

从遥感图像到视频理解

柴文浩的 AI 研究之路，始于一次数学建模比赛。2020 年左右，还在本科阶段的他参加数学建模比赛，遇到了一个令他困惑的任务：遥感图像语义分割。当时他对深度学习一无所知，只掌握一些基础数学知识，面对这个现在看来属于计算机视觉基础任务的问题束手无策。

但正是这种困惑成为了他学习的动力。他开始自学卷积神经网络（Convolutional Neural Networks，CNN）的原理，掌握 PyTorch 深度学习框架和 U-Net 网络架构。凭着一股钻研劲头，他硬是依靠自己电脑的 CPU，一点点地训练出了一个模型。“当看到自己写的代码，真的能在一张张复杂的遥感图上准确地标出不同区域时，那种震撼是难以言喻的。”

这次经历，成为了他学术道路的启蒙。从这个起点出发，柴文浩的研究方向在不断演进。他先是联系校内导师做科研，从人体姿态和运动追踪等传统视觉任务开始，逐渐转向视频生成和编辑等更具挑战性的领域，最终聚焦于视频理解与语言模型的结合。

而 2022 年 12 月 ChatGPT 的发布成为他研究方向又一个关键节点。敏锐地意识到这一技术突破的革命性意义后，他开始思考大语言模型（Large Language Models，LLMs）在视觉领域的应用潜力。最初的想法相对朴素：将图像转换为文字描述，然后基于纯文本进行问答。但随着 LLaVA 等开创性工作的出现，他认识到可以直接将预训练的 CLIP 视觉编码器与语言模型连接，仅需训练一个轻量级的投影层就能实现灵活的多模态理解。

这个发现让柴文浩看到了视频理解的新机遇。当时的视频模型只能处理 4 帧或 8 帧，“我觉得那并不是真正的 video，只是几帧 image”。于是他开始着手定义长视频理解这个任务，并在微软实习期间开发了 MovieChat——第一个支持一小时长视频理解的模型。

突破视频理解的边界

进入多模态研究领域后，柴文浩将目光投向了一个当时鲜有人涉足的难题——长视频理解。在 2023 年，主流的视频模型大多只能处理几秒钟、甚至只有 8 帧的超短视频片段，而他主导的 MovieChat 项目，成为了全球首个能够理解一小时级别长视频的 AI 模型。

MovieChat 的核心创新在于其独特的记忆机制设计。受到 Atkinson-Shiffrin 记忆模型的启发，柴文浩设计了一个包含短期记忆和长期记忆的系统。系统采用滑动窗口来提取视频特征，将其转换为 token 形式后逐帧输入到短期记忆中。当短期记忆达到预设长度时，最早的 token 会被移出并整合到长期记忆中。

这种设计的巧妙之处在于 memory consolidation（记忆整合）算法。系统会计算相邻帧之间的余弦相似度，选择相似度最高的帧对进行合并，通过加权求和的方式减少 token 数量，同时保持关键信息。这让 MovieChat 能够在 24GB 显卡上处理超过 10000 帧的视频，相比其他方法有着万倍的内存效率优势。

在当时，业界甚至还没有一个公认的标准来衡量长视频理解的能力。为此，柴文浩和团队不仅开发了模型，还同步构建并发布了 MovieChat-1K benchmark，这是学术界第一个专门用于长视频理解的基准测试数据集。为了推动整个领域的发展，他们基于这一研究成果，在 CVPR 2024 上参与举办了长视频问答挑战赛（Long-Term Video Question Answering Challenge），吸引了超过百名研究者参与，共同探索这一前沿领域。

不过，后来柴文浩也对 MovieChat 所采用的压缩方法进行了反思。他认为不能简单假设视频序列是稀疏的，每个信息片段都可能具有重要价值。他举例说，如果观看一个有两个人走过的视频，但系统丢弃了看似“不重要”的背景信息，那么当被问及视频中有几只狗时，就无法给出正确答案了。

这种思考促使他转向 sparse attention（稀疏注意力）等新的架构探索。稀疏注意力的核心思想是保留所有信息，仅在访问时进行选择性激活，从根本上避免了信息丢失的问题。目前他正在同时探索线性注意力（linear attention）和稀疏注意力两种技术路线，希望找到在长序列处理中更有前景的方案。

如果说 MovieChat 是从理解的角度处理长视频序列，那么柴文浩的另一项工作 AuroraCap 则是从标注的角度处理这个挑战。在 PikaLabs 开发视频生成模型的工作中，柴文浩和团队发现，如果要实现高效的大规模标注，同样需要降低序列长度来提升效率。

AuroraCap 的核心创新在于突破了传统视频描述的长度限制。与以往 benchmark 中普遍采用的单句描述不同，AuroraCap 能够生成数百词的详细描述，涵盖视频中的场景变化、人物动作、情感表达、环境细节等多个维度。

这种详细描述能力的实现依赖于其所引入的 Token Merging 的技术。传统的模型在处理视频时，需要分析每一帧画面的每一个小区块（Patch），计算量巨大。而 AuroraCap 则会在模型内部，利用一种二分图软匹配算法（bipartite soft matching）来寻找那些在视觉上高度相似的区块，并将它们合并成一个更具代表性的超级 token，从而大幅减少需要处理的信息量。这使得 AuroraCap 在处理视频时，能够在保持 95% 性能的同时将 token 数量减少到原来的 5-10%。

然而，一个能够生成长篇描述的模型，也带来了一个新问题：如何评价这些长描述写得好不好？传统的评价指标，如 CIDEr 或 BLEU，主要基于词频统计，对于评估长文本的逻辑、结构和细节准确性显得有所不足。为此，柴文浩和团队专门构建了一个全新的高质量视频详细描述基准测试——VDC（Video Detailed Captions）。

VDC 包含超过 1000 个精心标注的结构化视频描述，其将视频描述分解为四个维度：相机运动（Camera）、背景设置（Background）、主要对象（Main Object）和详细描述（Detail），从而更全面地评估模型对视频内容的理解能力。

且还团队提出了一个名为 VDCscore 的智能评估体系。它借鉴了人类做阅读理解的思路，先将标准答案分解为多个简短的问答对，再让待评估的模型去它自己生成的描述中寻找这些问题的答案；最后，再由 AI 裁判来评判这些答案的准确性，从而给整段描述打分。

这种“出题-作答-阅卷”的自动化流程，为长文本描述的质量评估提供了一个更可靠、更细粒度的标尺。实验证明，VDCscore 与人类的判断高度一致（皮尔逊相关系数高达 0.86），远超传统指标。在 VDC 这个新考纲的检验下，AuroraCap 的 VDCscore 达到了 38.21，显著优于此前的其他模型，证明了其在生成高质量、长篇幅视频描述方面的领先能力。

用基准测试探索 AI 智能边界

随着研究的深入，柴文浩开始思考一个更根本的问题：我们如何才能准确地衡量一个AI 模型的“智能”水平？他认为，一个好的评测基准（benchmark）至关重要。

“一个好的 benchmark，要么足够难，能够触及当前 AI 能力的上限；要么足够贴近现实，能够真实反映它在实际应用中的表现。”

LiveCodeBench Pro项目正是他践行“足够难”这一理念的产物。他与来自多所顶尖高校的奥林匹克竞赛奖牌得主合作，共同构建了一个高难度的算法推理测试平台。该平台收录了 584 个来自 Codeforces、ICPC 及 IOI 系列赛事的高质量问题。为了保证评测的公正性，项目特意规避了容易被训练数据污染的 LeetCode 题目，并采用持续更新的模式，确保模型面对的是最新的挑战，以此最大程度地减少数据泄露的风险。

在这种高难度的题目下，当前模型的局限性被清晰地暴露了出来。在“困难”级别的问题上，所有参与测试的前沿大模型，正确率均为 0%。即便将难度下调至“中等”级别，模型的表现依然不理想：o4-mini-high 的通过率为 53.5%，而 Gemini 2.5 Pro 仅为 25.4%。这表明，当前 AI 在处理需要高度原创性思维和复杂逻辑推理的任务时，能力仍有显著不足。

值得一提的是，最新发布的GPT-5 Thinking 在 LiveCodeBench Pro 上取得了零的突破，并在多个子集上取得了最好的结果。

柴文浩指出，这一结果也反映了当前许多测试“智能”的基准的局限性。他表示，大多数数学题本质上是计算题，模型可以通过“学习”大量的定理和解题模式来应对，但这并不能完全等同于人类的智能。相比之下，需要从零开始构建证明思路的数学难题，或是设计全新算法，才是真正的挑战。算法竞赛的独特优势在于，它要求模型提供一个形式化的算法解决方案，这个方案必须通过所有未知的测试用例，这实际上是要求 AI 给出一个问题的通解（general solution），而非仅仅针对几个已知案例的特解（specific solution）

值得一提的是，LiveCodeBench Pro 团队正在探索让 AI 自己出题和验证的可能性。团队在研究中发现，AI 的做题能力最弱，验证题目正确性的能力最强，而出题能力介于两者之间。基于这个观察，他们希望通过让模型自己出题、自己验证的循环过程，来提升语言模型的整体能力。

学界应该做一些更 fundamental 的创新

在微软、PikaLabs 等顶尖 AI 公司的实习经历，以及对 OpenAI 等前沿机构的实地探访，让柴文浩对学术界和工业界在 AI 浪潮中的不同角色，有了更为深刻的理解。

“最直观的感受就是算力上的差距”，他坦言，“工业界，特别是像 OpenAI、Meta 这样的顶级团队，他们所拥有的计算资源和数据积累，已经和学界不在一个量级上了。”这种差距，决定了两者在研究范式上的根本不同。工业界更倾向于利用庞大的资源，不断将模型的能力推向新的高度；而学界，则更应该专注于那些更具根本性的、探索未知边界的研究。

“学界应该做一些更 fundamental（基础）的创新”，柴文浩认为。这包括探索全新的模型架构，比如他目前正在深入思考的“统一模型”（Unified Model）。他指出，目前很多所谓的多模态模型，本质上还是将一个现成的视觉编码器和一个语言大模型用一个“转接头”（投影层）简单地“缝合”在一起。这种方式虽然有效，但并没有实现真正的深度融合。

他理想中的“统一模型”，远不止于此。首先，他对于目前将图像粗暴地切成一个个小方块（Patch），再像处理文字一样送入 Transformer 的做法提出了质疑。

“文本天然具有序列性，但视觉信息未必如此”，他认为，或许存在比“Patch 化”更原生的方式来让模型理解图像。这一切的核心，在于一个更智能、更高效的 Vision Tokenizer 方案，它能根据图像和视频的复杂度，自适应地决定用多少信息量来表达，而不是千篇一律地“一刀切”。这，正是他眼中属于学术界应该去啃的“硬骨头”。

当我们处理好了视觉本身的事情之后，才能谈论“深度的融合”，即视觉和语言部分应该共享绝大部分的参数和计算过程，而不是各自为政。否则，现在的视觉语言模型不过是在大语言模型上打的补丁。

多做有意义的事

“多做有意义的事，多读、多想、按兴趣走。”这是柴文浩给年轻研究者的建议。他自己也是如此——从遥感图像到长视频理解，从生成模型到 AI 评测基准，每一步都带着好奇心和探索欲。

对于即将开始的普林斯顿博士生涯，他已经有了更进一步的规划，在导师刘壮（Zhuang Liu）教授的指导下，他坦言自己可能会逐渐从纯粹的计算机视觉领域，转向更通用、更底层的研究方向。柴文浩表示，自己对即将到来的博士研究生涯感到兴奋。

“我可能会去做一些更 general 的问题，不只是局限于视觉，也不局限于语言，”他在采访中提到。他将投入更多精力去探索那些能够同时服务于多个模态的基础性问题，比如全新的模型架构设计，或者探寻数据与模型之间更本质的关系。

这条探索基础范式的道路，或许不如此前的工作那样能迅速产出亮眼的应用，但柴文浩认为，这正是他希望为整个机器学习社区做出的贡献。这，也是他未来几年将要专注的方向。

参考资料：

1.https://wenhaochai.com/

2.https://arxiv.org/abs/2506.11928

3.https://arxiv.org/abs/2410.03051

4.https://arxiv.org/abs/2307.16449

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.