看一段视频,你能猜到下一秒发生什么吗?人类凭直觉就能做到,但AI需要大量标注数据才能学会。MIT团队最近找到一条新路:让模型自己从原始视频里学。
核心思路叫"视觉表征预测"。不依赖人工标签,系统直接分析未标注视频,学习画面变化的内在规律。比如看到球滚向斜坡,它能预判球会加速下滑——不是记住答案,而是理解物理。
![]()
技术关键在于分离"不变内容"与"动态变化"。模型同时处理多帧画面,用自监督任务预测未来状态。实验显示,这种方法在动作识别和视频理解任务上,效果接近甚至超过有监督训练。
![]()
意义在于降低数据门槛。视频标注成本高昂,而网上未标注视频取之不尽。如果AI能自学看懂世界,视觉应用的落地速度会大幅加快。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.