research
• 一家相机公司的 AI 研究院,比很多大模型公司人还多
•「天空有多远」和「杯子有多远」,对算法来说完全是两个问题
• 全景赛道太小了,不开源只有自己在玩
以上内容,来自我和影石 AI 研究院 Gavin 的对话
做全景相机的影石Insta360,最近把 4 篇顶会论文的核心算法 全部开源 了
DAP|CVPR 2026
全景深度预测,纯视觉,一张图量距离
AirSim360|CVPR 2026
全景仿真平台,单日百万帧,成本 20 块
DiT360|CVPR 2026
全景文生图,输入文字生成 360 度全景图
DDGS|ICLR 2026
稀疏视角 3D 高斯泼溅重建
影石,年营收近百亿,在全景相机领域市占率66%,连续八年全球第一
不为人知的是,他们还有个数百人的 AI 研究院,比许多头部大模型公司还大
![]()
Insta360 全景相机
一家相机公司,攒下了稀缺的空间数据
以下内容,来自我和 Gavin 的对话,在影石,他是研究院总监、董事会成员,这些工作都由他负责统筹和指导
同时,Gavin 是 TPAMI 编委,之前在字节跳动带视频生成大模型的数据基建。聊完之后我才明白,论文只是切面,真正有意思的是影石手里的数据
全景数据的空间密码
我问 Gavin,全景数据和普通照片到底有什么本质区别
他跟我说:很不一样
用手机拍一张照片,它是一个固定视角的平面投影。画面边缘之外的世界对模型来说完全未知。它输出一个深度值,对不对,谁也不知道,没有任何物理约束能去校验它
全景图完全不同,记录的是完整的 360 度空间信息。全景图的最左边和最右边在物理上一定是无缝拼接的,每一帧全景数据都自带一个闭环的数学校验:模型产出的空间信息如果不满足这个几何闭合条件,数据系统本身就会报错
自校验能力,普通照片不具备
Gavin 把这个特性总结为:「全景数据,自带物理闭环的几何约束」
训练空间 AI 的时候,不需要额外的人工标注,数据本身就在约束模型的行为。对于任何在做具身智能、自动驾驶、空间计算的团队来说,这种数据天然带着一层「防幻觉」机制
这就是影石十年全景数据的真正价值。不只是量大,而是每一帧数据都自带结构化的空间信息和内建的校验机制
十年的全景数据
影石做了十年全景相机,积累了海量的全景空间数据。光是为 DAP 这个深度预测任务,经过数据清洗和场景平衡后筛出来的有效训练集,就有 200 万张。
此前,学术界最大的全景深度数据集就几万张
影石从十年前就在持续积累全景空间数据,早在 2020 年就用 3D 全景相机和贝壳找房合作采集室内空间数据
对此,Gavin 表示:在全景空间数据的积累上,影石在全球范围内应该是最大的
DAP 的训练数据来源三块:公开数据集、用自研仿真平台 AirSim360 生成的 9 万帧合成户外数据(覆盖纽约、旧金山、罗马等 5 个城市场景)、以及从互联网采集的 170 万张真实全景图。注意,这 170 万张图没有深度标注,靠一套三阶段的伪标签流水线自动生成 ground truth
一张全景图,算出每个像素的距离。零样本,全球第一
一张图量距离,不需要激光雷达。对做空间感知的人来说,硬件成本从几千块的 LiDAR 模组降到一颗全景镜头。这个成本差异是量级的
不用激光雷达
我去读了 DAP 的论文,发现了一件有意思的事:影石做深度预测用的是纯视觉方案,不用激光雷达。只需要一张全景图,就能算出每个像素的距离
DAP (Depth Any Panoramas)CVPR 2026
通过这个全景深度预测基础模型,只需要一张全景图,就能算出画面中每个物体的距离,精确到像素。纯视觉方案,不用激光雷达。用 200 万级数据训练,零样本深度预测全球第一
为什么走这条路?Gavin 说参考的是特斯拉 FSD 的思路。特斯拉用 Data Scaling Law 证明了:数据够多的时候,纯视觉可以解决绝大部分问题。影石手里有全世界最大的全景数据集,走纯视觉在数据量上有天然优势
局限也有,大面积透明玻璃、纯白色墙面,纯视觉确实抓瞎。影石的做法是在无人机上配 ToF 传感器做辅助,动态权重算法在不同场景下调整依赖程度。绝大部分场景纯视觉覆盖,极端情况传感器兜底
影石最终想做的产品是一台「完全自主的跟拍摄影师」,或者说:Cameraman
在这个过程中,设备不需要人操控,自己看懂空间、自己避障、自己构图、自己用电影感的运镜方式拍摄。这条路线的终局和自动驾驶是同一个逻辑:传感器只是补充,数据规模才是壁垒
这个判断对所有在纯视觉和多传感器融合之间做选择的团队都有参考价值。核心问题永远是:有没有足够规模的数据,来喂纯视觉方案
那 10% 的 Gap
影石做了一个仿真平台 AirSim360,能在虚幻引擎 5 里原生渲染全景数据,单日产出 100 万帧,成本 20 块钱。官方说减少约 90% 的户外实飞。我问 Gavin,那剩下的 10% 呢?
AirSim360CVPR 2026
这是一个全景无人机仿真平台,借由虚幻5引擎,在其中搭建城市、山林等虚拟环境,接入真实飞控板做飞行训练。自动生成深度、语义、实体等多层标注,不需要人工标注
那剩下的 10% 卡在哪?Gavin 说是真实世界里不可预测的物理噪声。高速运动时的湍流、图传信号丢包、镜头震动导致的动态虚焦,这些在虚幻引擎里没法完美建模。只能在真实世界里飞,炸一次机收集一次数据
然后我们聊到了室内和室外的区别,当然,这个话题跟我自己有关。我在同时装修两个几百平的酒吧,正在把它们做成数字孪生,计划让具身智能的机器人在虚拟环境里训练完直接来店里上班。做的过程中发现,室内的全景数据和户外的完全是两套处理逻辑
「因为天空的距离是不一样的」
室外天空是无限远的,算法设定一个无穷远就行。但在室内,最远距离就是天花板和墙壁
「天空有多远」和「杯子有多远」在深度几何约束上完全是两个概念。这也是很多深度预测模型只能做室内或者只能做室外的原因
对所有做室内具身智能的团队来说,这是一个绕不开的基础问题。DAP 在论文里做到了室内外统一的深度预测,但 AirSim360 仿真平台目前只覆盖了城市和户外。Gavin 说内部已经在做室内空间的探索,包括无人机和机器人在多层建筑里自主穿梭的课题
影石现在也在和一些具身智能团队合作,用定制化的全景设备给机器人当「眼睛」。360 度无死角,不用来回转头
做数字孪生还有一个绕不开的问题:怎么从几张照片,还原出完整的三维空间?
拍的角度越少,重建就越快、成本越低,但质量也越难保证。影石的另一篇论文 DDGS 就在解决这个问题,而全景数据天然的全视角覆盖,让「少拍几张」变得可行
DDGSICLR 2026
通过这项算法,只需要少量不同角度拍摄的照片,就能还原出可以自由旋转查看的 3D 场景。全景相机一张图覆盖 360 度,天然减少了所需的拍摄次数
暖手宝问题
论文做出来了,但要塞进一颗运动相机的芯片,是另一回事。影石做的是消费级硬件,芯片算力和功耗被极度限制
Gavin 举了个例子,目标追踪领域效果最好的是 Meta 的 SAM 系列,追踪什么物体都很准。但想放到影石的相机芯片上,底层硬件根本不支持 SAM 的某些网络结构和算子
更致命的是散热。相机体积太小,大模型跑起来发热控制不住
「总不能把运动相机做成暖手宝」
所以影石的算法团队做的事情,本质上是把学术界的大模型用裁剪、蒸馏和量化硬塞进消费级芯片。但问题还不止于此:由于全景数据的几何畸变特性,通用学术模型的适配程度本身就不高,即使能跑进硬件,算法模型也要重新开发。这是为什么必须从底层自研,团队需要数百人
这个问题不只是影石的。任何想把 AI 做进终端硬件的公司都面对同样的约束:云端可以堆卡,终端没这个条件。算力不够的时候,算法设计本身就要为硬件让路。影石在这件事上积累的经验,对所有做端侧 AI 的团队都有参考价值
为什么开源
全景在 AI 领域还是一个很小的分支。影石占了全球 66% 份额,但整个赛道的体量有限。不开源,这个赛道就只有影石一家在玩
Gavin 说把底层技术开源,是希望学术界和工业界先用起来。用起来之后能反哺很多影石自己看不到的应用场景。一个人把蛋糕做不大,但基建铺好了,别人进来,蛋糕才能变大
创始人刘靖康最近在上海一场黑客松上做了一件有意思的事。影石每年 1024 程序员节有个内部传统:给最优秀的工程师发纯金打造的键帽,回车键或者空格键,大约 30 克纯金。这次刘靖康第一次把黄金键帽发给了外部的获胜开发者,希望拿到键帽的人把它们拼在一起,拼出一个词:NO BUG
![]()
NO BUG,用纯金拼出来的
以及,对在做空间 AI 的开发者来说,影石这次开源的东西中还有一个值得一看:DiT 360,代码和权重都放在了 GitHub 上
DiT360CVPR 2026
输入一段文字描述,就能生成一张完整的 360 度全景图。生成的图在边缘能无缝拼接,保持几何结构的一致性,同时支持对已有全景图做局部修改和扩展
聊到最后,Gavin 说了他对未来三年的押注:把感知和生成统一到一个全景基座模型里。三年后,设备放飞,完全自主地看懂空间、避障、构图、拍摄。他管这个叫「完全自主的超级跟拍师」
然后他提到:最近在研究怎么让无人机在室内自主爬楼梯
我说:我的新酒吧正好有楼梯,到时候留一段给你测试
关于 Gavin
Gavin(亓鲁),90 后,2024 年加入影石。长期担任 NeurIPS、ICML、ICLR、ICCV、CVPR 领域主席,AI 2000 全球人工智能学者,Google Scholar 引用 16000+
最后,感谢 Gavin 和影石研究院团队的坦诚分享
影石 AI 研究院开源项目
https://github.com/Insta360-Research-Team
DAP 在线 Demo
https://huggingface.co/spaces/Insta360-Research/DAP
DiT360 在线 Demo
https://huggingface.co/spaces/Insta360-Research/DiT360
AirSim360 论文
https://arxiv.org/abs/2512.02009
DAP 论文
https://arxiv.org/abs/2512.16913
DiT360 论文
https://arxiv.org/abs/2510.11712
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.