马斯克近日揭秘特斯拉纯视觉方案的核心技术 AI 光子重建技术,该技术通过原始RAW数据训练、CMOS感光范围拓展及硬件算力优化等手段,解决纯视觉 FSD 在强光、弱光环境下的视觉能力问题。
![]()
左侧是人眼感知的画面,右侧是该技术加持后的画面,后者细节更清晰。这项技术几年前已应用,如今大幅加强。
传统摄像头成像存在局限性,动态范围从 12 比特压缩到 8 比特,强光或弱光下易过曝或欠曝。特斯拉纯视觉大模型训练素材是原始 RAW 数据,相当于光子分布图,12 比特对应 4096 个灰度,动态范围远高于 8 比特,无需插值,神经网络基于拜尔阵列隐式解读颜色和语义信息,强光弱光适应能力更强。
![]()
弱光环境突破方面,人眼仅感知 400-700 纳米可见光,硅基 CMOS 可感知 300-1100 纳米,特斯拉摄像头通过滤镜保留 700-900 纳米近红外波段,结合连续帧光子累积,大幅压低噪声提升夜视能力。
硬件演进上,HW2.0 用 RCCC 阵列增加进光量但偏色,HW2.5 切换 RCCB 改善颜色,HW3.0/4.0 用 RGGB 阵列画面真实,推测 HW5.0 可能回归 RCCC,需专用神经网络替代传统 ISP 恢复颜色以提升信噪比和动态范围。HW5.0 算力将提升至 2000TOPS,进一步优化性能。
算力与数据支撑方面,纯视觉效果取决于训练大模型的算力和数据量,特斯拉积累海量数据,关键是通过大模型重建精准世界模型。
![]()
计算优化上,特斯拉 AI 芯片 MAC 单元为 8 比特,开发专利技术将 12 比特拆分为高位 8 比特和低位 4 比特,补零凑 8 比特后通过卷积核拆分组合计算,最终拼装回 12 比特精度,现有硬件兼容,HW4.0 可满血运行,HW3.0 因带宽限制只能跑蒸馏版。
AI 光子重建技术还重塑自动驾驶安全边界,特斯拉基于纯视觉的 Tesla Vision 系统实现碰撞预判功能,可在实际撞击发生前最多 70 毫秒启动气囊弹出和安全带预紧,将被动安全从碰撞后响应改写为碰撞前预判。
![]()
该功能依托车身周围 8 颗高清摄像头构建的 360 度环境感知网络,结合自研芯片实时推理。2023 款及之后的 Model 3 和 Model Y 等车型已通过 OTA 更新推送该功能,马斯克强调所有新车免费搭载。
北美地区 FSD Beta 用户数据显示,每百万英里介入次数已降至 0.31 次,接近人类驾驶水平。纯视觉方案通过算法代偿硬件、数据规模碾压物理局限,证明低成本自动驾驶的可行性,形成数据飞轮正循环,推动安全与成本的双重收益。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.