旷视商汤依图云从：“AI四小龙”的过去现在与未来|人工智能|人脸识别|计算机视觉

分享至

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议。

1999年上映的《黑客帝国》，虽然不是人类关于人工智能的第一次影视化探索，却可以说是最有影响力的一次。

电影讲述的是基努·李维斯饰演的网络黑客尼奥，发现自己生活的世界被某种外部力量控制，并通过调查发现自己活在人工智能的虚拟世界里，之后同一个反抗者组织奋起而抗争的故事。

在《黑客帝国》设定的真实世界中，他们的肉体早已被当作被养殖的作物，为母体供应能量，只有意识在母体Matrix中活动，误以为自己还在过正常生活。

2011年，英剧《黑镜》第一季上线，之后连续推出四季，这是一部探讨科技对人类生活改变的电影，其中也包含诸多人工智能对于人类生活的改变与颠覆故事。

2016年，HBO发行的科幻类美剧《西部世界》上线，讲述了由一座巨型高科技以西部世界为主题的成人乐园，提供机器人接待员给游客，让他们实现杀戮与性欲的满足；但后来随着接待员有了自主意识和思维，他们开始怀疑这个世界的本质，进而觉醒并反抗人类的故事。

这些电影，讲述的多是人工智能发展的高级阶段，更是最近大家讨论的“元宇宙”的形象化表现。

抛开道德上的善恶对错不谈，回到人工智能技术本身，在达成这些了不起的成就之前，在计算机能够“思考”之前，最早需要开始学习的技能是“感知”，其中最重要部分之一就是学会“看”，这也几乎是公认的人工智能第一步。

就在《黑镜》上映的同一年——2011年，如今被称为“AI四小龙”之一的旷视科技在三个天才少年的带领下成立了，随后四年间，商汤科技、依图科技和云从科技也全部拔地而起，所选择的赛道都是“人脸识别”，其实本质就是让计算机看图。

最近，在经过多年的奋战之后，基于抢占赛道或者抢占资金的想法，他们如今终于走进了资本市场的视野。除了依图科技已经撤回上市申请之外，其他三家都离上市仅一步之遥了。

这些年，被称为“人脸识别”的计算机视觉都经历了什么？

起步阶段：
人类对教会机器“看”的执念

在我们讲述计算机视觉之前，先要了解目前人工智能所处的阶段，那就是“感知智能”，无论是AI四小龙的“人脸识别”还是科大讯飞的“语音识别”，都落在这一阶段。

在此之前，我们还只是用计算机来计算数据、运行代码，但这只是初级的“计算智能”阶段。现在计算机已经学会了“感知”，不过距离计算机“能理解、会思考”的认知智能阶段，也就是最开始讲的那些电影里能达到的最终水平，还差得很远。

让计算机学会“感知”，最重要的一步就是”看“了。

眼睛，是人类用来观察这个世界的最重要器官，也是唯一的视觉器官。在佛家所谓的六根——眼耳鼻舌身意中，眼睛也排在首位。

用眼睛看，是人类与生俱来的能力，刚出生的婴儿只需要几天的时间就能学会模仿父母的表情，人们能从复杂结构的图片中找到关注重点、在昏暗的环境下认出熟人。

人类对眼睛的功能是有执念的。

为了将自己看到的东西保存下来，人类发明了照相机。最早的真正照相机来自1839年1月，当时中国还在清朝的道光年间。摄影师达盖尔在巴黎沙龙上展示了银板照相法，将涂有碘化银的铜片暴露在光线下，然后通过汞蒸汽和食盐溶液来显影，震惊了法国科学院，并于当年推广开来。

达盖尔

银板照相法所使用的就是这种用木箱子装的相机。

银板照相机

自此人类终于学会长时间保存眼睛看到的图像了，之后又有了胶卷和即显摄影。

但似乎对于人类来说，光是记录并不够，我们还想让机器自己去看，并且告诉我它们看到了什么。

为了让机器学会如何去“看”，就有了计算机视觉，当然，它更为大家所熟知的名称是“人脸识别”。

最初的探讨发生在1956年左右。在当年的达特茅斯会议上，约翰麦卡锡、马文闵斯基、克劳德香农、艾伦纽厄尔和赫伯特西蒙等科学家聚在一起，讨论着一个完全不食人间烟火的主题：用机器来模仿人类学习以及其他方面的智能。

会议一共开了两个月的时间，虽然大家没有达成普遍的共识，但是却为会议讨论的内容起了一个名字：人工智能。因此，1956年也就成为了人工智能元年。

1957年春天，美国国家标准局的科学家拉塞尔·基尔希为他的儿子瓦尔登拍了一张照，并将其扫描到了东部标准自动计算机（SEAC）中。为了使图片可以放进SEAC有限的存储空间中，他将图片分割成176176的网格——共30976位二进制，并进行了多次扫描。这张边长5厘米的正方形图片就是历史上第一张数字图像，从某种意义上来讲它甚至是CT扫描、卫星图像和数码摄影的鼻祖。

1959年，神经生理学家大卫·休伯尔和托斯坦·维厄瑟尔通过猫的视觉实验，首次发现了视觉初级皮层神经元对于移动边缘刺激敏感，发现了视功能柱结构，为视觉神经研究奠定了基础——促成了计算机视觉技术40年后的突破性发展，奠定了深度学习的核心准则。

大卫休伯尔和托斯坦维厄瑟尔

到了60年代，劳伦斯罗伯茨在《三维固体的机器感知》描述了从二维图片中推导三维信息的过程，成为计算机视觉的前导之一，开创了理解三维场景为目的的计算机视觉研究。这个研究给世界带来了很大启发，并且对边缘、线条、明暗等各种特征建立了各种数据结构和推理规则。

1969年秋天，贝尔实验室的两位科学家韦拉德博伊尔和乔治史密斯正忙于电荷耦合器件（CCD）的研发。它是一种将光子转化为电脉冲的器件，很快成为了高质量数字图像采集任务的新宠，逐渐应用于工业相机传感器，标志着计算机视觉走上应用舞台，投入到工业机器视觉中。

70年代是人工智能发展的低潮期。

80年代后计算机视觉成为一门独立学科，并开始从实验室走向应用。80年日本科学家福岛邦彦建立了第一个神经网络，82年大卫马尔发表了一篇非常有影响力的论文，介绍了处理视觉数据的算法框架，同年《Vision》这本书问世，标志着计算机视觉正式成为了一门独立学科。

大发展：

卷积神经网络与深度学习

90年代计算机视觉的发展整体比较落寞，因为训练神经网络是一项资源非常密集、并且进展极为缓慢的工作。

一直到2005年之后，才又迎来快速发展阶段。

2006年左右，杰弗里·希尔顿（Geoffrey Hilton）和他的学生首次提出了深度置信网络（DBN）的概念。他给多层神经网络相关的学习方法赋予了一个新名词——“深度学习”（Deep Learning）。

人脑视觉系统的信息处理是分层的。简单来说，就是要先从功能相对低级的区域分辨出朝向、空间位置和运动方向，然后到下一个区域再去处理形状和颜色等信息。

比如当你看《黑客帝国》时，你是先看到一个人朝着镜头走过来，然后才分出这个人的脸型和各种面部特征、穿着的衣服颜色，根据这些信息和你大脑中原有的海量信息做匹配，你就能够判断出来这个正在运动的人是基努里维斯。

所以在大脑中，对一个形象的判别是分层次处理的，并不是一股脑把所有信息交给某个部分，然后它突然得出结论这个人是里维斯。

而深度学习就是借鉴人脑的信息处理过程，对信息进行分层处理，进行特征提取和分类。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类的准确性。

计算机需要学习足够的数据，才能训练出一个能够用于识别的模型。

数据量很重要，对你的大脑也是一样。一个不是特别恰当的例子是，如果你没见过里维斯，你就算看到了这个五官、清晰地分别出头发和瞳孔颜色，也没有办法判断他到底是谁。

这也是为什么，在网络数据受限的情况下，深度学习的资源就不够。

此外，神经网络的分层也是在不断进步的。

2005 年以前提出的人工神经网络只是一种浅层模型，只含有一层隐层节点，但这比人脑简化太多了，效果也就差得多。

而用深度置信网络解决来这个问题，可以构建更多层的模型，更接近人的视觉神经系统的结构。

不过随着时间的推移，深度置信模型（DBP）也有一些问题，包括计算量太大、样本量太大等等。卷积神经网络（CNN）又可以解决这个问题，它将每一层信息仅通过一个“卷积核”相连。

你可以理解两个平面之间，前者是需要每个点直接相连，现在只需要中间的一个点直接相连。

等于DBN需要计算机一次性看完整张图，全局对比；但CNN可以一步一步一块一块地对比小特征，和分布式系统的感觉有点像。

这样处理样本的速度就显著加快了。

据广证恒生在2019年的研究报告，美国国家标准与技术研究院（NIST）公布了全球权威人脸识别比赛（FRVT）最新报告，从前十名企业在千分之一的误报率下的识别准确率来看，其平均能达到 99.69%，在千万分之一误报下的识别准确率超过 99%，意味着机器几乎可以做到在 1000 万人的规模下准确识别每一个人。

而人脑记忆100个人的身份都有可能出错。

这几年，无论是安防中的人脸识别，还是高铁闸机上的人脸识别，抑或是证券在线开户、交易等，大家都开始自由地使用人脸作为个人识别的特征。

当技术不再困难的时候，在讨论伦理之前，创业公司们却首先迎来了商业化的难题。

艰难的商业化：

合适的落地场景难找

其实，在2015年那一次机器识别准确率高于人眼之前，如今的AI四小龙已经成立了。

其中旷视科技成立最早——2011年，云从科技成立最晚——2015年。

旷视科技由三个年轻人正式创立，三位创始人是清华“姚班”毕业的印奇、唐文斌、杨沐。

商汤科技则是由香港中文大学信息工程系汤晓鸥组建的，是产学研的极佳代表。

云从科技周曦的核心创始团队有中科院背景，融资又是全内资与政府基金背景，云从又被外界称为“AI国家队”，在“AI四小龙”中，云从国资背景最强。

依图科技由朱珑、林晨曦共同创立，林晨曦曾经是阿里的第一任技术总监，更早之前是在微软亚洲研究院，是产业背景最深的一个。

这四家都在2015年拐点之前成立并一起迎接了牛市的到来。

当人脸识别的算法首次获得突破人眼的成就之时，创业者和资本都很兴奋。

整个计算机视觉行业和人脸识别产业也迎来了第一波投资上的热潮，但随后的商业化过程却并不容易。

因为，当为这项技术找一个落地姿势的时候，就非常明显地遇到了两个大问题：

第一个困境是，人脸识别就算再牛，也只是一个模块技术。这个属性意味着，它无法作为一个独立的业务出现，而大多是为原先的业务做增强服务。比如在金融业务中做人脸校验加强密码属性，比如使用人脸检索功能加强安防等领域的防控效率，比如相似人脸推荐可以用来做婚介社交和整容设计。

这样的属性意味着，如果没有合适的落地赛道，人脸识别就是空中楼阁。即便找到了合适的落地赛道，人脸识别在其中的价值量占比也不够高。

第二个困境其实是第一个困境带来的，由于需要具体的落地场景、价值占比不够高，这项技术始终没有找到比较好的商业模式。

行业中常见的有几种模式，要么是直接卖产品、要么卖人脸SDK授权和API服务，要么使用后台流量变现。算法再好，也需要产品。没有真正的标准化产品，它就会沦为项目制中的一个模块，很难做大规模；甚至有些将它作为免费的额外服务提供。

比如在A股曾经火爆过一阵的人脸识别闸机相关概念股，最后大家发现其实只要达到一定精度（不需要最高），谁都可以做，技术门槛并不高。

也就是说，AI的最终任务是实现在各垂直行业的场景化落地，并找到在其中AI能发挥最大价值、实现良好商业模式的场景赛道。或者，打造一个通用型平台。

中国AI行业融资规模与投融资数量在2013-2018年整体快速增长，但2019年出现45%左右的显著下滑，2020年投融资金额恢复42.5%正增长，但距2018年颠覆时期仍有差距，投融资数量显著下降。

二级市场的热度也可以通过研报数量提供辅证，以”人脸识别“作为关键词为例，在Wind上2015年这一关键词搜索到的行业研究（不含个股研究）报告（仅以Wind数据为例，不保证完全覆盖）数量为17篇。而在2014年这一数据为0，2018年-2020年，每年都只有1篇。

在人工智能发展的最初，算法研发能力的评判是对一家创业企业最有效的估值方法，换句话说，也就是从企业的投资转为对技术甚至是对人才的投资。

2014年年初，谷歌创始人拉里佩奇亲自操刀了一宗收购案，斥资5.4亿美元，收购一家名为DeepMind的人工智能公司，也就是后来研发AlphaGo的公司。而那时，DeepMind是没有任何商业模式方面的探索的，谷歌仅仅是为了人才，就可以掏出5.4亿美元。

但当AI竞争进入深水区，商业化才是真正的考验。

上市肉搏战：

商业模式破冰乏力

在这种困境中，AI四小龙也基本都开始转型了，寻找不同的落地场景。

计算机视觉产业链可划分为基础层、技术层和应用层。基础层包括硬件支持、算法支持和数据集；技术层包括视觉技术平台、视频识别、图片识别和模式匹配；应用层包括计算机视觉技术在智慧城市、智慧安防、智慧物流、智慧金融、手机终端和智慧商业等领域的应用。

旷视科技，在原创技术的研究基础上加上IOT、公共IOT、商业IOT等三个领域的顶层设计，开始逐步打开局面，主要专注于物联网领域。

商汤科技呢，则开始向平台型“操作系统”转型，试图摆脱单一赛道带来的困境。与其他企业专注特定赛道相比，商汤没有选择具体的细分赛道。从现在的情况看，它更多是将自己定义为了一个“AI零部件”生产工厂。

云从科技从创立一开始，就是唯一一个有”国家队“背景的公司，它背后站着中科院，目前公司主力业务针对金融，是银行领域第一大AI供应商，以为客户提供解决方案为主。

依图则是一开始将计算机视觉业务对接安防的，提供算法产品的输出。随着后续项目落地，开始转向医学图像和智能城市业务。目前，依图的业务重点已经是自研AI芯片了，逐步从纯软件转向底层硬件+平台结合的路线。

从竞争格局来看，以收入规模计，商汤科技排第一，旷视科技排在第二位，高于依图科技与云从科技。不过依图科技自从撤回招股书之后未再出现更新。

来源：招股书、华尔街见闻整理

至于盈利能力，借用此前某位AI行业的一级市场投资人的话说：

全球大部分AI公司的毛利率都很低，毛利率一般都在50%-60％，而软件服务行业的毛利率在60%-80％以上。

这样的结果正是目前AI行业普遍面临的商业模式导致的，大部分公司都还在做定制化业务，不管是做政府业务、还是金融业务，只要面对大型客户，这些AI企业都很难使用通用打包产品提供客户所需要的服务。

最后就会变得和传统IT企业一样，要通过堆人头、做项目来获得收入。

2G的业务越多，毛利率就越低、销售费用率就越高。以2020年数据计算，依图科技（只有上半年数据）和商汤科技毛利率均超过70%，但云从和商汤毛利率都低于上述投资人说的50%下限。

更要命的是，由于AI类企业的研发投入要高于一般的IT企业，因此最终每一家公司都处于亏损状态。

在这种局面之下，上市寻求更多资金支持就成为一条不得不走的路。

计算机视觉的前路——工业、医疗

但计算机视觉之路却并没有被堵死，因为除了”人脸识别“之外，还有工业机器视觉和医疗影像识别。

1、工业机器视觉

据天风证券的研究报告，机器视觉在工业应用中，可以用来甄别物体特征、定位、测量并检测，而这些通过人眼是很难完成的。

工业视觉具备极强的机器特性，如极高的速度、精度、重复性等，这些特性成为工业机器视觉产品的重要参数。

与此同时，工业机器视觉拥有采集大量现场数据的能力，数据是驱动行业快速迭代、获取信息的重要来源，这也将成为工业机器视觉未来的巨大可能。

传统的工业机器视觉采用本地数据存储和处理，通过本地总线连接，每台设备搭载一台性能强大的电脑进行数据的存储和处理；而现在的机器视觉系统通过有线（光纤/铜缆）或无线（WiFi/4G/5G）连接至PC端，PC端无需放置在本地。

因此随着5G的到来，机器视觉有望迎来更好的发展。

2、医疗影像

当前中国CT行业影像数据爆炸增长，2019年市场规模达到24.7亿元，CAGR约30%。另一方面，目前我国放射科医师仅有8万多名，每年承担的诊断工作量却达到了14.4亿张影像，结合中国医学影像数据每年30%的增速，与之相对应的放射科医师的年增长速率却只有4%，两者之间存在巨大缺口，AI+CT影像识别有望弥补这一缺口，发展潜力巨大。

AI+CT影像的主要产品形态包括：影像分析与诊断软件、CT影像三维重建系统、靶区自动勾画及自适应放疗系统。通过智能CT影像识别，能够完成病例筛查、智能分析诊断、辅助临床诊疗决策等工作。从应用的场景来看，主要包括胸部、四肢关节等部位，乳腺、心肺、冠状动脉、骨骼等器官组织，应用领域广阔。

人工读片存在主观性高、重复性低、定量及信息利用度不足、耗时及劳动强度和知识经验的传承困难等问题；而人工智能读片的优势体现在高效率低成本。随着产品的成熟带动识别率的提升，人工智能读片的精准度也将形成比较优势。

尾声

发展60多年来，机器视觉作为AI技术的急先锋，经历了几轮起落，终于迎来技术上的爆发。但随着技术进入深水区，寻找合适的商业模式真正成为了机器视觉这门技术的最大难点。

互联网巨头的AI技术可以在自身不断得到验证，字节的推荐算法可以通过用户点击数据验证；美团的算法可以优化骑手路线通过送达时间变化来验证等。

我们最近看到的四小龙扎堆IPO仅仅是行业规范化、商业化的开端，计算机视觉的前路还很长。

但是国家政策一直是鼓励并支持AI产业的发展的，相信未来它们一定能找到更好的出路，带领中国的计算机视觉乃至整个AI产业走在全球前列。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.