编者按:在6月28日“第三届网易未来科技峰会”举行前夕,网易科技进行了系列人物采访,云知声专注于物联网人工智能服务,一起来听听云知声CEO黄伟在智能家居、汽车、医疗和教育等领域的应用布局,以及他对人工智能的看法。
当你还无法察觉的时候,很多改变人类的新技术已经在无声无息中蜕变、成长,诞生于上世纪50年代的人工智能就扮演着这样的角色。
“互联网女皇”玛丽·米克尔在报告中大篇章的描述了语音识别交互带来的改变,人工智能成为科技发展的重头戏已经毋庸置疑,物联网场景下的应用需求在不断扩大,智能语音技术在智能家居、智能汽车、教育等领域的应用逐步深入,带动着智能语音产业规模的持续快速增长。
黄伟表示,PC互联网时代,联网设备主要是PC,移动互联网时代,联网设备主要是手机或平板。而到IOT时代,一切设备都可能联网,IOT联网最大的特点是没有屏幕,不像手机平板那样以触碰为主,第二,设备离人比较远,这时候我们就希望用一种完全自然的,像人和人对话的方式来控制它们,所以,语音识别就成了解决这一痛点的最佳方案。
那么,语音技术成熟以后如何让产品落地,黄伟有着自己的看法:数据和算法的结合给语音技术带来了巨大的推动,一下把中国的中文语音识别性能拉到了工业化应用的临界点,云知声延续平台策略,提出了“云端芯”生态体系,目前已经在家居、汽车、医疗和教育等领域有广泛应用。(广胜)
以下内容为网易科技根据专访内容整理:
记者:云知声创立于2012年,相对而言还比较年轻,给我们聊聊云知声的创业路程吧?
黄伟:云知声大概2012年6月份成立,时间不算短,但也不算长,到这个月29号刚好是我们成立四周年。云知声成立之初,那个时候智能设备不多,并且大家还没有养成用声音或者图像交互的习惯,所以我认为我们的机会来了。
九月份我们发布了国内第一个完全免费的开放平台,当时,做到业内中文语言识别准确率最好的是80%左右,那就意味着100个字里面有20个字是错的,这样的用户体验是比较糟糕的。另外,那时候大家都没有养成使用微信语音聊天的习惯,所以我判断,用户的习惯养成是最重要的事情,而不是赶紧利用这个技术去授权,也能够让更多的行业客户和终端客户切入进来,切入进来就意味着数据,步入深度学习时代,在统计模型架构的时候还是数据驱动的,有足够多的数据,就意味着系统有升级的可能性,所以我们当时采用免费开放平台的策略。
直到2013年底之前,我们延续了这种平台策略,也不断的研发创新,2012年10月份,在当时少有人涉足的深度学习领域,我们的深度学习引擎部署上线,而且提供给第三方服务,中文语音识别的准确性从当时业内的80%多一点,一下提升到91%,极大的改善了用户体验。
在2013年春节前后,我们推出了微信上的语音输入插件,APP就是基于我们的深度学习引擎开发的,准确率非常高,上线一周就冲到了苹果排行榜第一位。数据和算法的结合给语音技术带来了巨大的推动,一下把中国的中文语音识别性能拉到了工业化应用的临界点。
截止到2013年底,云知声平台上的接入伙伴有接近1万家,创业以来,我们基本上打通了之前所设想的数据驱动技术迭代的过程,同时,云知声的技术能力也获得了行业用户一致的认可。
下一步,我们开始考虑商业落地,2013年底的时候智能硬件、智能眼镜等等比较火热,硬件智能化是未来势不可当的趋势,但我们相信硬件智能化一定不是靠硬件本身,他的智能化更多的是体现在云端,自下而上从硬件向云端服务。
另外一点是平台如何落地,早期通过SDK分发的方式,这对创业公司来说是最经济、成本最节约的方式,但是他会伴随很多其他的问题,智能化的服务也应该渗入到终端硬件里面去,渗入到芯片里面去。
( 云知声“云端芯”生态图 )
在这些思考背后,我们于2014年初提出了“云端芯”,这个概念今天被业内很多人接受,同时,2014年完成了公司内部的架构调整,成立了IOT事业部,引入高通作为战略投资方,我们希望未来在芯片端发起人工智能服务。
时间到了2015年的时候,个人的机会已经不是特别多了,线上的渠道资源都被BAT这种巨头所控制,其实很难有一种颠覆性的产品,但我们认为移动互联网其实也面临一种可能性的颠覆,这个颠覆就是我们今天所说的物联网。
PC互联网时代,联网设备主要是PC,移动互联网时代,联网设备主要是手机或平板,到IOT时代,可能一切设备都可能联网,IOT联网最大的特点是没有屏幕,不像手机平板以触碰为主,第二,这个设备离你比较远,这时候我们就希望用一种完全自然的,像人和人对话的方式来控制它们。
当时设计了一个比较创新的产品模式,我们称它为“智能化的语音模组”,实现它要克服很多技术上的难题,首先要把交互的距离从10公分变到5米之外,你要面对很多现实的问题,比如房间里面的混响,或者距离比较远,声波信号的衰减,或者这个设备正在播放音乐,你如何去打断它,它在休眠,你如何唤醒它等等,我们为了设备的智能化程度更高,也往后端补充了自然语言理解知识图谱,还整合了很多互联网服务资源的聚合,希望用户通过IVM这个产品能够和它的设备之间,像人和人之间对话一样,可能我们希望未来任何一个设备都是机器人,但并不一定是人的形态。
除了解决技术方面的困难外,如何去说服客户接受这种新的交互形式也比较重要,当然首先要能够接受很严格的产品测试,从2014年底到2015年我们做了很艰苦的工作,最后的结果是比较理想的,我们是国内第一个把人工智能芯片开发出来,而且保障了厂商能够批量出货的企业。
另外,我们认为车联网是一个非常大的机会,车是家居的延展,是家移动的部分,在车的场景下,因为安全考虑,用户一般不方便用眼睛看,也不方便用手去触控,最便捷的方式就是靠耳朵和嘴巴,这就要求在开车的环境下能够做非常好的交互体验,又快又准,并且自然,也能够把服务资源聚合起来,我们从2014年底投入这个方向,在2015年终的时候开始接触国内互联网后装的厂商客户,基本上到目前为止,云知声的方案已经占了60%的市场份额,首先通过这种方式把家居的客户和车载的客户打通,有声闻识别技术,还可以通过虚拟帐号把用户之间的关系打通。
云端服务是我们人工智能服务的一个基础形态,从2012年成立开始,我们就累积了厂商客户已经超过3万家,而且每天大概语音调用的请求量已经超过1亿次,我们是国内前三大平台,而且云知声是除了百度、讯飞之外,唯一的非上市公司。
医疗也是云知声发展的重点方向,我离开摩托罗拉之后,在Nuance公司工作了一段时间,在它的业务里面很重要的一块就是医疗,医生不再是用手写或者是电脑输入,一方面极大的提升了医生的工作效率,也把病情的诊断、病情的问询、包括诊断都记录下来,这为后面的医疗大数据提供非常大的便利。
我们已经与协和医院合作,去年在大概有4个科室上线试运行,协和医院给出的4个报告,平均的医疗识别准确率超过95%,而且每个医生每天的工作效率提升了38%,这是一个非常惊人的数字,从经济效应上来讲,医生可以提高效率,意味着可以看更多病人,更多人不需要排队等待。目前,确定和云知声合作的医院已经有几十家之多。
我们从一个数据驱动的技术平台,升级到云端芯产品战略,以及在战略之下,选择在家居、车载、医疗这些领域商业化落地,到目前为止,我们可能算是中国国内的人工智能创业公司里面产品化能力和商业化能力最强的公司之一。
记者:正如你所说,云知声在产品研发、商业化落地方面都起步较早,选择方向时背后有哪些思考,目前是否符合预期?接下来云知声的研发以及商业化有何具体计划?
黄伟:云知声是一个比较稳定的团队,取得这些成绩离不开我们的背景和基因,今天人工智能非常热了,很多人关注,甚至很多人投入到人工智能的行业,但其实很多人忽略了一点,人工智能曾经非常冷,很长一段时间我们不讲从业者,可能连高校院所的人才培养都非常匮乏,这导致哪怕BAT开出很高的薪资,也很难找到不错的人才。
我是比较幸运的,以前在中国科大念书的时候就学这个专业,当很多师兄弟毕业就转行的时候,我加入了摩托罗拉,摩托罗拉在两千零几年的时候还是一个非常重要的科技巨头,他们对人机交互、人工智能是非常关注的,我在摩托罗拉的那几年,完成了一个从学生到工程师的转变,以前我们团队开发的引擎支持了摩托罗拉大概20多款手机,全球出货量接近3亿台,这种经验是今天很多从业者没有经历过的。
2009年我加入盛大,在盛大工作了两年多,假如以前我在摩托的经历更多是从技术看技术,在盛大的经历让我更多的从用户来看技术,所以我们之所以最开始选择平台化战略,是因为非常清楚的知道技术不可能日新月异的去发展,一定是一个理论框架从出现到成熟,是缓慢的过程,中间靠什么填补呢?数据。
至于说为什么我们选择从芯片去切入,依然还是从技术如何落地,技术如何提供更好的用户体验,技术如何更好的满足用户需求这些方面考虑的,可能很多人满足于或陶醉于在技术上的一点点提升,但是你有没有想过技术的目的是什么?这一点我们算想的比较多,所以我们选择在一个比较超前的时间点,用一个比较稳健的方式做这个事情。
技术平台型的公司成功概率是最大的,而不是说一开始就做一个音箱或者做一个机器人,这样的好处也有,大家可以很快让别人知道你在干什么,弊端也一定有,因为你不能保证每个产品都是爆品,而且一定会分散很多资源投入产品本身,而忽略了技术积累,深度学习刚刚进入这个时间点,技术的储备是非常重要的,我们把公司全部的资源拿进来,投入到研发,我认为这对公司未来的长远发展是非常重要的一步,华为之所以成功,是因为华为从成立的第一天起,技术研发就非常投入,厚积薄发,华为在以前这么多年的技术积累之上,稍微有一点互联网思维,不能说百分之百成功,但基本上他的成功概率会大很多,技术的积累是最难被替代、最难被复制的,这对云知声来说是非常重要的根基。
我相信深度学习也好,人工智能也好,依然处于相对原始的阶段,这个阶段所有的大公司、小公司全力以赴的去投入去研发,我们做的工作还有很多。
记者:近些年,无论是资本还是人才都在不断地进入人工智能行业,人工智能还处在发展初期就已经成为了红海,你是否同意这样的观点?
黄伟:我觉得任何一个方向被大家所关注,尤其是被资本市场所关注之后,一个必然的结果就是大家都会来做,我觉得这是很正常的现象,其实我并不是特别在意这个情况,我经常和做投资的朋友开玩笑,我说当人工智能出现的时候,你更应该关注那些在几年前就在做的公司,因为他们真的不是跟风,他们真的是以这个为方向和目标的。
我相信人工智能这个方向还是跟我们以前APP等运营的方式不太一样,那些方向基本上团队有很强的执行力,注入资源的话成功几率是比较大的,但是人工智能是技术储备非常深的一个方向,这个方向还真不是靠人铺,或者靠钱砸就能出来,一定是有积累的团队,而且对这个方向有情怀的团队才真正有可能胜出。
记者:你作为人工智能行业的从业者,觉得人工智能走进千家万户还需要多长的时间?可不可以帮我们预测一个全面爆发的时间点?
黄伟:我觉得应该很快,就拿我们日常生活来讲,语音已经成了车载设备的标配,今年任何一个厂商,如果你推出任何一款车载产品,比如后视镜导航仪,假如不带语音功能的话,这个产品很难卖出,它已经成为了标配,第二,从家居里面,以乐视为例,乐视已经出库的几百万台TV里面,已经用了云知声语音交互的方案,从去年到今年陆陆续续我们会发现更多的产品,无论是格力、美的、华帝,你会发现里面都带有云知声的方案,我相信这是趋势,可以很清楚的看出,并不是说什么时候人工智能进入我们的生活,其实这个事情正在发生。
记者:如果人工智能未来拥有了更强大的认知甚至是情感的话,大家还比较担忧,你怎么看这方面的问题,我们与人工智能要如何相处?
黄伟:在技术方面我可能会相对保守一些,我认为这个担忧有点过于杞人忧天了,因为今天工业界里面大家做的所有努力,是利用这个技术来替代人的一部分工作,让人类解放出来,这个目的绝对不是说要颠覆人类,迄今为止,我们基本上做的所有的人工智能的技术多半集中在感知智能,或者一部分认知智能,真正的情感方面,技术是做不到的,但技术的进步,20年、50年以后会发展到什么状态,这个我很难做预判,相信至少在我有生之年,我认为机器具备情感不太可能。
记者:云知声一直专注于B2B2C领域,以后会不会有推出自己产品的计划?
黄伟:产品看怎么定义,其实我们从2014年确定好这种产品战略体系之后,我们从2015年就有很多产品出现在市场上,当然了,这不是我们自己品牌的产品,我们的定位还是一个技术方案提供商,我们更多的是躲在大公司后面,比如乐视、华为以及其它大的厂商后面,包括格力、美的、海尔、华帝等等,在未来我们云知声可能会结合我们技术的特点和优势,推出云知声自己品牌的产品。
记者:云知声的产品思路是怎样的,是如何提出“云端芯”产品战略的?
黄伟:我先从技术的角度讲,其实这也是一步步来的,因为最开始我们只是希望通过一个云端SDK的方式,植入到用户的APP里面,能够帮助用户具备语音交互能力,但是你发现在某些产品之下,其实云端SDK能力是不够的,比如我们在某些设备上操控,操控体验的要求希望是又快又准,假如说都需要走云端来回的话,那必然达不到效果,出于这种考虑,我们把一部分能力从云端迁移到终端。
简单的控制在本地做,相对复杂的搜索在云端做,这样端云结合形成一种比较好的互补,你会发现单纯靠本地的离线引擎也不能满足要求了,比如说一些可穿戴设备,或者在一些不插电的设备上面功耗就变得非常高,如果依然只是有一个离线软件,但是要常驻内存,那必然会带来一个功耗的巨大消耗,另外假如我这个设备离的比较远的话,你怎么去唤醒他,打断他?到最后你必然要把一部分能力放到芯片当中去,必须和芯片结合,你才可能会实现。这是从技术到用户体验的角度来讲。
其实当时提出云端芯的时候并不是说我们有多么英明,而是因为我们想好了场景是IOT,IOT一定会存在距离问题、功耗问题,为了解决问题,所以你必须把能力从云端变到终端,甚至到芯片端,是出于这种考虑,才有了云端芯的产品体系
记者:如何评价自己和自己的团队?
黄伟:以前高中和读本科,我是作为一个被动的学习者,因为我满足于考试就OK了,可能对自己没有太高的要求,读博士之后我可能会对自己的要求比较高一点,因为我还愿意做一些新的东西,包括以前工作的时候我认为我是一个比较好的工程师,我对技术或者各方面的追求还是比较多的,另外,转到管理者之后,我觉得创业以来我最大的突破就是我从一个技术人员变成一个商人,你必须从商业的角度看待很多问题。
我的团队,因为我们认识都非常久,以前是师兄弟、老同学,彼此互相了解,包括各自的技术能力方面都非常认可,我也为我们团队比较骄傲,我们能够在相对比较早的时候出来做这件事情,公司成立4年以来,基本上每个人都能做出比较大的突破和改变,当然每个人还有不足,但是我觉得我们团队的成长速度我个人还是比较满意的。
记者:消费升级形式下,大家对产品的要求不单单是在功能方面,有时候看对眼很重要,你做产品是视觉先行,还是功能先行?哪些优先级更大?
黄伟:我觉得审美观是非常重要的,因为很多人,比如我对产品的第一感官是来自外表,包括我们买一个手机,其实很多人选择苹果、华为、三星,除了他们里面芯片很强的功能,或者有非常流畅的软件之外,我相信很多人还是被外观所吸引,尤其是消费品,就像找女朋友一样,可能第一眼缘非常重要,但是如果一个好的产品,进入用户手里之后,如果你希望这个产品让用户经常用到,我觉得还是离不开功能,我认为这两者都非常重要,但是也许用户在选择一个产品的时候视觉会占了主导,但是在日后使用里面功能也会非常重要,我们可以看到今天这个世界上凡是做的非常好的一些产品,其实两者都不能缺乏。
记者:网易未来科技峰会即将于6月28号召开了,您在演讲当中会给我们带来哪些内容和惊喜?
黄伟:我也不知道我能不能给大家带来惊喜,但是我希望我更多的是从一个创业者的角度上,能够带来我对人工智能行业技术也好,产业也好的一些见解和认识,我希望能够给大家带来一些启发,当然,也许我的观点不一定对,但是我希望在网易这个平台上和大家能有一个交流的机会。
我希望网易未来科技峰会能够真正吸引到对这个领域关心的朋友们,让大家能够在这个平台上就产业,就技术,包括资本,各个方面有一个通畅的沟通平台,希望每个人,无论他代表资本市场,还是代表工业界,还是代表学术界,都能在这个平台上发出自己的声音,有助于大家能够客观的、冷静的看待这个市场,这样才有助于这个领域健康有序的发展。
28号我在网易未来峰会等你。