网易科技讯 12月14日消息,BDTC 2016中国大数据技术大会全体大会12月8日在北京新云南皇冠假日酒店举行,作为大数据领域规模最大、最具影响力的IT盛会,BDTC 2016历时三天,以更加国际化的视野,邀请众多国内外大数据专家齐聚一堂,从政策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,与往届相比,本届大会更关注行业应用最佳实践,突出应用和数据的深度融合,并首次将人工智能、高性能计算等热点话题引入大会,作为大数据产业界、科技界与政府部门密切合作的重要平台,本届大会吸引了数千名大数据技术从业者与技术专家到场参会。
网易科技在现场全程报道,以下为BDTC 2016全体大会全部演讲内容。
主持人(国防科技大学研究员、CCF大数据专家委员会委员—彭绍亮):各位来宾,大家好!我是本次程序委员会的主席彭绍亮,来自湖南长沙国防科技大学计算机学院,欢迎大家来参加BDTC2016大数据技术大会。
由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办的“BDTC 2016中国大数据技术大会”现在正式召开,我代表主办方向各位致以诚挚的欢迎和感谢!
中国大数据技术大会从2008年至今已有十年,超过一万多名大数据开发者参与其中,在座的很多领导、嘉宾从2008年开始,大家知道是一个60人的会议,走到今天,接近10年,我们是第十次大会。已经完成了BDTC从国内大数据领域走向国际大数据领域的顶级飞跃,因此越来越受到国内国际相关研发者的关注。
本届大会除Keynote以外,主办方还精心策划了16场+专题技术和行业论坛,100多场技术演讲,累计邀请超过130位技术专家担任演讲嘉宾。演讲内容从实际出发,聚焦行业最佳实践,解析数据与应用的深度融合,探讨热门技术在行业中的最佳实践和深度应用,相信经过这三天的参会,定让您收获颇丰。
昨天我们也总结了一下,本届BDTC2016年我总结起来三个特点,第一我们是一如既往的高大上,但我们还接地气,我们不仅邀请到了大数据领域在国际国内做的最先进的一些专家学者嘉宾来跟我们做一个分享。我们大会还有一个非常有意思的特点,这个大会是全国为数不多可以讲算法讲code的大会,大家在后面三天里会看到很多这样的题目。第二个,BDTC2016聚焦行业应用探索最新技术,每年会把大数据领域最新的技术,包括大数据应用领域,高性能计算、生物医药等带到这个会场跟大家关注,我们总是探索最先进的先进技术。第三是人工智能等与大数据技术实现优势互补。
接下来由我为大家介绍今天上午全体大会的演讲嘉宾:
中国计算机学会秘书长 杜子德先生
中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任 梅宏先生
启明星辰公司副总裁,CCF大数据专家委员会副秘书长 潘柱廷先生
中国科学院院士 陈润生先生
东京大学教授、日本国家信息研究所所长 喜连川优先生
中科院计算所孙宁辉先生(音)
华东师范大学副校长、数据科学与工程研究院院长朱嗷英教授(音)
中国移动苏州研发中心大数据部总经理、高级工程师 钱岭
科大讯飞大数据研究院副院长 谭昶
还有今天到场的所有演讲嘉宾,各位老师,各位专家,感谢大家的到来。
中国计算机学会秘书长杜子德致辞
主持人:首先进入第一个环节,我们掌声有请中国计算机学会秘书长杜子德先生致辞
杜子德:诸位,早上好!
今天开这个大会和过去一样还是人声鼎沸,我们学会的一个专业委员会把会开这么大,作为学会的秘书长还是非常的高兴,我们还有几个专委也是搞的非常好,会议开的非常有规模。我们今天是要讨论大数据,其实数据就是数据,数据没什么大小,相信我们包括计算机这个机构是冯诺伊曼机构,所以我们计算机一直在捣鼓数据。我们有很多的数据处理不过来或者处理不好,比如天气预报,每天要搜集很多的数据,点天气预报报的不准。像地震,石油勘探的地震要取数据,我们这个石油勘探也不够好,就是数据处理能力还不够好。
这个处理一方面是计算能力,现在我们计算能力是大大的扩展了,存储也是比原来提升了很多,所以现在处理能力就比原来大的扩展。还有一个是算法,数据的背后其实是要有算法的,没有算法支撑,你这个数据没法处理。总而言之,我们要看到数据背后的意义,而不是看数据本身,换句话说我们要看到树木,不能光看树木,要看到森林。比如北京的雾霾今天又厉害了,是炒菜炒的吗?到底炼钢多少、尾气多少,炒菜多少,这个数据有吗?搞不清楚,其实你要分析背后的成因是什么,这才能解决问题。关键是要解决数据背后的问题,而不是数据本身。
我刚好从澳大利亚回来,他们计算机学会搞了一个五十周年庆典大会,那个会非常有意思,许多企业家就在舞台上讨论,就讨论问题。没有一个人长篇大论,不停地在讨论,其中有一些政府官员,我刚才看到广告说今天下午在二层和政府官员的闭门会议,我觉得政府能来是件好事,但这个闭门会议写的不太好,要开放。澳大利亚的官员两天在悉尼整体都在参加,政府把所有的想法和业界沟通,数据也开通,我们许多数据拿不到,比如交通数据、医疗数据、污染数据都拿不到等等。其实政府应该和业界一块来探讨用数据来解决现实问题,而不是把这个问题放到那,数据放到那一点意义也没有,我倒是建议这个会,全体大会也不要讲太长,更多的大家坐在那思辨和讨论,甚至争论。
我们这个大数据专委现在是在梅宏教授领导下,干是非常红火,应该是我们学会的一个优秀专委之一,我是愿这个会开的越来越好,我们专委发展越来越好,谢谢大家。
主持人:杜子德先生说得非常好,数字领域确实是蓬勃发展的一个新兴领域,接下来有请中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任梅宏 先生致辞。
梅宏:代表大数据专家委员会感谢来自总部的鼓励。尊敬的各位同事、各位来宾,各位朋友大家上午好!
非常欢迎大家来参加我们今年的BDTC,大家也知道近十一年来特别最近几年来大数据是热潮涌动,带动了很多方面的追捧,大家也都认识到大数据的重要性对我们社会经济的发展,对我们科学技术的研究,对我们的国家治理甚至到国家的安全,都将产生重要的影响。推动大数据技术、科学以及相关应用的发展已经成为国际社会的一个共识。在我们国内去年的8月国务院发布了促进大数据发展的行动纲要,全面阐述了我国发展大数据的意义、目标、任务以及相关的政策,也部署了推动大数据的基础研究和核心技术攻关的相关任务。今年3月份第十二届全国人大第四次会议通过了中华人民共和国国民经济和社会发展第十三个五年规划规划纲要,其中也提到要实施国家的大数据战略,把大数据作为国家的基础性战略资源,国家发改委、科技部、工信部等部委和全国的地方政府都陆续出台相关的政策或者战略,加快大数据的技术发展和应用发展,逐渐完善的政策体系为大数据的产业发展以及我们的研究提供了非常好的条件,创造了浓烈的氛围。
也在这个背景之下由中国计算机协会主办,第十届中国大数据技术大会今天在这里隆重的举行。本届大会在内容组织上紧密结合国际内容前沿和相关的发展趋势,聚焦各领域中的数据业务的深度融合问题,关注热点技术在行业中间的最佳实践和最佳应用。大家知道CCF的大数据专家委员会上次有几大品牌活动,其中这是一个,技术大会是一个,还有一个学术大会,今年在兰州举行了学术大会,强调在大数据相关的理论、技术上的研究。还有一个品牌活动就是大数据竞赛,今年下半年,预定是在本月的25号在青岛会揭幕今年大数据竞赛的结果,这是今年三大品牌活动的第二大在这里举行。
中国大数据技术年会刚才彭绍亮也提到了,是2008年开始的,这仅仅是一个很小型的技术沙龙开始的,走到现在一路走来逐步壮大,历经九年,这期间很多的大数据开发者和从业者参与其中,亲历了中国大数据技术与应用的变革,也沉淀了很多具有价值的行业实战经验,见证了大数据圈的发展和转变。连续十届的大数据技术大会,在专业性和广泛性上,获得了学术界和产业界的广泛观众和认同,已经成为国内大数据从业人员不可以错过的重要活动之一,今天本行业相关的精英,齐聚一堂,共商大数据时代的发展大计。
大数据产业已经成为引领信息技术产业发展的一个核心引擎,是推动经济转型和社会进步的一支重要力量,加速相关的研发部署、深化大数据应用,已经成为稳增长、促改革、调结构、惠民生的内在需要和必然选择。我相信本届大会也对国际大数据的发展起到非常重要的推动作用,最后预祝本次大会取得圆满的成功,也提前预祝明年的技术大会取得更大的辉煌,谢谢大家。
中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任梅宏致辞
中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任 梅宏
2016中国大数据技术大会首日全体会议中,中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任梅宏在致辞词中表示,大数据对社会经济的发展、科学技术的研究,对国家治理甚至安全,都将产生重要的影响,推动大数据技术、科学及相关应用的发展已经成为国际社会的一个共识。
而BDTC 2016中国大数据技术大会在内容组织上紧密结合国际技术前沿,聚焦各领域数据业务的深度融合问题,关注热点技术在行业中的最佳实践和最佳应用。中国大数据技术大会,从2008年由一个很小型的技术沙龙开始。历经九年,已有很多大数据开发者和从业者参与其中,亲历了中国大数据技术与应用的变革,沉淀了很多具有价值的行业实战经验,见证了大数据圈的发展和转变。连续十届的中国大数据技术大会,在专业性和广泛性上,获得了学术界和产业界的广泛观注和认同,已经成为国内大数据从业人员不可以错过的重要活动之一。
以为演讲实录:
尊敬的各位同事、各位来宾,各位朋友大家上午好!
非常欢迎大家参加今年的BDTC。近十一年来尤其最近几年,大数据热潮涌动,带动了很多方面的追捧。大家也都认识到大数据的重要性对社会经济的发展,对科学技术的研究,对国家治理甚至国家的安全,都将产生重要的影响。推动大数据技术、科学以及相关应用的发展已经成为国际社会的一个共识。
去年8月,国务院发布了促进大数据发展的行动纲要,全面阐述了我国发展大数据的意义、目标、任务以及相关的政策,也部署了推动大数据的基础研究和核心技术攻关的相关任务。今年3月份第十二届全国人大第四次会议通过了中华人民共和国国民经济和社会发展第十三个五年规划规划纲要,其中也提到要实施国家的大数据战略,把大数据作为国家的基础性战略资源,国家发改委、科技部、工信部等部委和全国的地方政府都陆续出台相关的政策、战略,加快大数据的技术发展和应用发展,逐渐完善的政策体系为大数据的产业发展以及我们的研究提供了非常好的条件,创造了浓烈的氛围。
也正是在这样背景下,由中国计算机协会主办,第十届中国大数据技术大会今天在这里隆重举行。本届大会在内容组织上紧密结合国际技术前沿和相关发展趋势,聚焦各领域中的数据业务的深度融合问题,关注热点技术在行业中间的最佳实践和最佳应用。大家知道CCF的大数据专家委员会上次有几大品牌活动,本技术大会是其中之一,另外还有一个学术大会,今年在已在兰州举行,重在强调在大数据相关理论、技术上的研究。还有一个品牌活动就是大数据竞赛,今年下半年,预定是在本月的25号在青岛会揭幕今年大数据竞赛的结果。今年三大品牌活动,第二大活动在这里举行。
中国大数据技术年会,是2008年开始的,它仅仅从一个很小型的技术沙龙开始,走到现在,一路壮大。历经九年,已有很多的大数据开发者和从业者参与其中,亲历了中国大数据技术与应用的变革,也沉淀了很多具有价值的行业实战经验,见证了大数据圈的发展和转变。连续十届的中国大数据技术大会,在专业性和广泛性上,获得了学术界和产业界的广泛关注和认同,已经成为国内大数据从业人员不可以错过的重要活动之一。今天本行业相关的精英,齐聚一堂,共商大数据时代的发展大计。
大数据产业已经成为引领信息技术产业发展的一个核心引擎,是推动经济转型和社会进步的一支重要力量,加速相关的研发部署、深化大数据应用,已经成为稳增长、促改革、调结构、惠民生的内在需要和必然选择。我相信本届大会也对国际大数据的发展起到非常重要的推动作用,最后预祝本次大会取得圆满的成功,也提前预祝明年的中国大数据技术大会取得更大的辉煌,谢谢大家。
启明星辰公司副总裁,CCF大数据专家委员会副秘书长潘柱廷演讲:《大数据发展趋势报告》
启明星辰公司副总裁,CCF大数据专家委员会副秘书长潘柱廷带来了题为《大数据发展趋势报告》的分享。期间,潘柱廷表示大数据发展趋势报告作为大数据技术大会的保留议题,每年都会发布一次,今天他带来了大数据领域的10大预测。他强调,今年的预测更多的关注技术,其中有7条是来自技术领域的预测,相比往年今年在技术领域更加关注,主要包括机器学习继续成为智能分析的核心技术、人工智能和脑科学相结合称为新的热点、多学科融合和数据科学兴起、大数据处理多样化模式并存融合,流计算成主要模式等等。体现了专家委寄希望于技术本身上寻求更多的突破。
除了总体的预测,他也带来了众多单项的预测,包括来自大数据应用、数据类型突破、数据资源流转、大数据发展的主要推动者等。
启明星辰公司副总裁,CCF大数据专家委员会副秘书长 潘柱廷
以下为演讲实录
各位嘉宾大家上午好!我代表大数据专家委,向大家发布在大数据专家委所统计和发布的这样一个大数据发展趋势的报告。
这个报告我想大家都已经参加多年,可能比较熟悉了,这个报告是大数据专家为每年在技术大会上的保留节目,也就是在大数据专家为内部通过对专家的意见征集,最后投票、汇总形成这样一个对下一年大数据趋势的预测,当然这个预测并不是神预测,而是反映了大数据专家委这样一百多位委员对大数据的看法,大家基于这个预测可以有不同的解读。2017年大数据发展趋势十大预测:
1.机器学习继续成智能分析的核心技术。
2.人工智能和脑科学相结合,成为大数据分析领域的热点。
3.大数据的安全和隐私持续令人担忧。
4.多学科融合与数据科学兴起。
5.大数据处理多样化模式并存融合,流计算成主流模式之一。
6.数据的语义化和知识化是数据价值的基础问题。
7.开源成大数据技术生态主流。
8.政府大数据发展迅速。
9.推动数据立法、重视个人数据隐私。
10.可视化技术和工具提升大数据分析工具的易用性。
这里稍微提炼一下,十个预测可以分为三大类,首先是大数据专家委在今年的十条预测里对比去年和往年更加关注技术本身,就是在十条里有七条技术是纯技术的话题,不像往年有多条都是关于产业或者资本,这些都没有成为今年的热度,所以看到专家委寄希望于技术本身上寻求更多的突破。
第二是安全和隐私,安全和隐私几乎每年都会排在第三、第四的位置上,也就是说安全隐私成为现在阻碍大数据发展的几乎是唯一的一个制约因素,这样一个担忧使得数据的开放步伐放慢,使得大家对大数据的深度应用可能会带来负面价值等等令我们产生担忧,其实对安全的担忧成为我们对大数据发展的重要威胁,这是需要解决的一个问题。
另外,大数据专家委除了关注技术上,还是期望在政策和法规上能给予大数据发展有效的帮助,也就是说我们在关注技术和市场的时候,相对从市场的需求和政府的诉求上,更偏重于政府的诉求。这个是一个有意思的现象,我们期望于政府的力量和法规合规性的力量来推动大数据的发展。
这是对整个十条发展趋势的基本解读,我们简单回顾一下从2012年底做的2013年的预测,到今年预测,从2013年概念化的对大数据的趋势预测,到2014年开始更关注价值,数据背后的价值。第三年的预测,出现了一些更加具体的一种趋向性的引导,强调跨界、强调融合,强调在基础科学和基础技术上寻求突破,这是第三年预测的特点。第四年的预测体现了一些政策、战略方面的认识,比如说关注民生,同样是多样化的技术,同时对政策和生态给予比较多的关注。今年的预测主要是这两条,除了安全本身的特殊问题,大家更关注技术本身,同时寄希望于政策法规带来驱动力。
如果大家记不太清楚,我用这样一个十组关键字,基本上大家很容易能理解到,这样一个预测,并没有跳出大家的一个大的预期。可以看到现在整个大数据的发展并没有出现所谓的黑天鹅或者是一个突破性的变化,所以机器学习、人工智能、脑科学、安全、隐私、学科融合、数据科学、多样化处理、流计算、语义化、知识化、开源、政府大数据、立法、可视化,这些条目是从几十条搜集出来提炼出来的十条。
大数据专家委除了这样十大预测之外,也做了一些专项分析预测,其中部分预测还是很有价值的,这里介绍一下,就是一些单项的趋势调研。
大数据应用。因为大数据在应用,这是五年以来在做的单项调研,到底哪一个应用领域会得到瞩目,我们看到这五年以来应该说互联网金融一直是这样一个话题,而且尤其近四年的调研,互联网金融和健康一直排在前三甲。今年的调研把城镇化和制造业这两个方面放在灰色的区,因为后面这几个跟金融的票数差异是一个大的因素,如果大家真正看的话,关键就是前三个。另外和去年相比有意思的是金融退到第三,健康医疗放到第二,这个原因大家可以自己体会。比如从我个人体会来说,也许和互联网金融及其所面临的风险有某种关联度,这体现了专家委专家对应用领域上稍微的微调。
数据类型的突破。数据本身是大数据最重要的东西,哪个数据类型会得到重要的突破,这里指突破而不是说取得巨大的成绩。这里面城市数据、图形图象数据、语音数据和视频数据这四方面是大家认为突破的点,可以解读为现在大数据专家委研究的重点可能在这几个方面,语音数据和视频数据放在一起,因为它们票数是一样的。这是2017年对数据类型的看法。
数据资源流转。我们做研究、应用都有一个难题就是有没有数据,数据从哪里来,所以数据的流转、交换去年开始做了一个调研,我们看到今年的结果非常有意思。一起个小的变化是会买数据集退到第四位,而且票数和前面的差距也挺大的。大家现在对数据流转和数据交换并不抱太大的期望值,真正数据的流转并没有形成一个良好的,哪怕是共享或者哪怕是交易的氛围并没有形成,所以大家会转而倾向于自己搜集数据,去下载和能获得的免费数据,而对于通过交易和价值交换带来的数据集,尤其量比较大的数据集这方面的期望值在降低,当然还有人会免费提供数据集。这一点对整个大数据领域和数据领域来说是想办法努力解决的一个重要的点,这几条预测其实反映的是一个比较严重的问题。
大数据的主要推动者。到底是什么样的力量在推动大数据的技术、产业、应用这方面的推进,前年是互联网公司、政府机构和大学科研院所,到第二年的调研,科研院所从我们的名单中消失了,大家认为推动起来其实推动利用并不来自大学和科研院所,资本的力量和各种资源的力量并不来自于它。去年也许随着双创的概念,创业公司成为一个大家寄希望的推动者,但今年创业公司从这个名单中消失,这个名单中几乎只剩互联网公司和政府机构,其它的票数都很少。这反映了什么?和刚才大数据趋势十大预测中,政府大数据成为十大预测之一,这两个的调研是相符的,因为互联网是大数据推动是毋庸置疑的,不需要多谈,所以真正新的力量推动来自政府,政府在治理理念上的变化,治理方法的变化,带来对大数据真实性的需求,大家对这方面寄予比较高的期望,这是对主要推动者的预测。
这是从前年开始大数据发展阶段的预测,这里面把三年的预测一起列在上面,大家可以看到这里面的变化,用参加投票的专委专家的百分比来做这样一个展示,这个对大数据的发展阶段。在这六个阶段里可以看到,整体来说大数据专家委的专家们对大数据的发展前景还是持乐观态度,也就是第二第三和第六阶段里还是占到主流,基本上在70%的量。
乐观角度来说,从去年即将快速增长的比例是有所下降的,而有相当多的专家认为大数据已经过了幻灭期而进入稳定增长。因为这从技术上所谓的泡沫破裂期是不是真的度过,这个是在大数据专家委的专家中还是有一定的分歧。但总体来说大家对于大数据的看好还是毋庸置疑的,或者说大数据是否真的能跨越幻灭期持续实现有效的技术发展和应用的价值呈现,这也是值得我们持续去关注的。所以这样一个关于阶段的评判方面的预测,也会继续在后面每年的预测中继续为大家呈现这样的变化。
我想这一些单项的调研和预测,其实每个人都可以有自己的解读,我这里只呈现一个初步的解读,我想这些数据,大家可以有自己的理解,并由此产生2014年大家对于大数据技术产业和应用方面一个新的决策,希望对大家明年的决策有所帮助。
另外,如果大家希望关注更详细的大数据专家对于2017年大数据趋势预测具体的数据和内容,也请关注下一期的中国计算机协会通讯和大数据杂志。我这里的报告就到这里,谢谢大家。
中国科学院院士陈润生主题演讲:《大数据与精准医疗》
中国科学院院士陈润生带来了名为《大数据与精准医疗》的主题演讲。期间,陈润生表示,精准医学的核心就是组学大数据与医学的组合,其可以使医疗健康的概念发生本质变化,从诊断治疗转变到健康保障。精准医学刚刚起步,面临几大挑战:首先是基因组中的暗信息,人类目前只能读懂基因密码中3%的序列,其他序列的含义则不得而知。大数据方面的挑战包括:计算量大,数据源噪音高、信噪比低、缺失值高、错误率高;样本量小;有效事件频率低;疾病相关的复杂网络;高度异质化数据的整合;数据共享困难。
中国科学院院士 陈润生
以下为演讲实录
尊敬的各位专家,各位朋友,非常荣幸,能够应邀参加这个大会,我今天主要谈一谈关于大数据和精准医学的情况,希望大家批评指正。
2015年1月20号美国总统奥巴马提到要开展精准医学的研究,从此美国和西方发达国家就开始了精准医学的研究。很快这个消息传到国内,习总书记和克强总理都有批示,所以作为重大专项,精准医学的重大专项已经立项了,而且已经大约有12亿人民币。
首先什么是精准医学?核心就是一句话,组学大数据与医学的结合,特别是在临床医学当中的应用。随着上世纪九十年代遗传密码的破译,以遗传密码或者基因组为代表的大量的分子水平的数据,也称作组学数据不断地产生,目前增加的速度比任何已知的数据都产生的快。由于研究技术的发展,测一个人类的遗传密码,现在已经变的非常非常简单和容易。近年来开展分子水平的信息用到医学特别是临床医学当中,提高临床诊断的效率和治疗的效率,实际上就缔造了精准医学的应用。因此精准医学的核心,即把组学大数据应用到医学当中,可是这些组学大数据比较大,因此直接作为医学专家或分子生物学家无法看懂,必须经过大数据科学家用特定的理论方法和技术进行挖掘才能获得有关用于临床方面的知识,所以精准医学是组学大数据在临床当中的应用。遗传密码的测量现在不成问题了,但数据挖掘找出和疾病相关,将是一个现在非常迫切的问题。因此从人类密码研究以后就产生了转化医学、个体化医学等等的词汇,但是在2011年的时候,国际上出现了“精准医学”这个词,实际上是对这个趋势总体的概括和总结。
精准医学带来什么样的本质变化,为什么各国领导人都这么重视呢?精准医学本身之所以受到很多国家领导人的重视,由于精准医学有可能产生一些本质性的变化,最主要的本质性的变化。“精准医学”可以使得医疗健康的概念发生本质的变化,从当年医疗健康体系以诊断治疗为主,转变到以健康保证为主。现在的医学是以病人为对象,以诊断治疗为目的,也就意味着由病人、医院和医生组成的一个概念化的医疗体系。而随着精准医学的发展,我们可以通过对大数据的分析,在用户没有病的时候,了解他的健康状况,预测他未来健康的发展,这种情况下我们医疗健康所面对的对象就不再是病人,而是全民,全体人。
因此医疗体系的概念也不是以治疗为目的,是以健康预测,健康评估和健康干预为目的,这样的话整个医疗体系就会发生概念性的变化,从现在看病为主,到以后的预测保证为主。这样一个概念性的根本变化,必然会导致相应产业的发展,因此有人估计到2018年的时候围绕新概念所产生的产业也许能达到2千亿美金以上,所以这是一个能够一定程度上影响GDP的值。因此这样一个精准医学的概念,已经成为引领国际发展潮流的战略制高点,所以才引起各国领导人的重视,所以精准医学实际上是会带来一些,不论医疗概念还是产业上都会有一些本质上的变化,所以才会引起各国领导人的重视。
美国也推动精准医学的发展,最重要的表现是要测量一百万个自然人的遗传密码,一百万是很大的数。欧盟也在开展精准医学的研究,要测十万个肿瘤和罕见病人的遗传密码。日本也有相应的精准医学的计划。那么精准医学到底在新的产业当中,哪几个方面能带动所谓新的增长点呢?我想至少在如下四个方面:
精准医学可以推动海量的生物样本库和海量的数据库的发展,精准医学会导致十万到百万人的生物样品的测量,这就涉及到海量规模的实质性的生物样品的搜集、保存、样品的制备与提取,以及样品提供使用的各个方面。没有百万量级的数据库,当然就不能适应它的发展,而这些数据测量完以后,这些百万量级的数据应该有相应的数据库来保管,所以第一个要推动海量规模的生物样本库和数据库的发展,有人估计这个在未来一两年可以达到一百亿美元的数据样本。
可以带动基因组序的数据规模,这个产业有人估计2018年可以到117亿美金,个人和有关测序方面的专家讨论,由于测序如此便宜我觉得这个数据肯定比它多。
新药物设计的靶点发展,这个产业直接涉及到医疗诊断和药物设计,这是第三个产业。
围绕精准医学概念所产生的实质性的,比方说健康设施、健康从业人员的健康领域的大的产业圈,这个产业圈估计2018年可以到达2千亿美金,这些方面都是精准医学可以带来的,可以预见的实打实的新的产业。我国精准医学的目标和上面国际的是一致和接轨的。
精准医学既然概念明确,各个国家都很重视,要实现精准医学要具备哪些条件?我认为至少具备两个条件,一是要搜集获取大量的组学数据,而这些组学数据必须经过大数据技术的深刻挖掘,所以第一个基础是当前国际两大前沿,就是组学和大数据两大科学的交叉与融合。有了这个结果,我们就可以获得大量跟疾病相关的分子水平上的变异,然后我们要利用这些数据开展第二个基础研究,就是搭建分子水平的信息和宏观疾病之间关联,就是建立分子水平的信息和宏观疾病之间关联的桥梁,也就是发展所谓生物信息学、生物网络、系统生物学等等一系列的东西。有了这两个桥梁,有了分子水平的信息,我们就可以很好的实现精准医学了。
精准医学需要说明的一点,精准医学实际上和现在的传统医学、影像学、生化学、医生的经验是相辅相成的,互相推动与互相促进的,不像我接触的有些过度的宣传精准医学的作用,说我们测序以后什么都能解决了,实际上不是,精准医学是建立在前人知识的基础上,必然与现在的技术紧密结合才能提高医疗的水平。
精准医学才刚刚上路。虽然它有很好的概念上的变化,虽然给我们展示了医疗体系未来的美好前景,但由于精准医学的路上不论是组学测量也好,大数据分析也好,都存在着一些非常巨大的障碍,所以我认为精准医学目前才刚刚起步,我们还有太多的事情要做。
到底创新的机遇在哪里?它的挑战在哪里?其实有很多,今天我就下面组学和大数据处理的一些困难,简单地提一两项困难,大家就可以看到实际上精准医学的路还是相当漫长的。
第一个是在组学测量当中存在的巨大挑战和困难。目前精准医学是以遗传密码为依据。首先有一个疑问,在当前我们对自身人类的遗传密码了解多少,如果我们都了解了实现精准就有了分子依据;如果了解很少,那就有太多的事情要做。而事实上,遗传密码每个人都有3乘10的9次方,如果把该字符装订成书的话,大约四十层楼高的高度,我相信谁也读不了,在当前集全人类的智慧我们只能读懂其中的3%,这就是当前的挑战。我们的遗传密码花七千块钱就可以测出,但你能读懂的部分大约只有3%,这3%就是大家从中学时候知道的编码蛋白质的部分,或者遵从中心法则的部分,我们称作遗传密码当中的编码序列,而另外的97%是不编码蛋白质的,也是迄今为止我们读不懂的部分。换句话说我们的遗传密码里现在还大致有97%现在是读不懂的,既然它干什么都不懂,当它有了变化当然也不知道。在这个含义下,我们用作组学研究的话,当然存在着巨大的困难和障碍。
下面展开一点做讨论。首先从遗传密码看,也就是基因组研究,我们知道在人的遗传密码当中迄今为止97%的遗产密码还读不懂,因此当然无法做到精准。而如果我们做个比较研究,从低等生物到高等生物来看,生物越低等,大肠杆菌的遗传密码,我们用原盘表示,85%都是红的,就是能知道规律的编码蛋白质的部分,它占了绝大部分。生物高等一点,酵母是单细胞的真核生物,编码蛋白质的部分少了,非编码的多了。线虫,它已经是最简单的多细胞生物了,它用做编码蛋白质的只占28%,非编码占71%。果蝇,这个时候编码的部分已知归类的部分只有17%,非编码占到了80%多,而对人来讲97%~98%都是非编码蛋白质。所以也许大家有一个约定俗成的概念生物从简单到复杂从低等到高等一定是蛋白越来越多,实际上不对,它伴随着功能增加是以我们现在不掌握规律的非编码蛋白质的的增加,也就是说非编码蛋白质和高级生物相关,当然也一定和疾病相关。
转录组研究。这个结果是百分之百肯定的,全世界的实验室毫无例外的找到非编码序列信息发放制造功能元件的信息,毫无例外,所以这样的工作,充分证明了这97%是实现重要的生物学功能的,为此我给大家举几个简单例子,虽然这97%全貌不理解,但个别的例子,比如97%的一个产物可以导致所谓的前列腺癌。另外一个来自97%的可以导致白血病,另外一个来自97%的可以导致非小细胞肺癌。这三个例子说明什么?说明来自我们不知道规律的那97%依然能导致肿瘤,大家如果在座的临床医生专家的话,可以知道我们现在对肿瘤在医院当中诊断治疗,所有的对象只利用了3%的信息,从来没有那97%。现在有充分的例子说明,那97%也可以导致非常严重的疾病,如果不把它纳入疾病的诊断治疗当中来,精准又如何实现呢?
当然我们知道在97%里也有非常好的东西,请大家记住H19,这是一个非常重要的非编码的元件,它的存在可以让我们已经癌变的细胞通过某种途径进行消亡。那么有多少这样的元件还没有被发现呢?在座的如果有对生物感兴趣的研究工作者可以参考,大家知道日本在小鼠里边做过实验,发现大约16万个来自那97%的像蛋白一样重要的功能元件迄今为止还没有发现,所以我们还有太多的机会去发现新的重要的功能元件,了解它跟健康、发育、疾病的关系。在这个领域里边,这两位科学家在2006年获得了第一个诺贝尔奖金,有人开玩笑我们估算一下现在对人的遗传密码知道了3%,你可以算算这3%缔造了多少名诺贝尔奖的获得者,我稍微统计一下不少于50名。
我们现在又发现了庞大的97%,说明在这巨大的97%的领域里,还有一千多个诺贝尔奖金的位置,现在只有一个位置被占据了可以忽略不计,所以在大家面前有非常广阔的创造巨大科学成果的机会。
因此整个非编码的研究,组学当中的一个巨大的障碍,虽然对精准医学来讲我们只掌握了3%,才刚刚起步,还有漫长的路要走。但是从另一方面考虑非编码的研究一定会给我们提供巨大的机遇,也就是说97%信息的挖掘一定会为疾病的诊断和治疗提供全新的方向,一定会对全新的药物设计和研发提供全新的平台。那么也会对动植物新品种,新性状的培育提供新的机遇。
下面简单的谈一谈数据处理当中的一些挑战。
数据量大。一个人的遗传密码是3*10的9次方,其实这个数据的产生比较容易。现在一台商用测序仪,一次测量可以得到1T的数据,这样的数据作为商品就很容易买到。因此大家很容易可以看到测序。
分析少。现在国际上开展微生物组基因计划,这个时候我们知道人不仅仅是自己生活,如果考虑他人健康问题的同时也要考虑与人一起生活的微生物,那么微生物的遗传密码现在估计是人的一百倍,如果研究一个广义的人,研究人连同微生物的人,一个人的测序要增加两个数量级。但这样一个数据从数据源来讲不是很好的,它的噪声比较好,因此性噪比比较低,另外有比较多的缺失值。因此从数据源来讲是增速极快,数据质量不高,含有缺失值的数据,这样在数据挖掘当中存在着第一个困难,就是数据源的困难。
样品量少。从样品来看,我们一直需要样品,比如研究肝癌,那么我们需要肝癌的病人。其实针对某一个特殊疾病搜集样品特别困难,往往对特定分型的肿瘤,如果搜集两三百个样品已经很不错了,我们整个的数学体系需要建模的体系往往自变量是成百上千甚至上万,这种情况下如果只能取几百个样品的话,当然我们的边界条件不足以固定内部的自变量数在这种情况下,由于样品搜集的困难,很多条件下搜集的样品不足以固定体系内部自变量的变化。这样情况下有两个途径,一是加大样品,比如为什么美国要测一百万人的遗产密码,我们中国的精准医学计划也要测一百万人,就是说个人体系测样本量远远大于体系覆盖的自变量,但这往往是政府的行为,我们自己的研究组是不可能做这件事的,要有巨大花费。这种情况下当然就要考虑数学建模,把我们的系统变成子系统,使得外界的边界条件和内部自变量能匹配,这就是所谓在大数据处理上,对于组学数据所需要的非常突出的数学分析当中的问题。
有效事件频率低。不仅仅样品得来不易,而样品的分子基础也是各种各样的,所以会带来更多的样品需求层次的问题。因此这就会导致一个非常重要的所谓精准医学当中的科学哲学问题,即何为共同疾病的共同变化以及特异性变化。
上述讲的都是个别基因的变化,但每个基因并不是独立工作的,往往是形成网络,当我们面对进一步的所谓功能分析的问题,精准医学的问题是复杂网络的问题。我们知道生物网络是动态的、有向的,是每个元件做到另外一个元件是定向的;元件不是单一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非线性的,对这样一个动态、有向,不同元件组成的东西,当然是复杂的。
除了这个之外,大家知道我们不仅仅用组学数据还用其它影像学的数据,比如做核磁、CT的数据如何处理,最后是超出学界的问题,如何在全中国的范围内实现数据的有效共享。我们知道现在每个医院里都有数据,如果我们不能在全局上面进行数据共享的话,我们就是在大数据时代做小数据的工作,将来就失掉了大数据的背景和意义。
所以看到在数据分享当中依然存在非常艰难的问题,最后就精准医学的几个概念和大家进行交流,个人认为精准医学是一个重要且值得大家关注的方向,精准医学才刚刚起步,需要我们不断地克服困难,但这些困难恰恰也是我们的机遇,抓住这些机遇,有机会做突出的原创性的重要的工作。
东京大学教授、日本国家信息研究所所长喜连川优演讲:大数据的力量——从商业利益到社会利益
东京大学教授、日本国家信息研究所所长喜连川优发表了题为《Power of Big Data - from Commercial Profits to Societal Benefits》(大数据的力量——从商业利益到社会利益)的主题演讲。喜连川优教授是亚洲大数据界的代表人物。关系数据库中的Hash Join优化方式就是喜连川优教授所创。演讲期间,喜连川优教授表示自2012年起,大数据受到了广泛关注。在科研领域,数据科学是优先级很高的科学,关系到其他学科的研究。例如,实时的观测数据对于大气及地球科学非常重要。在现场,喜连川优教授向开发者展示了实时与非实时观测数据所产生的影像的不同。进一步地,实时数据与机器学习相结合,便可以进行数据预测,如地震预测、车流量及事故预测等。喜连川优教授结合自身科研经历,向与会者分享了很多联系社会民生的案例。
东京大学教授、日本国家信息研究所所长 喜连川优
以下为演讲实录
大家好,很荣幸能够来到这里跟大家一起分享。今天我的演讲题目是《大数据的力量——从商业利益到社会利益》,因为我发现今天到场的很多讲者来自公司、业界,而我本人来自学术科研机构,因此我选择了这个议题。我是NII(National Institute of Informatics 日本国立情报学研究所)的负责人,我们的组织架构非常特别,不像传统的研究机构只专注于科研工作,我们既有科研团队,也有具体的实施落地团队。
在我们的研究领域中,有一个项目非常有意思,我们把它叫做SINET。今年4月,SINET已经更新到第五代了,SINET5是一个链接逾850所大学以及科研机构的日本学术骨干网(覆盖全国85%的大学及科研机构)。
SINET5通过最小延迟的MPLS-TP不相交路径将每一对IP路由对连接起来。相比SINET4的星状拓扑,SINET5这种全闭合的网络拓扑结构能够提供高性能、可靠、SDN友好的主干网络架构。
同时,我还是东京大学技术研究所的教授。现在是信息爆炸的时代,自2012年起,大数据受到了广泛关注。在科研领域,数据科学是优先级很高的科学,关系到其他学科的研究。在数据科学中一个真正“大”的大数据是科研数据。
我曾经做过一个很大的IT项目,叫Info-Plosion,有超过500名研究人员参与。这个项目针对数据爆炸时代的IT基础设施进行研究。曾经有记者问我:“数据爆炸和大数据有什么区别?”我觉得差不多,所以说其实大数据对于日本和欧洲业界来说,已经不是新鲜事了。
中国移动苏州研发中心大数据部总经理,高级工程师钱岭在主题演讲:《大数据研发历程的回顾和思考》
中国移动苏州研发中心大数据部总经理,高级工程师 钱岭
中国移动苏州研发中心大数据部总经理,高级工程师钱岭在主题演讲《大数据研发历程的回顾和思考》中分享了一个大数据实践者所走过的历程,主要包括三方面内容,(1)对大数据理解的变化;(2)大数据实践历程回顾;(3)大数据发展方向思考。
一路走来,中国移动苏州研发中心对大数据理解在不断深化。2007年,将大数据称为大规模并行计算、云计算。2010年之后,大数据被按照3V~7V来定义。3V,即规模大(Volume)、种类繁多(Variety)、处理速度要求高(Velocity)。而到了2014年前后,开始跳出技术的视角来审视大数据。除了继续关注技术外,开始关注大数据源、大数据工程师/科学家、大数据服务、大数据“众包”、大数据咨询。2016年,则开始以数据为中心来审视大数据,并将数据形象比喻为管道中的水,其汇聚到数据工厂,自动可视化,展示用户希望的信息,告诉用户潜在的规律,甚至智能地完成工作,这也中国移动苏州研发中心大数据平台正在做的工作。至此,中国移动苏州研发中心对大数据有了更全面的认识,用一个公式表示便是:大数据 = 业务 + 数据 + 平台 + 算法,所有大数据工作也将基于这四个方面展开。
伴随着对大数据理解的不断深入,对大数据的实践也在不断前行。2007年,从学习Hadoop入手,进入大数据领域;2008年,深度改造开源软件,目标是商用产品;2009年,跟随开源社区的发布,但是依然深度定制;2010年,以大云1.0为起点,正式开展商用部署;2011~2013年,每年发布新版本,并增加新“产品”;2014年,重新规划大数据产品体系,引入管理平台。而这个过程,也走了很多弯路,大多是因为开源社区、自主研发两大技术路线及技术驱动、需求驱动两大研发方向的选择偏差导致的。当前主要选择了基于开源,技术驱动的研发方式。
以下为演讲实录
各位嘉宾上午好!我来这里也不是一次两次了。刚才两位嘉宾也介绍了一些比较严肃的课题,这些课题可能涉及到精准医学,也涉及到天气预报或者自然灾害的防治,这些问题我想现在可能不一定很好的解决方案,但根据技术的发展和这个业务的进步,一定会找到一个很好的方案的。正如我们自己是怎么样通过这九年以来一点点什么也不会,到能做很多的事情。
我今天的汇报分三部分,一是对大数据理解的变化,为什么讲这个呢?因为这个会直接影响后面的研发方向、工具选择或者研发的思路。二是讲一下到底踩过什么样的坑,取得什么样的经验。后面是什么样的思考和想法。
对大数据理解的变化
这件事,我们开展得很早。2007年初的时候开始关注云计算,但那个时候我们并没有叫大数据,那时候也没有这个词。那时候称为大规模并行计算或者云计算,因为主要的研究对象是跟Hadoop相关的事情,Hadoop本身是云计算的技术,并没有用虚拟化技术,而是用队列和槽位作为逻辑资源来调度任务。那个时候用13台计算机来进行排序或计数,那时候成立了一个小的团队,他们开始阅读Hadoop整个系统的源代码,那时候版本是0.16版本。
就这么过了好多年,Hadoop是研究实验为主,2008年之后发现大数据慢慢成型了,但还是以云计算的名义发展,2010年之后提出三维、四维。我们自己做这个事的时候,考虑了为什么要做这个研究?因为很难说服我们公司里面的直达部门,他们觉得IOE架构也挺好的,但有两件事做不了,一是大数据实时处理计算,那时候云计算虽然不太多,但公认的是数据库做不了。第二,非结构化数据的管理,但后来做了很多的扩展就可以支持了。2013年对大数据的理解也是一塌糊涂,每个人都在做,但都不知道为什么要做大数据,那个时候本质上都在做云计算,其实没有人考虑行业应用的这些问题。
2014年前后我们也开始考虑这个问题,什么是大数据,开始跳出技术的视野,因为以前总是集中在Hadoop这个领域,或者流计算,数据挖掘,始终认识上是片面的。后来我们从数据源、大数据技术和人这几个维度关注大数据到底是什么。数据源就是数据的来源,技术我们也做了很多年,人就是大数据科学家。当时有一些企业把大数据科学家定义为CIO、CEO,此类评级的角色能做很多的事情,能决定企业的发展方向,现在看来也都是泡沫。
在大数据技术与数据源的交界处(见上图),如果一个企业拥有数据源也有大数据技术,可以做大数据服务,把数据加工一下作为产品卖出去。第二是人和大数据源,可以做大数据众包,像一些图片、视频、语音识别,都是用大数据众包来潜移默化地影响这些产品。如果有大数据技术和人,可以做咨询相关的工作。
这里有三个误区吧,第一个误区是对V的过于强调,大家总是关注数据量大,快速,样子很多也不准确,忽略了高性价比的系统。所以那个时候有一个情况,有点什么小需求很可能就要建一个很大的数据中心集群来满足数据的采集,然后把它做成报告。我算了一下这个报告一年二三十万,可投个集群一两千万的系统设备,当时并没有人考虑这个性价比,所以为了满足独立的应用目标,我们做了点状应用。带来问题是投入比较大,数据不能共享,资源不能共享,造成成本的经济效益都比较差,没法长期的做一件事。在开始泡沫期鼓吹,到真正用的时候用不上。混合部署,我们后续产品的设计或者业务的发展也是以混合部署作为最基本的基线做的。
第二个误区是数据和应用是紧密结合的,这也是我们在找业务的时候发现的重要问题,往往在比较长的时间里,因为大数据充满了神秘感,谁也不知道能干什么事,一想大数据很大,反正也不知道怎么用。问题是数据的需求到数据的挖掘周期特别长,像移动做秋季营销,学生入学需要做营销,如果这个营销两个月前提出需求来,看后端能不能配合,就开始取数据。往往营销活动都结束了,数据还没弄完了,这种情况会造成很大的影响。这样没有一个简单的工具层面的东西,或者平台层面的东西,能满足一线用户的需求,我们认识这个响应速度非常慢,也是一个非常重要的问题。
这一块其实人家定义都很清楚,只是我们理论不够深,是说要有一些创新方法来解决问题,什么是创新的?还是观察一下成功案例。在成功案例里,最终是为最终用户提供了简单易用的自助数据分析工具,我们是给用户提供开发平台,而不是给开发人员使用的。
第三个误区,很多人误以为Hadoop软件免费了,再也不用操心了,其实不是,还需要很多的优化。我们很多的传统行业都是厂家干活儿的,他不关注系统优化,你给我多少钱就走了,就缺乏这个持续优化,确实大数据特别是开源产品,如果缺少这个,那业务无法持续发展。我们做过一个实际比较,优化前是什么效果,总说需要优化,还有一些眼边的数据,全部抓过来,为什么不精简呢?造成系统覆盖很高,需要扩容,全是假象。这给我们另外一个启示,这个东西很多实验表明需要自己干,而是说移动自己的人,比如用户自己需要有这个能力,他去做一些优化、判断,这样能解决很多的问题。
这三个误区进一步的思考,我们到2016年的时候开始做新的思考。大数据到底是什么东西,如果不清楚的话我们也很难推广我们的技术,也不好定位。一是中国移动的大连接战略,这个战略是今年才提出来的,主要目标是不断拓展连接的广度和深度,做大连接的规模,做强连接的应用数量。计划是到2020年的连接数量要超过2015年一倍的水平,那也就意味着连接数量快到头了,那就需要考虑到车的身上,猪、牛、羊的身上,可能不会打电话,但是需要连接,这个连接对移动来说需要做营运,但对做大数据的人来说就是大数据。任正非也提出来,假设数据量的流量会变粗,变的像太平洋一样粗,如果真的这样的话,华为就押对这个宝了。连接,一个是终端的问题,第二个管道的问题,西安提出“云管端”,我们可以预测电信行业、通信领域,包括其它也差不多,在这种强烈的需求驱动下,会把数据量越做越大,大到什么程度?我们认为如果超过一定程度以后,你去分析的数据或者寻找数据的难度越来越大,什么是大数据平台?什么是大数据中心?大数据中心我们认为就像一朵云似的,数据就像管道上的水,汇聚到工厂,自动可视化展现用户需要的讯息,告诉用户潜在规律,甚至智能化的完工作。
对于可视化这部分,现在我们的理解是让业务人员去做可视化报告,工具过于复杂根本不切实际。展现用户需要的数据,你不去做挖掘至少去做统计分析,把信息呈现给用户。告诉用户潜在规律,这个规律你需要做数据挖掘,是数据信息向知识性发展,这里面数据挖掘算法我们做了很多,但发现用户不太会用,这又回到前面误区二了。最后是智能化工作,这样对大数据就慢慢清楚了,把这个再细化一下变成四个东西。
大数据是什么?大数据是业务+数据+平台+算法。
业务:内部有BOM、采购、内审、信安、人力、财务、基建。外部有金融、政务、互联网、旅游、交通。
数据:内部有互联网、政府、交通、政务、电信、联通。外部有BOM、视频、音频、尤其DPI数据。
算法:结构化数据——三大类挖掘算法机器学习;非结构化数据——NLP;多媒体数据:深度学习。
平台:大数据平台,架构——两域四层,采集、计算、存储、能力开放、供给、管理、运维、安全。来源——开源、自研、商业软件。
大数据就是业务+数据+平台+算法,在这之后的事情所有的开发工作或者研究工作都会基于这个思维开展。
大数据实践历程回顾
2007年我们从学习Hadoop入手。我们用的是0.16版本,后半年0.17点版本出现的时候,Hadoop已挺烂了,现在看来谁敢用它做商业版的话,这是吃了熊心豹子胆的。第一,成熟性比较低,第二,资源隔离也比较差,但是解决了可扩展问题,后续开展了大量的实验室测试工作256~1024节点,获得大量经验。
当时规划的几项工作都转了后续产品,但是并不那么一帆风顺,其中大规模计算管理系统孵化成为云计算集群管理系统,成为通用的系统。大数据平台Hadoop、搜索引擎SE、大规模计算管理。
2008年,深度改造开源软件,目标是商用产品。Hadoop-NN HA、HBase-Master HA,SQL over HBase数据挖掘算法并行化等特征性在2008年都是大大超前于社区的,进而形成了自己的发行版和相关产品。
2009年,跟随开源社区的发布,但是依然深度定制。随着社区的成熟,Hive等新开源软件的出现,调整技术路线继续研发大云SQL Over Hadoop、Parallel Data Mining、Search Engine,内部发布0.5版本,并且在上腔、江苏等省公司开展实验试点。效果优于传统的IOE系统。
2010年:以大云1.0为起点,正式开展商用部署。经济试点,定义了四项大数据产品(并未将Hadoop看作独立产品),可以开展点状大数据应用,Huge Table在中国移动第一朵云,“WAP彩信双业务云”获得商用,承载WAP和彩信系统生成的日志数据,用于后端查询分析。
2011~2013年:每年发布新版本,增加新产品。陆续引入了图计算、大数据平、NoSQL数据库,内容分析和知识库等五项产品/原型,并将Hadoop作为独立产品,与若干单位合作Hadoop开源社区,支撑盘古搜索上线,在福建、辽宁等省公司获得点状应用,一直到大云2.5版本。
2014年,重新规划大数据产品规划体系,引入管理平台。孵化成立苏州研发中心,重新定制跟随开源社区的技术路线,规划两域四层的产品体系,针对性开展研发,启动大数据管理中心(BC-BDOC)产品,整合现有各种点状应用,并提供更多的能力开发能力,同时开展围绕数据的开发。
这些年我们也走了很多弯路,主要有几个方面引起的,一是技术路线选择上出现了偏差(是开源还是自主研发),我坚信一点,这一走过的坑在人工智能和区块链一样会出现,只不过是深浅的问题。在技术路线上的选择,最终建议跟随开源社区的方案来做这个事情,所以我们也看到很多的缺点,第一,跟随开源社区,投入少,启用快,只要一个小组研究它的代码就好了,很快就可以把这个系统全整明白了,具有很快的交付能力。出现问题的话,因为它开源也可以独立解决,如果实在搞不定也可以找社区解决。缺点,开源软件很大的问题是质量良莠不齐,要做很大的测量工作。还有一个问题,掌控需求和研发计划能力非常弱,虽然社区里有一个里程碑,但里面是这些开源企业自己开户需求的里程碑,并不是我的客户的需求里程碑,研发计划也是照它的来的,所以有时候不得不用其他的需求解决这个问题。接口上也有很大的问题。
自主研发优点是容易控制节奏、需求,但缺点是投入很大,启动也很慢,至少做半年到一年才可以做出一个好的东西来,还有相关的配套等一些东西。
技术驱动就是解决某一个问题的,很容易立项,但那个跟其他产品界限也非常清楚。缺点可能不是业务需求,不能落地。所以我们早期是自主研发驱动的,后期是业务驱动来孵化这个产品。
大数据发展方向思考
最后讲一下思考吧,有的未必是很成熟的思考。第一是商业模式的思考,讲了半天大数据怎么挣钱,我们发现大数据的商业模式逐步清晰,一般在生态圈里为了扩展自己数据的维度,提升价值,一个单位通常既是生产者也是消费者。所以我们现在也开始跟一些有优质数据的客户开始交流,看看能不能交换数据或者采购数据,来弥补我们数据的不足。这样的话就会在六种商业链之外形成很多复杂的商业模式组合,一开始是工具和服务提供商,运营在线大数据工具服务,提供API或者DAAS服务,运营免费大数据服务+后向广告,运营收费大数据服务,像舆情分析;运营大数据交易市场。
下面是我们对大数据系统的演进历程的判断。
(1)数据:种类不断增加,集群数据接口大幅度增加,希望最终形成多数据管理、上下游关系;
(2)集群功能不断增强,最终会从点状应用整合为统一大数据平台,从离线转向实时;
(3)数据规模不断增加,集群扩容能力不足,最终形成多集群统一管理的架构。
我们对大数据产品体系和解决方案总揽,目标是构建健壮、可扩展、开放的,功能丰富的大数据平台,基于开源、MPP等软件,面向公司内外提供DaaS、PaaS和SaaS服务。
说一些相当重要,但是不太成熟的大数据技术举例。
数据安全:大数据安全需要哪些特征,如何与大数据整合在一起,如何提高效率,如何解决真实的业务需求。
人工智能,人工智能算法目前应用领域还集中在互联网领域,点状系统,成本也较高,如何形成统一的大数据能力,和与海量数据结合,如何为业务服务。
可视化:如何在现有图表呈现之上,艺术设计之下的空间中寻找合适的可视化技术,便于算法结果的呈现。
很高兴和大家一起关注大数据过山车的起起伏伏,谢谢大家。
科大讯飞大数据研究院副院长谭昶:《讯飞大数据的实践与思考》
上午最后一位演讲嘉宾来自科大讯飞大数据研究院副院长谭昶,他带来了《讯飞大数据的实践与思考》的主题分享。他从语言谈起,分享科大讯飞在大数据领域的实践,他表示目前科大讯飞依靠海量实时的语言数据,目前他们的大数据技术已经在精准营销、个性化推荐和智慧城市方面得到广泛应用。
对于讯飞大数据能力平台Odeon他做了详细的介绍,他表示平台自2010年上线以来,目前日增数据达到100TB。另外,结合讯飞大数据与人工智能技术构建的讯飞DMP平台。已经完成人生阶段、行业偏好、购物兴趣、媒介兴趣5个大类1700个子标签的用户填充工作。累计覆盖12亿终端设备。
随后,他重点介绍了讯飞大数据技术在金融、游戏、教育、交通的应用实践,通过实际的应用他也分享了科大讯飞在大数据领域的思考,包括服务形态、市场变化、生态体系、技术需求。
科大讯飞大数据研究院副院长 谭昶
以下为演讲实录
在座的各位专家,大家上午好,我简单介绍一下科大讯飞在大数据方面的一些实践工作,以及我们对这些实践工作所产生的一些对大数据的市场以及技术发展的思考。
首先大家肯定会问科大讯飞,一家人工智能的企业,怎么去做大数据呢?你在大数据能做出什么独到的东西?我们首先从科大讯飞最擅长的也是大家最熟悉的语音识别的技术开始谈起,现在的语音识别技术已经全面转向深度学习,也就是最典型的人工智能一种代表性的研究方法。在这个模型之上怎么样把一个模型训练成一个好的语音识别的模型?一个语音识别的工具?实际上是需要很多的工具的,这个数据刚才也有提到的,多媒体数据,非结构化的数据。这样的数据进入识别的模型之中我们可以得到一个非常好的模型,这个模型好到什么程度?我们在讯飞开放平台上大家现在可以享受到每天30亿次,准确率高达97%的识别率,可以实现实时的语音转写和翻译功能。
这里总结两句话,简单提一提大数据和人工智能的关系,也就是讯飞为什么做大数据的解释。大数据可以让人工智能更加智能,而人工智能将会让大数据更有价值,因为很多以前没办法分析的非结构化、多媒体的数据已经可以被数据被梳理了。
讯飞在大数据方面做了哪些工作?我分为大概三个类别,第一类是人机交互,在人机交互方面通过讯飞开放平台、讯飞超脑提供了大概8.9亿的人工智能的服务,有一个非常好的讯飞输入法,可以实现一分钟400字的语音输入,并且识别准确度非常高;另外一点是讯飞在教育上的努力,讯飞服务了全国近一万所学校,提供了非常多的个性化学习,减轻老师的人工阅卷工作;还有一点是智慧政府,讯飞本质上是服务性的公司,在政府方面通过大数据的融合技术、生物识别的手段,实现了政府服务效率的提升。当然讯飞在汽车或者医疗方面也开展了一些研究性的工作。
讯飞从2010年左右开始做语音云平台,从那时候开始真正拥有互联网上用户的大数据,这个数据资源现在是什么程度呢?我们在用户方面大概8.9亿的用户,3.6亿的输入法用户,在其它领域还拥有非常多的非互联网数据。这个包括和运营商的合作,比如中国移动、比如在智能家居、智能汽车的数据,在智慧城市和政府方面的合作数据,这些都是非常多元的,非常有意思的数据。这些数据通过生物识别的手段,你的声纹、人脸的识别可以做到数据非常真实可靠。
当然这离不开内外公开的服务,也就是讯飞语音云,达到日30亿次的服务量,我们2010年开始做的,做的比较早,上面的用户也是最大的。最关键的是这里面聚集了非常多的开发者合作伙伴,像高德地图都有一些实际的应用。
有了数据还得有处理工具,最典型就是大数据的分析和服务平台,我们这个平台内部叫Odeon平台,奏乐堂。这样一个平台目前规模不大不小,应该说在国内算是比较中等的平台,400台机器,日数据的增量大概100TB左右。我们在这个平台上做了非常多的工作,比如现在Hadoop的工作平台下,尤其非商用的环境下,数据的隔离和权限的应用是没有人做的,我们在这方面做的非常多的工作,为了平台数据的隐私保护和安全的保护。当然我们现在也没有看到哪个平台能把基于人工智能的数据处理能力整合到平台内部来,这方面我们在做一些尝试和实践工作,因为这里面最主要需要处理的数据就是语音数据,这个语音数据怎么样转化成可处理结构化的数据,转化为真正能使用的一些数据的价值。我们在这里对于机器的GPU的整合以及进一步的深度学习的算法模型整合,做了很多的尝试工作。
最后一块是我们这个平台,像刚才讲的智慧城市以及教育方面做了大量私有化部署,这个私有化部署是为了我们的客户提供一种私有化的数据安全保证、数据隐私保证的服务。我们的团队现在还不算非常大的团队,讯飞六千多人,做大数据的团队一百多人,但讯飞是一个从高校里走出来的企业,所以和非常多的高校有很好的合作关系,像清华、科大,我们通过高校对前沿的大数据进行做了很多的跟踪和相应的实践,形成比较良好的产学研的循环和提升的关系。
下面简单介绍一下讯飞在三个领域的一些具体的实践工作,希望和大家能产生一些共鸣或者共同的研究和交流。
1、精准营销,是大数据最早最成熟的应用领域。
2、个性化学习。
3、智慧城市里做的我们对智慧城市的一些理解和实践工作。
精准营销方面,大家都知道这是一个现在成熟的模式,最重要的一点是你要有自己用户的画像平台,也就是一个数据的DMP平台,这当然可以整合外部的数据也可以单纯使用内部的数据,既可以为自己精准营销服务,也可以为外部其它企业的数据需求服务。这样一个服务平台过程中,最重要要发现它的核心价值在于对你用户的分析、挖掘以及获取和引导的作用,它的导流作用最后是直接变现还是对用户的广告点击上,最终我们想做这件事,目的是为了产生真正的价值。讯飞因为在这个领域起步其实是比较晚的,我刚才讲2010年才开始做这个工作,这个工作里战略是非常清晰的,一定让用户的数据产生实际的价值,而不是单纯的积累起来,或者单纯的对外讲我们有很多的数据但它不能产生价值。
怎么样产生价值呢?现在用户8.9亿,累计用户12亿,产生了1700类的标签。这样一个平台不仅仅对内部的讯飞广告平台提供服务,也为第三方的精准营销提供数据交换和数据查询服务。
这里面我们用了一些比较有意思的人工智能的技术,做了很多标签精细化的工作。在自然语言理解方面,因为我们通过输入法、开放云平台服务,产生了大量短文本的数据,这种短文本数据的挖掘中,使用了一些人工智能的技术产生了一种非常精细化的标签分类。比如说对于购车和有车的人群,这样的分析就非常有趣。比如说基于声纹做了男女性别的划分、年龄的划分,这样是基于用户传统的行为数据或者日志数据的话是没有办法得到精准结论的。
当然在变现方面也做了一些工作,比如金融领域对用户的1700类标签进行梳理,之后进行广告投放。我们已经把我们自己所有的数据转化为实际的生产力,实际的商业价值。还有一块是游戏领域,我们也做了很多的工作,尤其是用户的年龄分别或者性别的判断,对这个游戏定图的效果,会产生非常大的效果。
第二块工作,是我们在讯飞教育领域的大数据工作。教育领域有Mooc或者智慧校园、智慧班级,我们更多的为学校、教育主管部门一直对学生的成长过程进行数据的采集和分析。非常重要的点,一是怎么样用人工智能的手段搜集到真正的教育过程数据,二是怎么样把过程数据转化为学生学习过程中的进步和优势。我们可以看到,我们在这里讲到一个全学科的智能阅卷。我们都讲学生的教育数据往往是隐藏在他的作业、试卷、一系列的学习过程中,那这个学习过程往往是非电子化的,没办法采集的。MooC现在的手段把所有学习过程全部上网,上网就能采集到数据。但中国的经济发展水平不可能完全做到无纸化,怎么样提供这些纸质材料的数据?我们提供了一系列的解决方案,所有试卷的高速扫描以及电子化的工作。扫描谁都会做,人工智能已经解决这个问题,不需要让人判试卷,不仅仅可以阅卷答题卡上的答案,可以让机器判作文、主观题、阅读题,这样一个过程做了以后,我们在英语的考试、国家教育中心的一些合作过程中,已经充分验证了机器阅卷的能力已经超过了传统意义上的人类专家。这样一个阅卷过程可以把整个学习过程中的过程采集变成现实,全量采集。
数据已经有了,我们用人工智能手段解决了非结构化学习过程的采集,下一步是解决非结构化的过程数据变成你的学习指导,变成你的个性化的家庭教师的过程。假设一位同学小明在一场考试中做出他的成绩,成绩的情况以及薄弱点,都经过简单的分析得到了结论。下一步是我们发现这些结论需要去补,怎么补?我们可以推荐他相应的课程学习的课件以及老师讲解的题目,以及所有可以做的练习题,按照难易程度,按照知识点的覆盖面精准推送给他,这个推送听起来和我们做广告推送没什么区别,但机器学习是非常痛苦的,因为广告每秒钟可以学习一千次,但一个学校一个学期可能只能学习几千次。
最后我们讲一下我们在智慧城市或者政府服务领域做的一些工作。政府服务有一个非常大的问题,以前的信息化服务政府是怎么做的,一套一套的信息化系统,数据孤岛建起来。但现在发现问题了,这些数据如何打通,我们看到很多方案,两两之间的解决不是我们做IT的人想要看见的,一定是新型的有中心的网络,全连接的网络,这样的网络肯定离不开政府的数据中心。这之后还有一个软的数据标准,数据共享的标准,数据交换的标准以及相应的政策支持,这些工作都需要有大量的投入,大量的精力、人力,而政府是没办法做这些事情的,需要有很多的企业服务这样的工作,为政府建立政务数据流通和交换的生态系统。
有了这样一个共享交换的平台之后可以做到什么样的程度?讯飞在安徽省内做了很多尝试和实践,结论大概是我们可以把原来的典型的政府服务的办事窗口从10个减少到2个,并且工作数量不受任何的影响,而且效率可以大量的提升,因为原来公文流转的速度变成在平台上的直接交换。打通之后可以实现任何的材料不需要上传,不需要你去证明我妈是我妈,所有的办理都可以在秒级的时间授理,一站式办理。
还有非常重要的是市场环境监管,我们说如果你把数据打通了,原来分散在公安局、税务局、工商局的各种企业数据可以进行全面的融合和共享,这个共享之后可以像对互联网的用户画像一样做一个企业的画像。这个企业画像我们可以对企业之间的社交关系,也就是投融资的关系。对企业整体的标签化分析,对于企业重点的奖惩信用方面的分析,都可以做出相应的数据化的分析,这个分析的结论最后可以用在整个政府的监管过程中。这个监管过程中不仅仅可以做到实时的监督,还可以联合执法、惩戒进行管理,这样可以使得市场环境变得更加优良,大家可以享受到更加好的政府服务。
最后一块是我们和安徽省内的运营商进行的合作,也就是说怎么样去把城市里面的地理信息数据变成城市交通的疏导和管理工具。这样一个数据,通过任意一家运营商,这个数据它的精确度很差,我们需要用很多的手段把数据的精确度,变成非常精细化的轨迹分析数据,这样的数据经过分析之后我们可以得到什么样的东西。我们可以得到一个城市的交通情况,我们不需要任何在线的浮动车,不需要任何的探头就可以得到实时的交通情况。
还可以做更加精细化的工作,因为我们是分析每一部收集,在匿名化条件下的移动轨迹,如果任意选择一个区域或者一个路口,我说我想看一下这个路口一个小时之内有多少个移动设备经过了这个路口,以什么样的速度,走哪里轨迹。每一个白点代表着一个移动轨迹的移动,整个移动轨迹全部整合起来以后,可以看到导致路口拥堵的车辆来源于哪里,到了哪里去,他们的聚集、分析以及进一步的疏导,可以基于这样进一步的统计工作进一步的展开。
我们不仅仅可以看到单个的轨迹还可以看到人群的聚集,这个人群的聚集可以是一个热点区域里他们有没有发现拥堵的情况,有没有发生踩踏事故的风险,这个风险一般可以提前20~40分钟进行预警,这样预警就可以避免很多公共安全事故的发生。
还有是城市的交通和规划的管理,如果把一个城市按照行政区划进行精准划分之后进行OD分析,这个OD分析可以判断一个区域是商业区、居住区还是工业区,可以进行精准的定位,这个精准定位对城市规划也是非常有价值的。
因为讲了很多的实践工作,我们做了很多工作都是为了实际应用,为了产生价值。最后简单介绍一下我们讯飞在2010年开始做大数据,到现在为止这个过程里,我们大概对整个大数据产业有一个样的认识和定位,我希望把这个定位分为四个层次,一是做技术,大数据技术方面现在产生了什么样的需求。二是大数据生态体系发生什么样的变化。三是大数据所面临的市场在发生什么样的变化。四是大数据最终对最终用户(无论To C还是To B)的服务形态应该是什么样的。
第一是做技术,大数据技术方面现在产生了什么样的需求。我们讲大数据的技术,这里不提大数据的平台技术,更多的是讲大数据的分析和挖掘技术。大数据的分析和挖掘最基本的统计查询我们已经做的非常好非常成熟了,再往上做理解和搜索,做未来的预测,这个工作现在越来越难,越来越难以用最简单的统计分析的方法或者统计学习的方法来解决了,我们说用机器学习的方法,用深度学习可以解决非常多识别的问题。不仅仅可以识别他是好是坏,还可以直接做端到端的学习,从语音转化为文字,你可以做更多的理解和搜索的工作,以图搜图,以及以自然语言来理解他到底表达什么样的含义、情绪。甚至深度的预测,预测未来交通怎么样,预测未来天气怎么样,这样的过程是大数据和人工智能发生非常紧密的联系,我们经常遇到政府的需求或者客户需求就是说我需要解决图片上多媒体上一些具体的分类、识别的知识提取的工作,找到我们大数据,我们讲这里面会用人工智能的方式解决它。
第二个层面,我们讲生态体系。整个产业生态现在在发生什么样的变化,刚才钱博士提到了整个产业生态现在是越来越分工明确,越来越发生更多的交换和跨界,我们讲这个层次上现在更多的工作,一是数据的收集和采集,二是谁能提供好的数据分析和处理工具。三是谁能运营这些数据进行交换、加工,这三个层次都是不产生价值的,它是供给大数据能力的。最后一个,谁面向最终的客户,谁需要大数据的分析产生的知识,谁需要基于这些知识产生价值,最终是各种的应用以及数据交易,最终是需求侧来产生价值的。
这样一个过程里现在很多的企业都在找自己的定位,讯飞也在找这样的定位,你到底能提供数据,还是提供技术,还是交易的策略或者运营的方式,最终去做应用。现在从顶到底做烟筒的已经不受欢迎的,更重要的是我们在整个生态体系里找到自己的定位。
第三,传统产业大数据市场尚待深挖。这里引用阿里的图,但我们还要看到这个市场的左下角,还有一块非常明显的蓝海,虽然是蓝海但也充满了危害。你的数据有没有得到真正的采集,这个问题首先在这个市场里就是最重要的一个问题,我们看到它把交易放在这里。还有是应用水平到底在什么程度,这是技术上的机遇但也是风险,怎么样把大数据技术放到合适的市场里产生合适的价值,这一点是希望和大家探讨的。
最后是未来的服务形态。无论大数据、人工智能还是云计算,都是整个IT服务业的一个技术组成的部分。服务,一定最终是说有一个最终的服务形态,这样的服务形态应该是什么样的。刚才提了大数据和人工智能有紧密的联系,互相之间智能化紧密的提高,大数据和云计算也有紧密的联系,最早大数据是云计算发展而来的,分布式计算系统产生了海量数据。云计算和人工智能,讯飞2010年开始做人工智能的云平台,就是为了在数据处理,计算复杂度特别高的环境下,怎么样能提供一个精准的,提供一个真正智能化的人工智能的服务,我们只能说把计算挪到云端,用云端的计算结果来服务客户,服务最终用户。这样一个过程里可以看到三者之间发生了一个非常紧密的联系,你越来越没办法区分人工智能、云计算或者大数据之间,谁是人工智能,谁是大数据,谁是云计算,他们都只是新一代的信息技术而已,这些信息技术最终的目的是为了提供更好的服务。那么这样的一种服务应该是什么样的,它就应该是从海量的数据中能自我的优化,这是大数据的工作,也是人工智能的工作。
它能在日常生活中触手可及,这是能获得数据的手段,这也是能云服务的一种机制,最后它一定是一种智能化的信息服务。
刚才说大数据是从一个高峰到一个低峰又到一个高峰,已经没办法充分理解它了。但我还是想用这句话跟大家共勉,大数据时代不可不为,大有可为,谢谢大家。
美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥:文本大数据分析与挖掘:机遇,挑战,及应用前景
美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥 带来了名为“ 文本大数据分析与挖掘:机遇,挑战,及应用前景”的主题演讲。
期间,翟成祥教授就以下三个问题发表了自己的观点:
- 如果把人看做拥有主观智能的传感器,就不难理解文本数据具有的广泛而特殊的应用价值。
- 若要解决目前机器对文本数据的理解困难,必须加强优化人机合作。
- 提出文本数据镜(TextScope)的猜想,暨集信息检索和文本分析挖掘于一体,支持交互式分析,并通过人机合作加入人类的决策支持。
美国伊利诺伊大学香槟分校(UIUC)计算机系教授 翟成祥
以下为演讲实录
大家下午好,很荣幸有这个机会在这里跟大家交流分享文本大数据方面的一些政策,希望我的分享能给大家一些启发,也希望同大家进行一些讨论,更希望能促进文本大数据在各个行业的应用。
人 = 主观智能“传感器”
首先我想谈一下我对文本大数据的一些理解。我认为文本数据可以看成是“人”作为主观、智能的“传感器”所产生的数据。人观察这个世界并进行消化后产生文本数据,作为对世界观察的报告。
如果从这个角度看,那么人跟其他的传感器会有一些区别:
- 人的观察能力非常强,可以观察所有的事情。人类可以看到整个事件,比如说现在有个大数据的会在北京召开。
- 人存在主观判断。比如温度传感器传出的是一个数字,温度是多少就传出多少度;但是人不一样,人通过感觉,感觉比较热就是热,觉得比较冷就是冷。
- 人有智能性。数据通过人加工以后已经不再是原始的形式,而是已经产生了比较高级的知识。
因此我们可以说,文本数据在所有的应用中都很重要,因为在所有应用领域中都会有人这个传感器在起作用。那么我现在来详细讲一下文本数据特有的应用价值。
正是由于文本数据中间包含了人对世界的看法和自己的观点,因此文本数据是一种可以用来挖掘人的行为、关联倾向的很好的数据源。从人所表达的信息往往最容易挖掘出人对某个事情的看法。
另外,文本数据往往表达了直接的知识,因此即使不是很大的文本数据也有很大的价值,原因就在于它的语义含量和知识含量比较丰富。
文本数据理解困难:必须优化人机合作
想要应用文本数据,就需要解决文本数据理解的困难。
比如这个句子:“A dog is chasing a boy on the playground. ” 计算机理解这个很简单的句子的过程是,首先词法分析,然后看哪两个词是拼在一起的,组成了什么意思,谓词表示的是什么关系。但是我们人类看到这个句子马上会有产生推理,比如你可能会想到这个男孩子很害怕。另外人类会产生更深一层的分析,即语用分析。人说话是有用途的,这句话隐藏的意思可能是要求主人把狗牵走,但是计算机要理解这个层面就非常困难但我们该相信,在未来还是能够达到的
所以总体来说,语义分析的现状还是很浅层的,只能做到句法分析或者实体的语义理解,而比较深层的还不能理解。又比如当处理大量的自然语言的时候,会有错误,有了错误以后往往给下面的应用带来更多噪音,这是现状。
因此我觉得现阶段最大的挑战是,怎么把这些不是很完善的自然语言技术,包括信息技术、机器学习、数据化技术,放在一起能够建立一个比较完善的产品。所谓完善的产品就是这个产品一定是有价值的,这样的例子并不少见,比如Google、百度这些检索,结果并不很精确,但是因为它能够帮助我们从很大的数据中找到极可能相关的数据,所以它给我们创造了肯定的价值。
和检索一样,对于文本分析我们也可以从这个角度去看。我们需要做到的是让人跟机器合作。就像在检索的时候,人给一个查询,机器给相应的文档,人再进一步交互。我觉得这个是关键,如果这一点是关键的,最大的挑战就是怎么对人机的合作进行优化。不是什么都让计算机做,而是让计算机发挥它的长处,让人来帮助计算机。如何将机器作为一个智能系统,和人放在同一个生态系统中综合考量,怎么样优化,这是很重要的。
文本数据镜(TextScope)
同样是感知,我们用显微镜可以看微观世界,望远镜可以看远处的事物。对于文本数据,它能拓宽我们的感知,可以让我们看到隐藏在数据背后的规律,或者让我们更快的看到这个规律,这就是一种比较完善的应用。
想象一下这个接口应该是什么样的,如果我们做成所谓的TextScope,这应该是一个交互式的面板系统,它可以支持很多方面的功能。
用TextScope我们能做什么呢?我本人在参与的一些项目包括:飞行安全方面、精准医疗方面、以及商业的智能分析方面。
普元信息CTO焦烈焱演讲:《数字化转型中的大数据治理架构》
普元信息CTO焦烈焱
全体大会上,普元信息CTO焦烈焱在《数字化转型中的大数据治理架构》主题演讲中通过红领、苏州工业团区政务信息共享平台两大案例分享了大数据治理在企业数字化转型中所起的重要作用。他表示,目前企业组织架构也正发生着变化,如CDO办公室成为数字化企业的标准岗位、数字化企业的数据中心向大数据服务转型、大数据平台由功能化平台向服务化平台转型,而大数据治理是大数据平台服务化的关键。
大数据治理可帮助企业提升管理、提供全新的业务创新能力,而这需要智能化自动化的技术平台做支撑。接着他分享了大数据治理的十二个技术原则,包括统一管理企业资产、自动获取数据信息、识别与管理业务语义、关联业务语义与技术、从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分、管理核心数据定义、为数据标准添加技术属性、随业务持续更新数据标准、数据管理能力服务化。
以下为演讲实录:
焦烈焱:尊敬的各位来宾,大家下午好,我今天讲的主要是大数据治理,我们怎么把大数据资产使用好,能够更好的发挥作用、发挥价值。大家知道现在是数字化的时代,在这个数字化时代,我们的数据来源比以前更广,为什么?我们会看到传统企业政府的IT系统更多是面向内部的使用,产生了这样一些信息,现在已经面向外部使用了,更多行为的信息、社交的信息会变成我的数据。另一方面我们还有很多非结构化的数据,如媒体、视频数据。第四方面包括物联网传感器这样的信息,这样的信息远比以前更多、更广,更加难以管理,我们有这样的信息之后,怎么样把信息管理好,让这些数据能更发挥作用,发挥价值,这是我今天跟大家分享的主要内容。
数字化时代大数据向服务化发展
我们先看一下,在企业、政府里,他们是如何发挥大数据价值的,用了哪些手段。
红领集团,红领集团是做工业4.0比较领先的企业,是以生产男式西装为主的企业,图1是红领集团生产的模式。如果在手机APP上下单,测量师会到你家里拿着布料做定式的测量,测量之后进到版型库,在库里做自动的设计,设计之后做自动排查然后进行生产使用,到红领参观会发现一个很有意思的事情,每个工人在他生产的时候都会从布料里拿一张卡到屏幕上刷一下,上面显示你的订单编号是多少,这套工序要干什么事情。对于红领集团来说所有的订单全是个性化的订单,所有生产都是个性化生产,个性化生产里面它用我们的数据发挥什么样的作用呢,怎么用数据呢?整个的生产流程都是一个数据驱动的方式,在整个男装生产中有两个非常关键的环境,实际上是红领集团用大数据解决的。
图1 红领集团生产的模式
第一个关键点是西装设计,大家知道西装设计就是原来讲的裁缝,一个裁缝根据你身体的样子裁成一个版型,一个非常经验的裁缝只要看我们一眼就大概知道应该裁成什么样子,西装设计非常重要,西装的领子里面衬衣露不到一指,裤子盖脚面一指等等,都有要求。红领集团做的时候发现不可能有这么多版型师,他把以前做的一亿多套数据灌到数据库里,通过这个数据保证再来新的订单可以用机器的方式,可以用大数据的方式,可以给你生成这样一个版型,你到红领车间里首先看到的是是版型师,现在还有20几个版型师专门针对特别高、特别胖的人做版型设计,这些是机器根本做不出来。此外,在版型里还会抽查现有设计的版型是否合理。
第二个关键点是自动排查,生产工序是什么样的,什么地方钉扣子,什么地方挖扣眼,这些都是在自动排查里面进行的,排查也是数据驱动的,会看到在红领生产工艺里面很少有人工审批,各个环节都是用数据驱动的方式在做。
通过这样一个模式,基本上把整个工业的生产线,工业的传感器、工业的车床、用于排查的MES系统、ERP系统、订单系统、物流系统等等通过云和大数据的模式进行整合。在这里面,生产的时候有排查,排查是否有工艺流程、工艺的应用效率是什么样的,都是通过数据驱动的方式。
你会发现它的数据已经不仅仅像传统一样用在决策分析或某一个地方而是整个生产部门都有这样的数据,这个数据怎么来的,怎么管好,怎么让数据发挥价值,实际上就是红领集团做数据管理所带来的作用。我今天分析的更多是在工具管理上工程实践是什么样的。
第二苏州工业园区,最早是我国跟新加坡政府一起做的工业园区,现在自己在独立运营,苏州工业园区作为政府机构,很早实现了机器物理的大集中,机器机械化的设施已经集中起来了,集中起来之后又怎么样,现在政府都会提到我们要做数据的共享,第一步大家想了,我的物理服务器应该要集中,不能每个人自建机房、自建设服务器,光做这个就能数据共享吗?显然不是,苏州工业园要做三库、三通、九枢纽。三库即法人库、企业信息库、个人库、人口库,这个东西一般政府都在做,但是9枢纽和三通就是他们自己在做的规划理想的情况。三通无非是跟政府打交道的业务、居民打交道的业务和跟企业打交道的业务,这个应该考虑来源等问题,所有的应用都在三通框架下做。九枢纽把除了打三库之外的信息做了分割聚类,比如到工商注册一个公司,可能环保对我有要求,工商对我有要求,税务有要求,这些信息从哪里来,可能从九枢纽上面的各种应用来,这里面就是发挥数据的功效。
我们的数据要想发挥价值,实际上数据是非常需要管理的,在数据管理的情况下,组织结构也有变化,很多企业有了CDO,它不仅仅是一个职位,是部门职能的改变,我看到有些企业里面有数据仓库部门、数据管理部门。我看到有些企业已经把数据管理部名字改掉了,叫数据服务部,相当于能把数据能够对外提供的服务。传统以前做数仓的时候,自己做是自己用的,是自己做一些分析报表的,很多都是这样的情况,现在不一样了,拿过来这样一些数据之后,除了自己做,更多是要给别人用,像苏州工业园区讲的,九枢纽是给委办局用的,怎么把这些数据管理好,用服务的方式提供出来是很重要的课题。我自己在前十年一直做SOA,数据治理是很自然的,用企业IP治理的方法把数据管理起来,怎么管理起来?把数据当做一个服务提供出来的时候把数据管理起来,这可能也是数据治理的核心。
作为数据管理部门的一个管理手段,我经常会举一个例子,数据治理这个事情是比较小众的东西,关注的人不是特别的多,但是一旦把这个事情做大的时候,数据治理的地方又势必不可避免,我经常举一个例子,数据治理像踢一场足球赛一样,足球赛更关注运动员是什么样子的,我们做数据的都是为运动员服务的,把球踢进去。其实大家忘了还有一个裁判,数据治理某种角度讲就像裁判,一个足球场不可能没有裁判,怎么提供这样的工具手段让他把裁判的工作做好,这就是数据治理要解决的,当然我们在数据治理的时候解决问题的时候不是简单的用裁判的思路,不是简单的给你定好规格,一场球踢的好不好与裁判有很大关系,为了在进攻鼓励的时候即使犯规也不会催你,裁判怎么让球变的流畅,用这个进行数据治理,怎么让数据变的更好,让业务发挥更好的作用。
我记得过去经常讲数据治理,看书或者看读物的时候发现数据治理讲的是什么?一般都讲的流程是什么,政策是什么,这样一些东西,八大领域,我们会讲要建立数据管理委员会,数据管理委员会在银行应该行长挂帅做这件事情,一方面讲的是对的,行长很重要,要有高层协调。另一方面如果只关注这个地方其实是不对的,我刚才讲裁判,裁判的工具是红黄牌,是哨子是旗,现在裁判要有这样的工具,现在裁判有鹰眼有录像的回放,用这样的手段把裁判工作做好。对于数据治理工作也是一样的,我其实是要帮助业务把数据用好。大家一想到流程、规章制度,大家会想到什么?很多人想到他又给我上套了,又让我额外做了很多工作,如果我们还按这个方式做数据治理是不可以。把大数据时代的数据治理做好的,因为只讲规章只讲流程制度传统情况下还可以,但是现在每个人把数据价值发挥出来的时候,发挥每个人创新的时候必须提供更好的工具手段做这个事情,所以我要把数据当作服务做,把服务暴露出来,治理是把我的服务做的更好,治理本身也是一个服务。把数据治理当做一个服务给别人提供出来。提供什么呢,比如可以把数据地图提供出来,让前端工作人员更容易知道我提供什么样的数据。
大数据治理架构与关键技术分析
接下来,我会讲在实践中我们做了哪些工作。现在我们在做数据治理的时候为什么大家很反感?管理维度讲是缺乏服务化的;业务维度他会觉得数据难使用、难查找,用户说到底哪些数据能够来用,创新到底用哪些东西不清楚,自己的工具链条也很复杂,比如经常说出了一个业务之后我的报表发生了错误,报表数据到底从哪儿来?报表本身的数据可能是倒几次才形式的,最后的源头在哪儿?大家经常说要倒数据的存储过程,查了几个之后终于找到了,原来是这个数据不太对,形成了这样一些问题,本身这样一些工具链就让数据业务的开发、创新是非常困难的一件事情,我怎么能把这样的事情做好。
所以这里我们讲的大数据治理更多希望你的管理水平提升了,业务支撑好,要有技术手段落地,我们作为一个裁判不能只有哨子只有旗,我们还需要有鹰眼需要有回放,需要自动能看到到底哪些球员越位了。传统的数据管理部门,正需要使用这样一些工具手段能够把数据管理的工作做好,而不是说在做数据管理工作时,别人认为给我的业务人员、使用人员、开发人员、运维人员增加了很多负担,而是帮他们把这件事情干好,所以干好其实是需要用技术手段做好,我一直强调要用技术手段把数据治理做好,数据治理本身也是一个服务化的东西,要提供给它来用。大家知道以前数据治理,有很重要的系统叫原数据系统,一个企业里用原数据、数据标准的系统有几个人?传统情况下一个企业不超过5个人用,现在越来越多的功能。这些功能干什么?我们希望你的原数据系统、数据标准系统能不能变成一个服务,这个服务嵌入到每个人的工具里,一旦有数据质量问题,就能发现数据质量问题来源在哪里,一旦发现问题就自动查询有哪些数据,根据这些方式我们总结我需要这样一个平台帮我把数据治理做好,我们后面有大数据的平台有很多这样的数据,前端有很多的业务应用,但大家要知道我的业务应用和我的数据之间是有一定阻抗的,两者之间是不完全匹配的,怎么让他们匹配起来?按照解偶性,中间会有解偶让管理更简单、取得数据更方便。
这里面怎么用技术手段把这个做的更方便,我们总结了12个原则,即* 统一管理企业资产、自动获取数据信息、识别与管理业务语义、关联业务语义与技术、从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分、管理核心数据定义、为数据标准添加技术属性、随业务持续更新数据标准、数据管理能力服务化*。今天因为时间关系,我主要讲前面4个我们的时间和做法:
数据资产是需要可视化的,因为我们知道数据资产现在特别多,我有各种各样来源的数据,我的数据有买的、自动产生的、从网络爬过来的,以前生产数据是不要的,现在红领集团传感器的生产数据也拿出来了,数据量会非常大,这些数据量之间互相传递,实际上是一个知识的传递,也就是说我的一个应用想用你的数据到底是什么样子,实际上是两个知识工作者之间的传递,知识工作者之间要用可视化的方式做传递,我要知道别人有哪样的知识需要可视化,可视化有很多手段,比如知识工作者喜欢的可视化手段是什么样的?树的方式、思维脑图的方式、流程图的方式,所以我形成数据资产的时候会形成数据地图,我的数据地图会用思维脑图、方框图、流程图等等,比如ETL工程师看到的是流程图,看到某个数据导到某张表的某张字段,如果我是业务分析人员,我要从企业流程角度看,企业有八大流程生产流程,订单流程每个流程涉及到的数据是什么样,产生的数据是什么样,做优化从那里拿数据,从企业管理者角度看,是树状的,每个组织结构理由哪些数据,这其实是可视化的数据资产,如果做的好可视化的数据资产是嵌到各个数据应用系统里的。
这些资产要自动采集获得的,技术复杂吗?不复杂,无非是词法语法分析的,Hadoop、Spark的HDFS等等,都需要把数据采集出来形成数据资产或者地图,手工维护的时候就变成很多数据应用开发部门和数据ETL集成部门不会再用你的系统,因为系统对他来说不准确,大家说“你能百分之百采集吗?”我们现在实施的项目基本上接近百分之百的采集,我随便写一个存储过程,你采出来有这个本事吗?没这个本事,但是作为数据管理,我给大家提的时候,比如跟银联做,我的采集达到95%,另外那个5%怎么办?我会说你写的这个不规范,写成这样的代码连机器都不认识,以后人怎么维护这个事情,应该改掉、优化掉、重构掉。第一,我们要强调自动化,但是对于不规范的东西,我们要说出它的问题到底在哪儿,我们认为你的数据资产其实是自动采集的过程,然后形成一个数据的地图。数据质量是从需求开始控制的。很多时候我提需求的时候是不是能跟我的业务原语义结合起来,然后再对需求进行控制,而不是到了设计,开发,甚至到了最后的阶段,需求的时候对质量就应该有一个跟踪,数据管理部门提供这样一个工具给需求团队用得到,然后才能做,不可能让人家做需求的时候考虑到你的问题,这是很难的。这里我们要讲以语言数据为核心,用元素和需求做配套。
同样提供这样一个数据服务其实是更智能化的数据服务,以前我做数据的时候会发现由于我各个原系统和大数据的系统有一定量的限制,很多热的数据是频繁使用的,这些数据不应该每次都再到数据仓库或者在大数据平台里把它抓出来,这样一个热数据就是数据管理需要管理的,需要把这样一些热数据做一些缓存,能够让我在下一次更好的使用。以大运河为例,运河它就是一个渠道,我们在中间的层面它不只是一个渠道,大运河上发现边上有很多湖。这些湖就是对运河渠道水位调节作用的,同样我们也应该有这样一个湖,没有这样一个湖很难把前端的应用用好,刚才我讲的热点数据只是之一,数据的脱敏、安全性管理都是要做的,我们在中间提供了非常好的手段把这些数据管理好,来自很多维度的数据管理好。
管理能力要变成服务化的能力,也就是说你的数据地图可能是对外的API,形成页面的组件给应用用去,你的数据字典要嵌入管理的系统里去的,你的数据标准能不能跟设计连接起来,让人家在设计库表结构、数据结构的时候就能用到你的东西,你本身就应该是服务化的,而不是别人到你的系统里用。我在开发的需求工具里面就能看出业务原语义是什么样子的,用这样的业务原语义写你的需求,用这样的工具把IT的很多环节做一个串联。从这个角度来说我们刚才讲的最重要的其实是把我的数据治理能力服务化,能给很多外界的应用,用系统,让开发者、运维者、架构师用起来。
普元大数据治理架构实践
接下来我会再讲一两个案例,如苏州工业园区的三库三通九枢纽,在三库三通九枢纽实现上,我们做了原数据的系统,以后做操作的时候是通过中间层操作,中间层可以给你提供实时的数据访问能力也可以提供非实时、准实时的访问能力,中间层会对整个数据生命周期进行管理,它从技术实践上来讲更像传统数据的管理系统,通过一个中间层做。有了一个中间层、有了元语义才能做到共享,而不是变成子数据,它是有数据访问处理的能力的。
第二在浙江电力数据自助化服务的平台,这个平台,我分析它可能更像自助查询的系统,但是在自助查询系统里多了一些什么东西,就是自助查询系统里多了业务元语义的查询,业务元数据我也有,我以前做查询的时候放一个备注也能达到这个点。确实是这样的,如果对一个单应用做这样的管理当然能做到这一点,但是当你的数据来源非常广泛的时候,不是每个人都能帮你做这个事情的,所以在你的原系统里,除了有技术原数据之外,更好的要把业务原数据提供出来,这个不应该仅仅使用手工维护的方式,而应该用搜索这些方式,从规范、规则、业务政策把这样的业务原数据提供出来,不可能百分之百,但是如果做出百分之七八十已经解决非常大的问题了,做到百分之七八十已经能够把数据管理的流程打通了,已经能够帮助提高大家更集约化使用数据的水平了。
第三个是东航数据的地图,他们数据的部门希望能从支撑的部门变成服务的部门,要给内部其他各个应用提供数据,这个数据到底是什么就是刚才讲的用数据地图分成各个数据的主题,点开看到这些数据到底是分主题是什么,实体是什么,语义是什么,管理是什么样子,用可视化的方式把整个数据资产进行管理,去管理起来。
总结一下今天我讲了几方面的问题,跟大家做了分享。(1)数字化转型,看到苏州工业园区、红领集团的例子非常需要大数据对它进行支撑,支撑过程当中,数据治理是关键,要用技术手段做治理,而不是纯粹的用规章制度的方式做。把数据治理做得好,需要很多原则,对照这个原则是否实现以知道数据治理是不是好。
对于我所在的普元这家公司来说,很多年前我们是做SOA中间件的,为什么做到数据治理,因为本身我们对IT是管理的,管理数据一是方面,另一方面我们现在做的业务系统里很少跟大数据打交道了,以前做交易的人他们怎么跟数据打交道,有一套这样的方法。我们今年做的工作自己会做产品的整合,有新的设计是个云的平台,这个云的平台里大家看到对不同的业务都有管理,有不同的业务、外部业务、手机业务、数据分析发掘的业务,他们的数据管理是要统一的,他们的运维是要统一的,而不是以前在数据线,另外是做数据交易的。我们要做整合。今年做了一个动作,把现在所有的研发都公开了,大家可以看到现在所有公开设计的文档,刚才看到的图上的一些主要设计的工作到底是怎么考虑的,这些设计到底有那些难点,怎么样检查都已经在这里面了。这个平台特别欢迎大家一起提出自己的问题我们一起沟通,一起愿大数据应用用好、管好、发挥价值,创造作用。谢谢大家!
星环科技董事长&CTO孙元浩:大数据技术的最新进展和潜在应用
星环科技董事长&CTO孙元浩带来了名为《大数据技术的最新进展和潜在应用》的主题演讲。大数据技术的软件栈分为分析管理工具、领域级引擎、通用计算引擎、资源管理框架以及分布式存储引擎几项。而Hadoop的发展目前已经有了几大进展:分布式计算已逐渐成为主流计算方式;交互式分析技术日益成熟;数据分析算法逐渐丰富,工具普及化;融合事件驱动和批处理引擎。后Hadoop/Spark时代,新技术在数据量,类型,速度以及价值四个维度上都将加速创新。最后孙元浩表示:2016年是Hadoop技术大规模应用的战略转折点。
星环科技董事长&CTO 孙元浩
以下为演讲实录
非常高兴能参加今年的BDTC大会,我是从2011年开始参加这个会的,2012年的BDTC大会到今天已经第四届了,非常高兴能够再次站到这个讲台上面,我们过去一直致力于Hadoop的研发,也在Hadoop上研发一些核心的技术产品,我们看到技术演进非常快,本人09年开始就做Hadoop的研发工作,我们看到这个市场技术的变迁是非常大的,这里我们做一个简单的回顾。
Hadoop早期是参考了03年Google的论文,06年并入雅虎,雅虎成立一个团队做Hadoop的研发,随后把Hadoop作为互联网的仓库做分析,08年集群已经真正开始在生产系统中使用了,所以我们说Hadoop有十年历史其实是从06年开始算的,从那时真正开始投入在Hadoop的研发。到08年底的时候大家发现Hadoop的技术在互联网公司应用成熟了,开始有一些商业公司成立,致力于把Hadoop商业化,把它应用到除了互联网公司以外的其他行业中去,当时定位在生物信息,后来是在政府、金融这些行业当中。到11年的时候雅虎看到了这个市场的潜力,Hadoop团队出来成立了一个公司,是7、8月份成立的,随后也发布了Hadoop的发行板产品,把Hadoop商业化,仍然是狭义上的Hadoop,包含分布式系统、包含计算引擎。几乎在同时,09年、10年的时候,虽然Hadoop应用当中做P处理比较成功,但是仍然有一些新的公司在开发一些新的技术,希望能够做机器学习,希望能够做高效的交互式分析的引擎,那时候spark出现了,随后大家发现它做机器学习非常高效,也用来做机器分析,到13年时候大家发现这个引擎具备取代m的潜力,14年的时候认为基本上可以取代spark,今天这个引擎更多的出现,经过这么多年,好像真正成功的是做机器学习、流处理。
技术引擎每过几年都会发生巨大的变化,星环是13年成立的,借助Hadoop当时开发一个Hadoop的引擎,当时我认为在Hadoop上开发一个App引擎是错误的,所以我们基于Spark做一个分析型的数据库,同时过去三年当中不停的在演变,在演变当中开发机器学习的产品、流处理的产品和信息检索的产品。
整个大数据软件栈分成5层,最下面是存储引擎层,上面是资源管理框架层,其实这三个是演变关系,是替代关系,我认为未来基于容器化的资源类的框架会逐渐取代其他,通用计算引擎这块我们看到mapreduce慢慢退出了Spark还有一定的地位,在深度学习中有近20种深度学习的框架,这里列了一个文档比较好的,大家学起来比较容易的通用的深度学习框架,上面有很多算法我们认为它会具有生命力,当然其他的引擎同样具有生命力,在领域级引擎方面分为七大类,这七大类基本上覆盖了所有的领域,这七个领域如果都做的成功,大数据应用会得到极大的深化。
第一个也是现在所有人投入的,用SQL P处理仓库,tencoficw已经被淘汰掉了。另外交互式分析引擎,做内存的列式存储尽量提升交互式分析的性能,现在发现光用原来的标准的P处理引擎不适合做非常高速的分析,可能需要一个新的技术,这也是为什么我们把它独立出来的选。
第三是做TP的,这里面有机器学习、深度学习、图分析,这七个是具备广泛的适用性的,但是在某个应用领域当中。再往上是三大类工具,主要是机器学习的工具,这些工具是非常广泛的应用,构成了整个大数据的软件栈,这个软件栈跟三年前相比已经出现了非常大的不同,底层下面三层有些演变也有一些革命性变化,趋势上会慢慢趋于稳定,上面两层在蓬勃发展当中仍然有新的技术出现。
进展到现在已经看到有四个定论:
第一个定论我们认为分布式计算已经成为主流的计算方式了;现在我们用Hadoop来做P处理运行TBS、DS,它的性能在TB级上用29台机器也能做到在三四十个小时内完成的。在单秒超过4个TB仍然会有一些问题,但是基于Hadoop的引擎没有局限性,能停留在TB级别,说明Hadoop技术已经可以用来做大规模P处理来做数据库了,当然是很小的部分。这只是一个标志点,我们认为分布计算已经被认为是比传统技术更高效的,性价比更高的方案。
第二个进展我们发现交互式分析技术日益成熟了,我们过去希望把P处理改造成为交互式分析的方式,当时大家走了弯路,大家模仿SPB数据库开发一个搜索引擎,这种方式虽然数据在内容当中。我们发现文件系统上,仍然需要存列式存储或者交互式分析。这也是我们最近这两年总结的经验教训,发现过去希望是通过一个P处理引擎做Olib分析但是没有成功,之于这些我们发现它的性能仍然有数代的提升,大家可以看到上面是做数据存在HDFS上不建CUBE的,这个访问结果比较少,但是要求速度比较快。如果把CUBE建好以后,发现这个性能提升最低有50倍最高有500倍的提升,如果跟在HTC上相比有几十倍的提升,说明借助CUBE是能显著提高性能的,建造CUBE的成本较高,显著的是固定报表稍微自助分析的。我们认为在交互式分析这一块,现在攻的TPC-H,我们认为这个需要变化才能支持交互式分析的能力,当然现在大部分的厂商还在跑TPC-S我们希望把它引到交互式分析上来。
第三个进展我们认为机器学习的算法,参加每一届的BDTC大会很有感触,每年主题不一样,经过三年发展大家发现数据分析算法丰富了,算法也够用,但是我们发现一个问题,在去年的时候我印象很深刻,去年讨论机器学习的时候大家谈论的是算法很多,大家拼的是算法数量,到今年大家发现两个问题去年也讨论但是没有解决的,一个问题是特征工程,特征工程需要大量的选择数据的指标来喂给算法做建模,这个工具是非常巨大的,没有自动化,所有工作人员大量的花在数据选择上面。这是第一个问题,现在看起来好像可以用深度学习的方法来做,帮你自动选择这个特征。
第二个问过去一直没解决的是算法选择的问题,今年有很多公司包括很多美国的创业公司在开发一些工具来提供自动模型选择这样的功能,它能够自动帮你跑各种模型,描述你的问题是个分类问题还是一个聚类问题还是哪种问题,他会帮你把同一类算法全跑一遍,比较哪种算法的准确度和效率,自动选择一个算法或者组合一个新的算法这也是比较棘手的问题,现在工具出现了,帮你自动化选择模型。
第三个问题是如果分析出来一个结果,做了预测,预测的目的是我能不能改进,能不能反过来影响,找到哪些因素是影响结果的主要因素,这又是更深入的问题,这个问题现在仍然没有很好的解决方法。今天我们看到进展是数据分析的算法已经很丰富了,今年工具也很丰富了,包括星环也提供两种工具,二元的无缝集成,可以做数据挖掘和机器学习,也可以跟midas做无缝对接,所有做的是让机器学习方法普及化,让更多人使用,降低它的使用门槛,这一块基本上成为现实,当然这里面仍然有些问题没有解决,但是深度学习的工具已经开始得到逐渐使用,今年客户当中接近20%的客户在使用机器学习的产品。
- 第四个进展我认为是在实时处理方面有蛮大的进展,过去流处理技术大概分成两大流派,最早是世界驱动的模型,是来一个事件就处理一个,好处是延时比较低但是强迫开发人员按照事件驱动的方式编程,这样开发难度是非常高的,要在上面写一个复杂的统计或者说在上面实现一个机器学习的算法要用事件驱动的方式实现还是有点困难的,所以SQL是换了一个方式,好处是编程模型变成P处理方式比较简单了,缺点是需要等一段时间累计一段数据再处理,延时比较长,SQL延时没有低于300毫秒过,但是对于应用来讲需求最难的是用户希望在非常短的延时之内处理非常复杂的模型,因为应用是越来越复杂的,延时要求也是越来越低的。这样很有必要开发一个融合的引擎,底层可能是事件驱动的引擎对外提供的接口、编程模式完全是P处理模式,能够支持C口重组过程是机器学习,这种引擎才真正能够在应用当中发挥作用,这是我们过去用一年半的时间发现这个是可能解决的,这是基于早期版本改造的,重构了它的引擎,来一个事件,以前的mapreduce是实现,我们发现它是被重构成,以前mapreduce是分成多个streams,现在来一个直接到下一个streams去了,延时比较低,这是比较大的重构。同时对外实现的接口是完整的P处理的编程模型,完全支持标准接口重组过程。这种方式我可以用来实现在低延时,在非常严苛的生长环境当中对传感器数据进行非常复杂的分析,在上面运行预测性的模型,比如用流处理预测风力发电机齿轮叶片的故障情况,是实时采集数据的,在流上做预测的。也可以用在金融行业当中用来做反欺诈、风控。交易所的模型非常复杂,它的BS模型是要在流上求解一个方程,模型是很复杂的,但是要求要把当前一秒的交易融入到从开盘到现在的整个交易的池当中来算这个模型,而且要在一秒钟之内完成,这个要求非常高,所以就需要融合引擎,这是星环比较大的进展,我们已经实现了这样一个融合引擎,也是比较领先于国外的产品和技术,有一年以上了。
总结一下这四个进展我们认为如果是看Hadoop、spark后面的技术发展趋势我们发现,又回到了大数据的四个V上面。我们发现SQLHadoop技术越来越成熟越来越完整,它能够超越传统的水准。这样我们认为在未来两三年当中传统的数据仓库领域会被新技术取代或者颠覆掉,这个工作我们已经在做,而且我们也走在了世界的前面。
第二块我认为发展趋势是在数据类型上面,过去大家在讨论中用非计划数据处理,但是仍然用Hadoop数据存储这些非计划处理,现在随着深入学习框架的出现,我们认为这个应用又带来新一波的高潮,深度学习可以处理视频、图象图像、语音、人机交互、自然语言处理,这些是现在正在如火如荼的发展当中,但是我们认为在这个领域我们国家并没有走在原创型的前列,我们仍然在学习美国人的技术,有两方面的原因,一方面我认为是国外的需求在驱动,让他们在开发引擎。第二是像GOOGLE这样的公司可以动用几十万台机器训练一个模型,它的资源投入是非常巨大的,这也是它能够发展出这样技术的重要原因。随着GPU和SPV的硬件技术,做深度学习、视频分析、图象处理可以充分利用混合架构的或者GPU的计算能力,这一块也是现在一个引进的热点。
第三块方向我认为在流数据方面刚才讲到了,过去流处理技术像steam基本上已经被抛弃了,它还不够成熟,未来肯定会成熟起来,但是方向肯定是对的,大家希望建造融合事件推动和P处理的引擎做实时处理。
第四个方向我认为从机器学习、数据挖掘这一块,这个方向会是借助有成熟的算法、成熟的工具,大家发展的目标是把算法工具能够普及化,能够让更多人使用,发展大数据的价值,会有这样的方向,这个方向会是商业公司做,因为定制化程度会高一点。开源的会少一点。
回过头来看大数据市场,硅谷著名的VC认为传统数据平台会在未来十年之内全部被替换成Hadoop,当然这是它的理想。我们认为有1/3以上的部分会全部换成Hadoop,原来数据的分析软件,传统的软件都会逐渐嵌入Hadoop上面来,他们会进行重构和迁移。整个生态系统日益繁荣,我们划成倒三角形,底下是大数据平台,上面是分析传播、模型可视化、工具等等,再上面是大数据应用,再上面是专业服务和定制开发,我们看到这个市场变的比以往更繁荣,我们也看到技术大会扩展到三天这也是一个标志,我的观点认为2016年是Hadoop技术进行企业进行深化应用的转折点,因为前两年大家都谈这个技术,这个技术还没有成熟,大家都在试用。今年我们发现很多行业的重要客户在应用Hadoop到它的关键系统当中去,像银行客户已经在使用我们平台构造它的完整的数据仓库,已经不再用关联数据库,有客户已经用我们平台构造全行的风险运营系统,这标志着Hadoop已经深入到行业当中已经开始成为某些行业的刚需,我认为这是它的转折点。这张图是预测,它认为未来五年大数据市场将有900亿的规模,我们看到2016年他们也认为增长会加速,但是未来5年市场仍然会保持30%的增速,所以整体的市场情况,仍然是需求非常旺盛的在产生,技术本身也在演变当中。所以对所有客户来讲,大家希望看到统一的标准接口这也是一个需求,也是所有Hadoop厂商的一个诉求是我们能够提供标准的通用化的接口,但是底层技术可能在不同的演变当中,每个层次都有不同的变化,对外提供的接口比如提供在一些通用化的工具上面。
同时技术本身也在飞速发展当中,对技术开发人员来讲仍然有新的技术出现,仍然需要大家创造新的东西解决我们碰到的问题,我们也高性能看到有很多同行活跃在中国各个行业当中在深度开展大数据的应用。
驭势科技联合创始人兼CEO,CCF大数据专家委员会委员 吴甘沙:智能驾驶中的人工智能
驭势科技联合创始人兼CEO、CCF大数据专家委员会委员吴甘沙带来《智能驾驶中的人工智能》的主题分享。他表示互联网的本质主要有三个层面:第一,重构信息不对称的社会格局,建立连接;第二是交易成本最小化,但不是生产成本;第三,惠及长尾人群,但未必产生整体效率的最大化。可以看出互联网在给人类带来便捷的同时也带来了不少的坑。他预测面对互联网挖的坑,只有人工智能才能填。同时,他表示未来所有与人和物的交通相关产业都将被重新定义。
对于智能驾驶到底离我们多远,他强调,驭势科技力争成为中国第一家在2-3年内同时实现辅助驾驶和无人驾驶商业化的公司。但是智能驾驶领域面临极高的门槛,包括基本认知,检测不能撞的障碍物和路面行驶区域、地图和地位、感知像认知的跨越、未解决的挑战包括人工智能的鲁棒性、从weak AI到stronger weak AI。他表示比代码更难的是,是数据以及基于其上的随机算法和机器学习。所以智能驾驶系统需要可预期的置信度。
驭势科技联合创始人兼CEO,CCF大数据专家委员会委员 吴甘沙
以下为演讲实录
大家下午好,很高兴又一年来到了BDTC,每年都来,每年都能够感觉到数据科学作为一个非常年轻的学科它的蓬勃生命力,每年也能感到它有一些新的内涵和外延,我今天讲的智能驾驶,在内涵是数据科学和智能,外延上讲的是应用也就是智能驾驶。
我们每天都有这样一个痛点,堵车导致了路怒,导致交通事故。于是路会变的更堵,然后能源就会浪费百公里油耗上升,于是又有雾霾。另一方面,停车又是一个非常困难的问题,我们今天一辆车96%的时间是停着的,而且需要两个停车位于是需要大量的停车空间,国外做过一个统计,汽车所有行驶里程当中30%-35%是为了寻找停车位,从A点到B点,很多大城市15%以上的土地是用来停车的,很多年轻人只能够居住在远离城市的郊区,于是有了睡城,有了上下班的潮汐效应,大量时间浪费在了路上。
网约车能不能解决?首先要看互联网它的本质,我们认为有三点:
- 它是重构了信息不对称的格局,它其实是通过大数据方法来建立连接,这一点网约车做的非常好,现在打车都变的更容易了。
- 它使得交易成本最小化了,我们的交易成本,无论是金钱还是时间上面的成本变的更低了,但是我提醒大家注意,交易成本降低了,生产成本没有变化,生产成本是由生产资料和劳动力决定的,互联网语言说羊毛出在猪身上但是狗去买单,但是羊肉肯定出在羊身上,这个生产成本不会因为互联网连接就简单了,现在打车更贵了,是因为生产资料车和油劳动力是司机,他的成本不会有太大的变化。
- 互联网能够汇集长尾的人群,但是每个人变的更方便了,不见得意味着社会整体上利益最大化,比如说几十万辆快车或者专车以前是不上路的,现在因为有了网约车他们上路了,导致上下班的时候更堵,这事实上也是可以通过大数据来解决的,比如说现在有了拼车,感觉一定程度上能够改善这样一个问题。但只有中间的生产成本这一块,大数据解决不了,互联网也解决不了。它挖的坑要通过人工智能来填.
人工智能从本质上来说就是把生产资料跟劳动力合二为一,这样才能改变我们的生产成本结构,所以我们认为智能驾驶具有人工智能和大数据特点的,是解决堵车、排放等等诸多问题的方式,未来有了智能驾驶,马路上车是可以分可以分,合也可以合,合的时候大家排的整整齐齐,道路利用率提升了,交通事故减少了。未来如果是出租车的话对于停车位的需求极大的减少了,有时候即使需要停下来,一个小停车位就能停进去了,不像我们今天有很大的停车位,因为有很多新手,停进去还得留足开门下车的余地,未来无人驾驶都能解决。而且10-15年以后汽车长的不像车了,它交通工具的属性不断降低,智能空间属性逐渐提高,在里面放一台咖啡机就变成移动星巴克,放大屏幕就变成电影院,放办公设备就变成写字楼,所以未来10-15年我们相信所有跟人、物交通相关的产业都会被重新定义,包括出租车停车业、写字楼服务业还有物流,无人驾驶车不但能够接人送人而且能够送货,金融业都会得到改变。
无人驾驶离我们多远呢?
无人驾驶离我们多远呢?我告诉大家并不远,预测至2020年带有驾驶辅助和部分自动驾驶功能的车辆会达到每年1500万辆,而且从客户端和政策端看,达沃斯论坛及波斯顿咨询集团对于全球很多城市的政策决定者的调研,88%的人希望无人驾驶能够在未来十年当中在城市里实现商业化。所以作为一家新的创业公司我们希望能够成为中国第一家在两到三年之内实现辅助驾驶和无人驾驶商业化的公司,我们是从车库里开始创业的,大家注意,如果号称是做智能驾驶而不在车库创业就有点耍流氓了。我们有两个产品线,一个是高速汽车的辅助驾驶,如视频是我们的车在高速公路上的行驶状况是国内第一个能够做到100公里辅助驾驶并且能够做到自助超车技术,绝大多数时间是在高速的中间道上开100公里,但是如果前车实在太慢了,忍不住了,一言不合就超车了,开上120公里的快车道,超过车以后自己再回来。
另外一条产品线是无人驾驶,大家可以看到这里面有两款无人驾驶车辆,左边一款特别适合最后三公里的出行,从地铁站出来离家还有几公里,它可以送过去,右面的比较适合园区、景区、主题公园、大学、机场、还有高尔夫球场等等这样的场景,可以看到在我们的研发基地这样的车已经开始了常态化的测试,可以用手机把这辆车叫过来,上车告诉它去十号楼,全程用户界面非常简单。
另一方面单排两座小车,特别适合最后三公里出行的小车也能够以非常轻盈的姿态在这样的场景里走,而且无人驾驶千万不要配一个人维护,所以它有很多很先进的功能比如自动充电,当它发现没电的时候会自己找到带无线充电停车位的地方自己停进去充电。
所有这些都有非常高的技术门槛,这是非常典型的智能驾驶的硬件软件站,从硬件到系统软件再到各种机器学习的算法,从感知,像眼睛和耳朵,到规划是大脑决策系统,到控制,像小脑要控制油门、方向盘、刹车,从仿真、测试、信息系统的安全到远程监控维护系统,非常复杂,今天主要是在上面的部分,主要在人工智能算法这一块。
基本认知,检测不能撞的障碍物和路面行驶区域
第一个非常重要的地方是怎么能够检测不能撞的障碍物,及路面的可行驶区域,这是一个智能驾驶最基本的要求,检测最便宜的、最直接的一种手段就是基于摄象头,基于计算机视觉,而视觉给你带来的就是语义模型,能够检测出来车道线。车道线代表车道说明我们可以在里面走,我们要检测车、检测行人检测交通标志等等,最早大家可以看到就是用简单的机器学习的算法能够检测出来车道线,包括对车道线进行弧形建模,然后检测各种各样的车辆,不仅仅是车还有它跟你的相对距离和速度。还有行人,行人是非钢体所以检测变的非常困难。
还有一种手段通过立体视觉多个摄象头组成的立体视觉形成几何模型而不是语义模型,比如双目摄象头,通过这个双目摄象头我们可以带着深度看这个世界,大家可以看到行人远的时候是冷色调,靠近的时候是暖色调,它给我们带来了对世界的几何判断。更重要的传感器是激光雷达,激光雷达能够更加准确的建立世界的几何模型。
大家可以看到是长线64线的激光雷达,它对世界的感知,树、草地、障碍物、汽车、房屋等等非常准确的对环境进行了建模。GOOGLE第一代无人驾驶车,顶上圆的转盘就是激光雷达,第二代、第三代也有。百度第一代也有,第二代上面也有,这就是最常见的激光雷达,但是这个激光雷达70万人民币,一定程度上阻碍了这样一种技术的商业化。如图是我们的样车,大家可以看到顶上也有激光雷达但是我们的激光雷达小很多,16线的激光雷达,相比64线的激光雷达它的成本大概是1/10左右。但是未来几年激光雷达贵的问题就会被解决了,因为车厂都在启动,订单来了,现在领先的激光雷达厂商号称只要来一百万台订单,它的价钱就可以从今天的75000美金70万人民降到500美金以下。
有了激光雷达有了视觉,自然的想到既有语言模型又有语义模型加起来可以对世界更好的了解,视觉一方面是分辨率高、有色彩有纹理,激光雷达单色激光分辨率比较低但是对场景感知比较准确,把这两个东西合起来肯定更好。基于此我们跟中科院联合搞了博士后项目,方向就是激光雷达+视觉融合。
另一方面在最近这几年激光雷达很显然还不能商业化,这时候就考虑用更便宜的传感器做融合,视觉+雷达甚至是超声波。如图是最典型的一款带有自动驾驶的车辆,主要靠上面的视觉及下面的毫米波雷达,加上车身周围一圈小圆孔是超声波,通过这三种传感器能够更好的感知环境。
但是我想告诉大家这三种传感器本质上面它不能做到百分之百的可靠,今年5月份的时候特斯拉出现了一起致命的车祸,当时一辆长条的卡车在路口转口过程当中开过来,但是它的感知设备并没有感觉到车的存在,于是从车身下面钻了过去,驾驶员当场身亡了。为什么不能感知呢?,今天主要看视觉这一块:
- 受限于光照条件,当时这辆车是迎着晨曦在开,大家看到整个画面过饱和,强逆光导致它对环境的感知发生了一些问题。
- 跟算法相关,原来车辆检测的算法是基于传统的机器学习,基于人工的特征工程,它可以感觉到一辆车它的尾部是几何对称的,有两个明显的车灯,地下还有阴影,通过这样一种人工特征工程来识别,非常悲剧的是卡车是横在那个地方的,所以就没有检测出来。怎么办?
第一个就是增加信号,改进是觉得感知能力,从本质上这是一种大数据的思路,比如通过更好的传感器,通过星光级的传感器能够在微光、强逆光条件下也能够感知,另外调整动态曝光和自动增益也可以,还有通过立体双目摄象头更好的感知环境。如图是双目摄象头对环境的感知。路面上面的所有的静态和动态的障碍物都可以用一团点云描述它,点云是有颜色的,靠近的地方是暖色调,渐行渐远就变成了冷色调,通过这样的立体视觉,通过大数据的方法多个摄象头相互交叉验证,可以更好的感知环境。
还有一种方法就是人工智能的思路,就是通过更好的算法,还是用一个摄象头但是用了深度学习的算法,深度学习大家知道,它的部分再是人工特征,它是一个自动学习特征的过程。通过大量的数据学习就能够在不同角度不同距离,甚至有遮挡的情况下,甚至对一些异形的车辆都能够做很好的检测。如果使用落后任务的深度学习的网络,能够在一个更复杂的场景里面同时检测行人、检测自行车、检测各个角度的车辆,横着的车或者侧向的车都能够很好的检测,这是通过多任务的深度学习的网络能够做到。
这时候想提醒大家一点,今天前20名的深度学习检测,都只能够达到90%-91%的准确度,意味着什么?意味着今天的深度学习还不完美。另外一个深度学习必然会碰到成本的问题,在这条光谱上左边是灵活性很高,可编程性非常高,比如CPU。右边的功耗比较低,每个美金能够买到的深度学习的计算力更大,但是大家知道ASIC把深度学习做死在芯片里面不是我们所愿,因为未来几年算法还会有很大的变化。
另一方面CPU太慢了,就剩下几种。GPU是最主流的一种深度学习的工具,但是在最近几年的辅助驾驶的场景里面可能还偏贵一些。FPGA也非常好,比GPU便宜功耗还低,但是也偏贵。另一方面改动一次算法可能要几个月。现在非常火的就是神经网络的芯片,我觉得是未来得方向,只不过现在还处在早期首先要做出来,做出来以后软件还要足够好,能够充分发挥硬件的能力,编辑器要足够好,接着还要能够符合车规,车上面防震防尘,芯片上要做进一步的改进,再加上一辆车十年生命周期保证十年的零部件供应,最近几年不是很好的选择。当然最近几年就是DSP,但是DSP的计算能力有限,这时候就必须得考虑有什么方法绕过去,比如用传统视觉取代深度学习,虽然在汽车的检测上传统视觉不如深度学习,但是在车道线检测上传统视觉做不得错。第二是采用多任务的网络,一套网络同时可以检测汽车行人和交通标志。第三是模型压缩,或者是对算法进行优化,大家知道今天很多卷集神经网络是基于(Vage),如果能够把几千个V变成一百个,精确对不会受到影响,就是很好的做法。未来开元深度学习的框架对于低成本硬件的支持也会变的越来越好。
所以这里面又有一个认识,引用一下李小龙的话,“最好的功夫并不是击倒对方,而是像水一样柔软和灵活”把水倒到杯子里就变成杯子的情况,倒到茶壶里就变成茶壶的形状,水无常形能够顺应它的环境解决问题,所以我们使用大数据是解决问题。
地图和定位
刚刚说了怎么检测障碍物,检测行驶区域,第二是要有地图和定位。人驾驶靠GPS,GPS定位精度差不多是十米,为什么这么大的误差我们还不会走错路呢?因为人有通用的人工智能,我们有常识,我们有对模糊信息的处理能力我们能容错,而智能驾驶,今天所有的算法都是弱人工智能,意味着需要更加准确的十厘米的定位精度,这里有个认识,今天的智能驾驶的算法只能算weak AI,必须通过各种各样的传感器的融合来弥补,我们选用了一款传感器它能够做到厘米级的定位机构,如图这是我们研发基地,我们从建筑物里出来做了不规则的运动,绝大多数情况下轨迹是非常清晰的,但是右边下部GPS信号出现大量的跳跃,换个时间建筑物的左边信号出现了很多毛刺,这是跟卫星的通讯状况、跟地面基站的插分计算的状况有关系的,所以绝对定位非常好但是并不是非常可靠,这时候要加入相对定位,就是相对前一时刻的位置做了多少位移,这里面通常使用了一种器具叫做高精度惯导,往往用于军事,战斧、巡航导弹这样的武器,我们想用双目也可以做惯导,通过幩与幩之间的位移判断变化,把这些位移集中起来就可以看见轨迹了,它的累计误差是非常小的。
另外一个非常典型的使用场景就是宇宙当中最复杂的立交桥,西直门立交桥,在这个过程当中GPS是不工作的,通过双目摄象头视觉的里程计能够准确的把轨迹把握下来,这是把绝对定位、相对定位融合在一起绕建筑物开一圈,大家发现所有的毛刺都去掉了,但是相对定位还是有问题的,比如在这样一个场景。场景里有很多树很多草,而树叶是会动的,这时候检测到的视觉特征点本身是不靠谱的,这时候我们想到一个办法,每过一段距离竖两块牌子,在牌子上面划一些特殊纹理的特征,开到一定距离检测到这两个特征以后就可以再做次绝对的定位,把我的相对定位的累计误差可以清掉。这是非常有用的,但这个方法在实际应用当中又有问题了,因为有那么多道路,不可能在道路边上都竖牌子,于是我们又想到通过检测交通标志牌的方法做相对定位的误差清楚。学习过程当中通过深度学习不断把交通标志牌检测出来,并且把它跟我地图里面存着的交通标志牌匹配,一旦匹配上就已做出来。
这种方法弥补了相对方法的不足。但是这种方法也有问题,大家在高速公路上行驶每过一里两里路才有交通标志牌,还是存在相对精度累计误差太大的问题。这时候怎么办?地面上还有足够的视觉特征,地面上一边开一边看到很多视觉特征,这样就可以把地面拼出来,拼成地面的图,实际再开的时候,左面是实际看到的小窗口,把这样一个实际看到的图跟地面图做一个临近空间的搜索匹配,这样就能够比较准确的定位到车道里10厘米误差的位置。如果算法足够的棒,这样的情况下车道线并不清晰,地面有阴影,如果足够棒还可以做匹配。
如图是实车的测试,地面的视觉特征能够非常完美的帮助我们做到定位在车道里面而且10厘米的定位误差。这是室外,刚才说室外基础还是有一个GPS信号的,但是室内并不存在,这时候我们又想很多其他的方式,比如利用SLAM的技术,开的时候通过检测这些视觉的特征点,在建图的同时做定位,用地图的定位我想给大家传递的讯息就是人工智能往往有时候算法并不完美,这时候可以通过大数据去解决。
从感知到认知
第三想讲的是从感知到认知,前面讲的无论检测障碍物还是检测路面还是检测现在的位置都是感知,但是下一步要向认知跨越,认知阶段一就是检测那些不能撞的东西到理解整个世界,从检测到理解,比如特斯拉的最新版,在它的仪表盘上第一次把不同类型的车辆区分出来了,前车是双层的客车、前车是卡车最好离它远一点,这是从简单感知到初步理解这个世界。如果要更好的去理解世界,就要对能够看到的整个的场景做全面的世界的建模,大家注意以前只是检测车道线和车,只检测那些在我的数据库里面有视觉特征的东西,但是是有问题的,比如车开到印度,印度路面上有牛在走,牛不会在我的视觉特征库里面,所以类似语义分割的方法变的更加好了,就是把画面每一个象素都赋予一种颜色,贴一个标签代表是什么东西,比如紫色是路面,橘色是车道线等等,这时候我们对画面的每一个点都有感知,都有理解它到底是什么样的东西,能撞还是不能撞。
检测了路面还是不够的,有时候双向路的话只有路面的一部分是可行驶的,这时候需要进一步的去理解路面符号的语义,在另外一种情况下车道线根本看不清楚,要么被磨损了,要么被大雪覆盖了,甚至右下角土路上面根本没有车道线是非结构化的道路,这时候需要通过深度学习把这个可行驶的区域,这样一种感觉把它检测出来,然后再找出我行驶的路径。这是认知的第一阶段。
认知的第二阶段是从简单的不撞到更加舒适的驾乘感受。如视频大家可以看到上路之前在车顶上放了一枚硬币,一个打火机一个盒子在三环上开了20公里,下车的时候三样东西还在上面,这是我们把舒适性作为多目标优化的目标了,不仅仅是安全性而且有舒适性。下一步需要更加精细的感知,比如看到道路上不需要碾过去的东西,路面上横着的石板、球,这时候可以通过立体视觉能够更好感知它绕过它。
为了舒适性更重要的一点就是要从确定的经验到自学习,现在整个智能驾驶的流程,先是靠深度学习做感知把世界模型建立出来,规划决策和控制是靠专家系统,就是靠规则,靠查表,这是现在主流的做法,但是这样一种主流做法意味着这个经验是固化的,但是每个人开车、坐车都有不同的感觉,举个例子,平常都是我开车,突然一天变成我爱人开车了,我坐在副驾驶座位上觉得她开的太别扭了,这时候意味着车要学会每个人的驾驶行为。
学习这里面就要做驾驶风格的学习,大家都知道强化学习,尤其是最近深度的强化学习,强化学习是根据一个reward的方式不断在交互当中调整,把这样一个驾驶行为出来,但是要学习驾驶风格或者叫learning from demonstartion,能够从驾驶行为能够反过来学到驾驶风格。还有最近比较火的端到端学习,尤其是端到端的深度学习用于自动驾驶,它本身带有一种自学习的功能,端到端学习本身也并不是一个特别新的东西,在2005年大家看到一篇论文。最近大家都用卷集网络强调端到端学习。
但是端到端学习优点是有的,非常简单,而且不需要先验知识,而且模拟出来的感觉像人开车的车感,但是缺点第一是需要大量的高质量的样本组合式爆炸的样本,原来化物每个都有交叉验证,它缺乏交叉验证,很难把错误率限制在某个阈值以下。第二不灵活,每个车都不一样,控制的动力学过程不一样,货车空载跟满载的时候动力学是不一样的,这时候在空载的时候学到的东西不能用在满载的时候。第三它是个黑盒子难以调试,另外它学不到隐性知识,我今天停车的时候有个定位,因为边上停了一辆宝马我不想离它近。端到端的学习就是从咏春的木人桩到少林的18铜人,真正驾驶的时候是跟几十个驾驶员竞争路面,这时候要能实时判断驾驶态势,评估其他方包括人包括物的动机,预测它的行为来合理获得路权。
比如先看物前车掉下来东西怎么判断,左边是掉下来有弹性的桶,下面掉下来的是洗衣机,这时候可以通过地规神经网络推理动态物体的特性做不同的判断,而且要预测每个个体或者群体的行为。如视频场景很多行人在走,简单的控制策略是看见行人动就刹车,这样开的一顿一顿的。但是如果能够通过对每个人进行马尔可夫的建模判断它的运行轨迹,如果和车相交就刹车,这样运行的更加平稳。更复杂的场景是在环岛,同色的车辆切进去就要判断每辆车的动机,预测每辆车的风格,预测蓝色车开的比较猛,绿色的比较肉的,要能够插进去,这里面用到强化学习和地规神经网络。
未来在路上开车某种意义上跟ALPHA狗是一样的,要能够看到整个盘面的状况,推测下一步怎么走,ALPHA狗技术就会用到上面。既然是深度学习就会有深度来源的问题,可以把开放数据集抠出来进行训练,还有自己装行车记录仪到处采集,把它发到众包网络上面进行标注,标注是有成本的,标注一辆车几毛钱,怎么办,可以通过机器学习预标注,标注错了人才干预,这些都是很好的方法。
另外刚才说端到端学习,不但需要采集路面的视频状况还要把方向盘的运动角度记下来,这样才可以把端到端训练出来,但是也有很多人特别聪明,比如他们改了赛车的游戏,因为赛车游戏里面一方面有道路的各种场景,另一方面人在玩的时候把控制信息记录进去了,是穷人版玩深度学习的方法。
没有解决的挑战:人工智能的鲁棒性
最后我想讲还有很多没有解决的挑战,比如人工智能的鲁棒性的问题,奔驰S级轿车上的代码量是波音787梦想客机代码量的16倍,一架飞机软件测试和验证成本接近它的一半,比代码更难的是数据以及基于其上的随机算法和机器学习。为了智能测试随机算法两辆车出厂的时候是一样的,但是在不同的用户那里开了一个月完全不一样了,怎么测试?机器学习本身是归纳法,归纳法就受制于数据级的完表性。左图检测出来小孩拿着一个棒球棍,识别错了无伤大雅,右边一旦识别错就车毁人亡了。所以一方面我们系统未来需要可预期的自信度,特斯拉的状况出了以后,兰德说,我的车开了1.3亿英里撞了一个人,全世界的平均水平是6千万英里死一个人,所以我的自动驾驶还是比人安全。这个自信度,统计显著性是不够的,如果明天再死一个人就变成6500万英里死一个人了,如何获得高自信度就是不停的跑,这是兰德公司算出来的,如果证明自动驾驶比人跑的安全要跑一百亿英里,一个车要跑500年,一个方法就是通过模拟和仿真通过虚拟环境不停的练练好,阿尔法狗就是这么来的。
除了自信度之外如果这个算法完全是个黑盒子不具备可解释性,对于这样一种生命安全非常关键的系统也是有问题的,机器学习经常学出来错误的规律,这是GOOGLE做的工作,用深度学习检测哑铃,后面把这个特征可视化出来发现哑铃都带着一条肉色的胳膊,因为它的输入数据级都是肉色的胳膊拿着哑铃。
另一方面深度学习本身现在也有缺陷,左面图跟右面图肉眼看起来没有任何区别,中间一列是对左边的图做了一些象素级别的扰动,但是今天的深度学习可能认得出来左面的图是校车,认不出来右图是校车,说明深度学习不够鲁棒,这是后面为什么大家提出来对抗训练能够使得它更加鲁棒,深层次的对抗网络等等。
所以我们的人工智能系统对于开放的环境,是不是有足够的鲁棒性非常重要,我们也在探索一些方向,比如通过预训练的模型,类似于迁移学习的方式使得它在汽车学习里面做的更好。另外把深度学习这种基于统计的学习,跟传统上符号主义基于知识的,基于逻辑推理的融合起来。比如刚才说宝马这个车不能碰离它远一点这是知识,把这两个结合起来更好。
第三,Ng最近说无监督学习不足以描述他对未来的想法,他希望是预测学习,能够更好的描述它想象当中比监督学习和强化学习更好一得种形态,这样一种形态事实上也是在智能驾驶当中得到了大量应用,比如通过对抗训练对行驶视频进行预测,我相信这也是代表了非常重要的方向。
还有一个自监督学习,因为时间关系大家只看右面那张图,我看到了牛同时听见了“哞“的声音就可以对它自己打标签了。
现在人开车往往是基于一种感觉,这种感觉是不是端到端学习还要研究,今天的卷积神经网络是非常昂贵的,但是大家知道吗?一个蝗虫只有两个神经元,一个神经元用来检测动的东西,另外一个是规划它的动作,我们有没有更好的方法检测,还有真正大数据的方法,fleet learnig,一辆车看到的东西马上转给其他车,基于云的驾驶脑,智能车的智商能够很快的提升。
今天时间有限,很快过了一遍在无人驾驶方面的技术,非常仓促,大家感兴趣可以给我发邮件我们进行探讨。
蚂蚁金服人工智能部技术总监李小龙:人工智能驱动金融生活
蚂蚁金服人工智能部技术总监李小龙
全体大会上,蚂蚁金服人工智能部技术总监李小龙在《人工智能驱动金融生活》主题演讲中人工智能在金融领域有着广泛的应用,并通过多个案例分享了人工智能在提升金融领域产品用户体验提升上的突出表现。
首先以智能客服为例。蚂蚁金服借助大数据+人工智能技术,大大改善了以往自助服务中转人工率高、问题识别不准、答案匹配率低等问题。通过数据挖掘代替运营经验来发现用户真实的诉求,在标准问题挖掘方面,提出问题识别闭环——从客服对话中提取问句,再进行增量聚类。聚类结果并不是直接进入问题知识库,而是由人工进行一定的审核,所得的审核结果将能变成算法反馈,从而构成一个知识闭环。通过这样一个闭环,聚类算法越来越聪明,标准问题库就会像滚雪球一样不断扩大。
对话机器人是多一个多目标系统,需要拟人化的聊天对话。构造这样一个机器人,需要多技术的融合,包括深度学习、信息检索、数据挖掘、自然语言处理、知识表示、金融模型。聊天是最核心的功能,蚂蚁金服利用深度学习,针对客户提出的不同问题,采用不同的匹配技术。简单基本的问题,直接从模板库(采用AIML模板匹配)中查询;稍复杂、有些难度的问题,可通过问答库(采用问题语义匹配)来匹配回答;而对于没有靠谱答案、无法预测的问答,则通过挖掘大量网络对话数据,经过积累学习,形成一个模型(神经网络产生式模型),它将产生有逻辑意义、非常有趣的回答。
以下为演讲实录:
李小龙:很高兴在这里,第一次参加BDTC的大会。我是代表蚂蚁金服,我知道去年阿里已经有同事在这里跟大家分享过,今天也很荣幸来这里给大家分享这个题目,叫做人工智能驱动金融生活
我叫李小龙,我的英文名字也叫Bruce Lee,套用一句话,如有巧合纯属雷同。我现在是在蚂蚁金服的人工智能部。我做这个题目之前,想给大家先介绍一下为什么说人工智能这么重要,蚂蚁金服作为互联网金融的公司,我们是以信用为基础,AI驱动的有想象力的金融生活公司,我们致力于为全球20亿人提供普惠金融服务,这里面几个关键字是信用,我们希望把信用等同于财富,我们以AI驱动所有金融生活的场景。我们致力于提供普惠金融,也就是照顾到所有的大多数人的需求。
这里我们可以提到,金融生活的场景里其实有很多的技术元素,我们说场景化的金融,我们现在是移动互联网的阶段,也许下一个十年是万物互联,物联网的阶段。现在也有很多新兴的技术,包括AR、VR这种场景,我们都可以把它作为一个金融生活的场景化来服务。未来提供这样的服务,我们其实必须要做到两条,左边是我们利用机器学习、人工智能来提供智能化的服务,所谓智能化的金融产品就是能做到贴心、个性化,根据你的需求提供你所需要的服务。另外是通过区块链和生物识别的技术来提供安全,对于金融服务来说它的安全是它的基石,如果没有安全感用户根本不会使用你的金融服务的。为了实现这两方面的要求,我们底层是基于云计算,基于大规模的计算集群,大规模计算的大计算能力。
最上面是活数据,我们说大数据很重要,活数据更重要。我们必须把数据再现,要连接,要流动起来变成一个闭环,这就是我们说的活数据。我们可以知道人工智能包括很多的能力,包括机器学习、语音识别,我们更看重在金融产品中的应用,比如风控、智能助理、营销等等。我今天讲一下金融生活如果用人工智能来改变技术的体验。
很多人以为蚂蚁金服是以支付为主要的场景,其实支付只是我们的基础,我们已经有超过4.5亿的基础,包括许多其它的金融产品,比如消费者信贷,小企业信贷。如果大家用过花呗、借呗的朋友,他们可能知道,比如你在购物的时候可以直接用花呗这种虚拟信用卡购物,而不用现金。用借呗的朋友知道,现在已经有一些个人可以一次性贷款到超过一百万甚至几百万的额度,如果直接到银行去个人贷款是很难贷到的。举个例子,最近同事在杭州买房可以一下子贷到一百万到两百万的贷款。在借呗里,光利用借呗就可以买到一套房子,当然这只是说在杭州。
消费者信贷,后面有一个很重要的准入模型,还有一些反套现模型,都是基于人工智能的,其它产品比如业务安全、账户安全、交易安全、反洗钱,都是非常重要的基于大数据和人工智能来保障客户的安全。其它比如财富线,包括基金、精准营销、个性化推荐,芝麻信用,用户画像、信用评估这些都是非常重要的技术,最后是保险。
所有这些场景,背后都有一个基于云计算的人工智能的平台,来保证大数据能通过人工智能平台提供各种各样精准的服务和可信的服务。
人工智能在智能智能客服领域的应用
第一个场景我分享的是智能客服,这里列出智能客服几个比较典型的场景,比如餐饮。我们说智能客服最好的就是用户不需要问问题,用户进来的时候我们就知道你可能会碰到什么样的问题。实在不行的话,你可以跟他进行对话,一个机器人跟你后台对话。在小二工作台,你打电话进去,他会根据你实际的描述第一判断你可能遇到什么问题,这都是有很多的技术在后边的。
在蚂蚁客服上曾经碰到很大的挑战,大家知道这两年蚂蚁推出很多的业务,包括花呗、借呗、余额宝、网上银行等等,业务量增长非常大,这两年的业务量1.5倍,重点业务增长2倍。如果一个用户遇到困难的时候,一是自助,原来的自助转人工率非常高。二是可以打电话,里面又有很多的按纽让你选,有时候选了半天还是选不到,耗时比较长。最后进入人工之后还有一个问题,小二服务好不好,检验是靠人工的,是抽检的,所以参差不齐。会导致一旦有异常,影响非常大。还有下面一些审理,比如理赔的时候需要审理,原来也是靠人工,这样造成审理积压。业务量增长的情况下完全靠人工是不能长久的,就必须服务变革。我们列出自助服务端大幅度的提高性能,另外一边全部智能化。我今天的分享主要着力于效率非常明显的自助服务。
之前很多都是基于人工策略,成本非常高,有瓶颈。自助场景很大的问题是问题识别不准,答案匹配率比较低,即使用了还要转人工。现在用了大数据加人工智能,能达到识的准,读得懂。包括两部分,识别的时候很快能识别你的问题,我们经过模型的迭代进步,用深度学习来改变它的效果。另外是改进机器人的。解答方面,把原来的知识库变成智能知识库,通过所谓标准问题概念。经过大数据和人工智能优化以后,自助转人工率已经下降70%。
如果大家使用过支付宝,在首页的时候可以看到,有可能有“我的客服”,从这里可以进去。如果没有这个图表的话,可以点“其它”或者“全部”,“我的客服”首页上就是一些用户教育的部分,这是一个参与问题的场景。当你点进去,看到分两层展示,一层是遇到什么业务,比如说账户管理,也有可能是其它,比如花呗、借呗都可能放在这里。第二层是在某一个具体业务下碰到真正的问题,这种展示你不需要做任何的问题,如果正好有你遇到的问题,这里就是答案。如果没有检测对的话,你还可以用点击对话,或者机器人形象头像进入机器人对话的场景,他可以给你一些很好的回答。
这里根据人工客服数据设计一些精准的因子,比如今天转账几笔,每一笔多大,耗多少时间,这都是人工设计的。另外是后台,也是人工的,我们业务非常复杂,大概几百个业务。根据业务第一级,场景第二级,更细的场景是第三级,最后才到问题,也是通过人工设计的。但通过特征,也是一个比较简单的线性模型做的,中间可能会匹配好几个问题的时候会有一个人工的精准策略来具体到某一个问题,这里面也是人工设计的策略在里面。之前有太多人工,还有很大的问题没有数据闭环,没有用自己的场景来改进不断的调整自我学习,我们的远景是采用一些先进的算法比如深度学习,我们最终要减少人工,最终要构造一个数据的闭环。
这是我们最后的解决方案,我们首先在因子方面除了保留一些重要的精准因子之外,增加了用户模型,这个特征加进去之后效率大大提升。还加了服务轨迹,你来自助之前有没有打过电话,这些讯息都可以转过来,包括打电话的时候文本描述过程也是非常有用的。第二个是深度神经网络代替原来的线性模型。第三个是我后面想讲的,标准问题方面。原来我们都是四级人工问题,后来代替成全部由客户真实的问题提炼出的问题我们叫作标准问题,通过数据挖掘得到的。这中间发现真正人的数据而不是小二靠他的运营经验发现的。这里面把数据的模型和用户反馈全部打通,根据用户的点击改进模型来不断进行更新。
这是从数据中学习用户真实诉求,文本聚类之后发现同一个语义的问题有各种不同的说法。比如花呗还款没有逾期怎么还有手续费,可以对应这三种不同的说法,这样的标准问题经过聚类之后发现原来那么多的问题,最后聚下来其实每一个业务也就是那么些问题,这样每一个标准问题可以给他学习一个标准答案。
这是说明用挖掘来代替运营,经验发现用户的真实需求,其实本身是客服最大的一个期望。在标准问题挖掘方面我们也有一个闭环,从客服的对话提取问句,进行所谓的增量聚类。聚类的结果之后我们并不是直接入库进入问题知识库,而是人工小二进行一定的审核,审核之后提供的结果能变成算法的反馈,构成一个知识的闭环。
随着我们用的增量聚类的算法和最新的深度学习语义匹配的模型和其它的算法可以构成知识闭环之后,通过这个知识闭环聚类算法他就可以越来越聪明,标准问题就可以像滚雪球一样不断地扩大,人工的工作量越来越小到后面。
其实智能客服不仅仅是为你识别,还有异常定位。异常定位也是我们在智能客服里很重要的一个方面,这里举例子,原来如果完全靠人工做,靠坐席反馈异常的话,耗时125分钟,现在靠自动反馈的话,耗时35分钟。
这是我们今年双十一,我们知道蚂蚁和阿里巴巴创造了很多的新高数字,比如说最高一笔交易量达到12万,这是最新的世界纪录。在我们的大数交易笔数增加的时候,它的服务量也会增加,交易笔数增加48%,服务需求也增加42%,双十一一天有近千万次的服务需求。这中间我们发现其实真正到人工反而下降39%,到自助的增加了47%,自助里转人工小于1%,这个转人工率相比较去年下降68%,也就是说不到3%的需求才会需要找人工。这种情况下今年的坐席比去年还少11%以上。这是我们在客服上看到的一个很大的进步。
人工智能对客服机器人的性能提升
第二个例子是对话机器人,客服里有一个重要的产品是叫做客服机器人。如果要描述客服机器人,本身的逻辑也不是特别复杂。首先是看作一个知识工程的过程,首先从原始的人工对话里去挖掘数据,包括利用的运营专家知识,就可以得到一个问题答案作为知识库存下来。这个知识库服务的时候根据客服的问题进行一个匹配,根据这个匹配我们可以得到一定的答案。这个是展示完之后用户还可以提供反馈,反馈也可以给数据挖掘提供一个更好的帮助。从知识生产,到知识库,到知识消费就构成了客服机器人一个完成的流程。
如果我们说客服这个机器人,可能大家觉得不是特别时尚,如果构造一个完整的智能对话机器人,是一个多目标系统,首先要做一个拟人化的聊天对话,比如现在比较流行的就是微软的小冰。这个对话如果做拟人化的感觉是非常难的,这个时候需要有一系列的技术,后面会讲。其它就是通用知识问答,比如你问世界最高峰是什么,它会回答珠穆朗玛峰,这时候有一种他什么都知道的感觉。前面的客服是属于产品或者客户知识问答是要解决你的实际问题的。
还有比较常见的,微软的siri以及谷歌的机器人,他们所谓的叫作个人助手这一类,他们在完成比如定外卖、打车之类,对金融来说我们要提供普惠金融,有人问我20岁是个学生,我该买什么样的保险,我们该给他做一定的推荐,保险顾问或者投资顾问,这对后面的金融场景是一个非常重要的应用。
要构造一个对话机器人,必须是多技术的融合,聊天是现在最前沿的,我们采用深度学习的技术。对通用技术问答进行数据挖掘,对产品技术问答可以采用常规的信息检索的方式。什么样的条件推荐什么样的保险,什么杨得条件推荐什么样的投资建议,其实有一个金融模型在后面的。所有的技术合起来都属于人工智能的范畴,我们一起来打造多技术融合的对话机器人。
举个例子,聊天,我们看来聊天可以通过不同的层次进行匹配的,如果打造一个聊天机器人,首先是一些最常见最基本的问题,比如打招呼可以用一个模板直接匹配的,你好,很高兴认识你,用模型直接查询就可以回答了。稍微复杂一点,问题的匹配,比如今年几岁,有一定的难度,其实可以通过问答库来回答,所谓知识库。还有一种是最没有谱的问答,我们在网上称作神回答那种,其实背面是有一定的意义在背后的。要回答这种根本实现没法预测的问题的时候怎么办,现在采用神经网络产生式的模型,通过挖掘大量的网络上面的文本对话,比如说有很多这样的网站文本,我们可以把它进行积累、学习,并不是记住这个数据库,而是变成一个模型,但它是有逻辑意义的或者非常有趣的回答。
举个例子,你为何这么吊,他说因为我是吊丝。说你为什么这么漂亮?身材好,穿什么都好看。怎么样减肥?管住嘴,迈开腿。这样的回答可能不是非常准确的回答你的问题,但是非常有趣,跟很多网友在知乎、微博上回答你的问题是有意思的。
再有是通用知识问答,比如世界最高峰是什么,珠穆朗玛峰,我们可以通过搜索引擎去查询。跟搜索引擎不一样的是他给你很多的结果,我们这里只给一个最好的结果。最后怎么样筛选最好的结果可能是非常重要的一个地方。
我们在聚宝社区有一个应用,这是一个理财的小白,可能小白的用户喜欢理财,他有一些钱,想问一下怎么理财。就可以到蚂蚁聚宝社区里面去,像小白用户,他每天会问大量这样的问题,比如他问定投是什么,如果一个人在后面回答的话是忙不过来的,7×24小时都在回答,我们就让机器人去回答,他把这些常见的问题积累起来进行匹配。比如用户在实验的时候,问定投是什么,我们给他一个非常正规的回答。他当然没有看出来这是一个机器人,还说一楼好专业。其实我们还是希望能让这个机器人更加个性化,所以在用词上加了一些语气词让他觉得更亲切。
这个机器人已经上线将近一个月,但现在已经发现粉丝已经超过了3500人,已经抬到蚂蚁聚宝有粉丝数目的前三百个。我们采用深度学习的方法进行问题匹配,自己也每天都在跟踪它的问题回答的满意率,满意率现在大于90%,我们正在研发的聊天功能很快就会上线。
人工智能在蚂蚁金服其他产品中的应用
接下来讲蚂蚁的安全大脑,大数据风控。我们的蚂蚁安全大脑是完全基于大数据进行风控的,很重要的一部分就是核身认证,判断这个人在用这个帐号的时候是不是真实的用户。这时候我们碰到大量的数据,大量的行为,或者这种风险分析网络训练引擎。举个例子,支付宝有一个帐号险,一般人大概每年花1~2元钱就可以保你这个帐号,被盗之后最高赔付100万元。就说我们的风险控制,已经能做到一百万分之几,这是对我们安全的性能提高到一个非常高的程度。
其实我们的安全大脑背后,来自于全球的所有用户每时每刻都在进行着交易,转账、支付、基金、保险、理财。这样我们会抽取很多的特征、行为、关系、习惯,设备位置、账户,然后进行实时化的分析。我们背后用什么样的模型呢?最近已经上线了深度学习的模型,采用了基于大量数据来训练一个多层的神经网络,发现它比传统的模型效果好很多。
第四个案例是我们的芝麻信用分,我们觉得也是蚂蚁金服的一个非常有特色的服务。如果谈到信用分,以前说我们缺乏信用,但现在社会逐渐地向这方面改进。我们的芝麻信用分,可能很多人会谈论这个分怎么样才能提升,芝麻信用分包含了两点,一是用传统信用评估的方法,它基本上只用了一个维度,信用历史和履约能力,也就是偿还能力,以前的贷款怎么偿还。我们有着更多的消费者行为记录,我们尝试从一个更大范围的人为的角度,去描述这个人在日常的生产生活中可能会碰到各种各样信用上的表现,小到平时借一把雨伞、一个充电器,一个自信车会不会还。同时加入更多的维度,比如身份特征、行为偏好、人脉关系,这也是大家平时认识一个人的时候,我们自然而然会问这个人职业是什么,学历是什么,他的人脉广不广,他一般认识哪些朋友,如果他的朋友圈都是非常有信用的人,我们是不是也可以推测出这个人不会太差。
利用更多维度描述这个人信用方面的能力,导致一个很好的效果,就是我们信用的资质的覆盖率远远超过传统的信用评估,我们现在能覆盖到80%以上的用户,照顾了所谓长尾的人群,也解决了金融信贷机构数据孤岛的问题。我们芝麻信用分不仅仅是在蚂蚁金服内部的业务场景内使用,也是对所有的金融机构开放的,所有其它的信用机构信贷,在没有数据的时候,可以访问我们的芝麻信用分,在用的时候它的反欺诈效果非常好,在业界也获得了非常好的口碑。
第五个案例是蚂蚁微贷,也是基于大数据和机器学习的一个创新,和传统信贷非常的不同,传统信贷没有你的信贷历史,你的额度又很低,根本没法贷到钱。现在用基于大数据的机器学习的模式能做到所谓310,三分钟事情,一秒钟贷款,没有任何人值守,7×24小时就能给你一个很好的评分,很好的额度,一秒钟给你贷款。微贷为一千万的中小企业建立了授信资格,总计贷款达到了6千亿人民币。
要做到这一点有多层的数据到决策的方式,从基础数据,交易类、企业类、消费信贷类,这些数据都可以搜集起来,进行各种各样的处理,进行一些风险模型的训练。包括各个维度的描述,进行业务管理和决策,最后进入到业务流程里进行审批。整个基于海量数据和AI的训练和策略优化,实现了整个信贷流程的无人值守的全自动化。
最后一个案例是保险,支付宝里有很多的保险,有一两块钱保一年,最高赔付一百万。还有很多的健康险,小到碎屏险。还有运费险,你在淘宝电商上购买比较多的,退货的运费是一个老大难的问题,如果你买的东西比较贵的话,这个运费会非常高,如果买的东西比较小的话,可能退的运费钱还超过你买这个东西的成本,所以很多人不愿意负担这个退货的成本,商家也不愿意负担,我们这个运费险解决了这个问题。在你购买之前商家可以帮你购买也可以自己购买,几毛钱的保费可以保十几块钱的运费。
它是个差异化定价,根据大规模的消费行为和之前一系列的特征,进行前瞻性的实时的差异化定价,很快的进行预测,最后即使你出险了我们进行急速的核赔,构成一个闭环。在大数据的协作下,我们的业务量也是以每年超过百分之百的速度增长,可以预见在互联网金融场景下,所有的保险都可以用互联网的方式进行改进,甚至创新。
总结一下,我们认为在移动互联网这样一个时代以及物联网的时代,包括云计算也好,大数据也好,都为未来我们实现普惠金融提供了很好的条件,那么人工智能更是能在普惠金融方面方面起到决定性的驱动性的作用。人工智能就是让普通的用户可以享受智能化,个性化的金融服务。最后我们判断,用人工智能来驱动的金融生活一定是大有可为,我的分享先到这里,谢谢大家。
百度金融研发负责人沈抖:大数据助推普惠金融发展与创新
百度金融研发负责人沈抖带来了名为“大数据助推普惠金融发展与创新 ”的主题演讲。期间, 沈抖表示大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。并从百度目前对大数据需求较大的几个方面(安全防护、智能获客、大数据风控、以及量化投资)同与会者分享了百度最近的技术成果。沈抖表示,有了大数据的支持,百度希望做到千人千面,即根据客户的兴趣爱好、人生阶段、对生活品质的要求、消费水平等方面,为不同用户制定不同的营销方案。
百度金融研发负责人 沈抖
以下为演讲实录
沈抖:
听了李老师的演讲非常受启发,我也给大家分享一点百度最近在做的事情《大数据时代下的普惠金融发展和创新》。
其实金融是跟我们关系非常密切的一个行业,在这里面既有银行、保险,也有证券等各种各样非常发达的金融服务。在这个相对传统的行业里,实际上现在已经在全方位地使用大数据技术,大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。
正是因为金融机构对大数据以及科技能力的需求,才推动了整个金融科技的快速发展。这里有几个简单的关于金融科技投资增长的数字:2015年北美增长44%、欧洲增长120%、亚太地区增长300%,其中中国增长445%,达到20亿美元,接下来这个势头还会继续进行下去。
金融领域的投资覆盖面很广,这里举几个例子:智能客服、安全防护、智能获客、以及大数据风控。也就是说,在保证金融系统安全的情况下找到你服务的客户,做好风险控制,基本上这个生意就成了。
安全防护
首先是安全,我们想一个坏人他怎么搞一个系统,或者怎么去攻击一个正常的用户?大概是这几步:
- 首先是APP的破解。在端上入侵,这时候必须做好端上的安全扫描。
- 接下来可以做通信阶段的通信劫持,这时候我们就要做全链的hps加密。
- 接下来他会想方设法(无论是撞库还是其他方式)来盗取用户的密码。
- 最后一步如果偷帐号不成功,他可能会冒充你,也就是说盗取你的身份信息,这时候就要做好活体识别和生物特征的认证。
李博士说我们在传统机构的时候要诈骗,因为要面签,所以起码得活人过来拿着证件,柜员去比对,你就是身份证所代表的人。但是在互联网上做互联网金融就很难保证,这里面就存在活体识别身份认证的问题。要做好这个问题就需要大量的数据支持,没有大数据就很难做到这一点。现在每天产生100TB的数据来支持上面的决策,为了用户体验,整个决策时间还得控制在5毫秒之内。
具体讲一个例子看帐户保护的时候我们怎么做,实际上我们在看一个人的时候,是不是真人真身份,是不是人自己在操作,无非是这几个方面在判断,时间、空间、帐号、行为,把这四个维度综合起来,我们就有把握判断这个人是不是正常人,是不是真实的自己。有了这样一个支撑以后,我们再监控90亿以上的风控指标来判断。第一是每天前端大流量进出百度的网络60TB;接下来每天1500多万次的登陆,在登陆瞬间判断是不是真的你;最后还有实时保护,不管登录这一关有没有防住,在中间通讯过程中登陆状态进一步被劫持;接下来在整个网上的每一次行为都要被监测,看过程中是否被调包了,这里每天有300多亿次的拦截。
另外一个例子是手写签名,签名在日常生活中是非常有效的身份认证的方式,虽然签名是很平常的事,但是在移动设备上就变得很重要。因为在移动设备上,它就不只是一个形状,还反映了更多维度,这里举一个例子,一个同学的签名可以去中间采点,每个点上既有力度还有速度,每个人在签名的时候因为签名风格力度、速度都有变量,通过小波变换做分类,最终使得是不是这个人能有效的区分开来,这时候即使把签名授出来,一点一点瞄也能判断不是它,因为行笔速度和自然流畅度已经不一样了。
刚才讲安全简单举了两个例子,另外是智能获客和大数据风控,无论是现在的互联网金融还是传统的金融这都是最核心的两个能力,这两个能力很大程度上建立在用户画像的基础之上,我们能不能把一个用户很完整的描述出来,这里给了一个例子,四个维度看一个用户,在信贷场景下看的,首先用户有没有贷款意愿,想不想贷款,这时候很多人都收到骚扰短信问要不要贷款,在没有贷款需求的时候对营销人来讲也很痛苦。这时候我们要识别用户的贷款意愿,接下来就要看有没有欺诈意图,欺诈意图很容易去判断,当我们有了足够多的数据以后,如果看到同一个设备上有无数人在申请要贷款,这个设备肯定是有问题的,欺诈的可能性非常高。再一个看还款能力,他即使想贷款又不是欺诈,不代表以后一定会还钱,因为他有可能还不起钱,所以还款能力也得考察一下住房类型、收入水平是不是有多头借贷,是不是已经由逾期了。当然能还钱不代表他一定会还钱,还要有还款意愿的问题。
智能获客
总而言之有了这个以后再判断一个人跟他做生意就有底了。怎么做,首先从智能获客角度看,智能获客说白了是要找到有金融需求的人,无论是贷款也好、理财也好还是其他任何一个需求,我们都需要适当时间点把这个人找出来,要想做到这一点无非是几个事情:1、要有足够大的流量覆盖才有可能触达用户;2、必须对用户有深刻的了解;3、在合适的时机通过大流量触达用户。现在我们对用户做了9大类400多个细分维度全面看这个用户需求到底是什么,此时此刻需求是什么。接下来就可以在每天百亿的流量上面触达数十亿有金融需求的用户,无论他现在是在关注房产、备孕还是旅游,有需求我们就会很好的触达。
下面给一两个例子,看例子之前我们看完整的获客流程无非是5步:首先得找到潜在需求,接下来触到他并且转化它,接下来让用户价值在这个体系内不断提升,把他变成老客还得做好维护防止流失,每一步都可以用不同的手段解决,比如在潜客的时候要做到精准触达,新客要做好体验,接下来通过产品营销、交叉营销,换成老客户要维护这个客户防止流失。
这里面一个非常有趣的例子是这样,需求本身其实是有非常强的时效性的,所以很多时候在做用户画像的时候打很多标签,标签本身是随着用户行为变化能反映出来需求的变化,变化的时效性作用非常强,一方面我们要实时捕捉这种需求,无论通过搜索、LBS、网页浏览,说起来简单,但是处理起来每天几百T的数据需要相当强的工程能力,所以用D stream解决分钟级别的延迟。接下来做自动标注和分类,最后做智能的出价,通过展示广告、信息流触达用户。如果我们判断这个用户有一个借贷需求,如果在当天触达客户,它的转化率在8%,第二天再去触达它,转化率达到4%,减了一半。这个角度我们来看在用户真正诉求发生的时候有一个衰减。第二种可能在现在互联网金融这么普及、竞争如此激烈的情况下,很多时候并不是因为用户需求没有了,而是说它已经被其他金融机构给满足了,再去触达的时候转化率就低下来了,总而言之时效性是非常有意思的点在这里面。
我们在触达用户的时候除了实时抓住它以外,还要看获客成本,这时候就要动态的调整竞价机制,尤其是在搜索流量上做竞价投放的时候,需要不断的根据我们的目标、根据我们的ROI,根据当时竞价因子动态调整,这里面我们可以看出来在两个不同产品线上通过动态竞价可以持续提升用户的转化响应率。
还有一个很有趣的事情是做生意的时候才能感受到,在给用户传递信息的时候里面每一句话都会产生巨大的影响,这是我们有了大数据支持以后我们希望做到的千人千面,要看到他的兴趣爱好、人生阶段,考虑到整个客户的生命周期,生活品质的要求、消费水平的要求等等,可以把所有因素综合起来给用户送一个非常个性化的消息,在这里面我们简单从几个方面做了一些尝试,一是情感上的激励“我给了你一个什么样的产品,你是尊贵的客户,是独享还是怎么样”不同的描述对客户有不同的影响。接下来是召唤方面,是需要立即使用还是怎么样这些文字上的描述都会带来差别,我们做了几个维度调整之后可以看到整个效率80%多的提升。
还有在座很多位都曾经是受益者,随着现在O2O以及互联网金融慢慢理性,现在大额补贴是在缩减,但是补贴依然存在,所以获客里面另外一个就是补贴的成本,怎么智能的调节补贴,使得我们在一定预算情况下获得更多的新户或者让更多老户活跃起来。从数据上来看是非常简单的优化问题,就是一次运营成本、补贴成本,后面的图是转化,在这个价格下给这个用户这个产品下转化率到底是多高。有什么样的条件,首先转化率要保持一定的水平,要省钱,省到最后一分钱不出一个客户也得不到。其次有一定的转化率,补贴控制在一定的区限之内。有了这个优化之后这里面有很多需要预测的,包括CPI转化有多高,这样一个场景、这样一个价格、这样一个用户转化是什么样的,这会通过用户画像、消费能力、订单金额、接入设备、商品类别这些维度做判断。比如接入设备我们可以试着理解一下,一个安卓手机用户,你奖两块钱他也干,但是拿iphone7奖两块钱他还嫌麻烦。
底下是通过个性化的补贴使补贴效率有10%几的提升,补贴效率是同样效果的情况下能够激活多少用户。
刚才讲到获客举了几个不同的维度来看,接下来是大数据风控,风控刚才李博士提到了一些,这里是完整的计量模型的序列,其实有很多模型在整个过程发生,每个模型里面需要关注的变量也不完全一样,在申请阶段可能要关注搜索、贴吧后面关注消费、负债等等。
一般情况下一堆模型是怎么迭代的过程?首先左侧有大量的数据进来,无论是金融服务数据、社交数据、O2O、LBS的,通过数据的挖掘结合行业的洞察就会形成用户特征、企业特征,在这中间会尝试很多模型,这些模型现在已经基本上变成了标配,GBDT、DNN也好随着开源越来越多,这些已经变成了标配。根据这些模型无论对用户还是企业维度都可以很快形成结果,线上认证,认证以后再形成lop,这样使得风控模型不断优化。这个里面跟传统金融机构里面不太一样,一般金融机构里面风控模型会用相当长的周期更新它,倒不是能力不行,很多时候还是思维习惯的问题,他们希望这个模型有一定的稳定性,但是有了大数据的支持以后,整个模型可以迭代的更加迅速。
大数据风控
刚才提到一个还款能力的时候有一个点叫做多头借贷,这个人还不还得起钱,最初是能够还得起的,只不过这么多机构放款,拿到贷款的成本这么低没有控制力的人就会大把借钱,借新的钱还旧的债慢慢积累成了多头借贷,如果有个第三方机构已经长期积累了这样的数据就很容易做这个判断,数数就可以了。但是对于像百度、其他进入这个行业相对比较晚,手上大量数据的时候就不是简单数数的问题了,我们做这个事情的时候一方面跟外面很多数据源合作,同时用内部的数据,既要看数据和逾期之间的关系,也要看它跟欺诈之间的相关度,把这些信息综合起来用在信贷审批、贷款预警、风控模型等等地方,我们跟外面几家机构合作,他们已经做了相当长时间,理论上讲他们个风控模型多投借贷非常完美的,实际上百度数据放进去还可以发现百分之二三十的新增的多头借贷,意味着这百分之二三十如果提前发现就能止损百分之二三十。
刚才讲数据在个人风控上的影响企业风控上也有这样的特点,以前我们要判断出一个企业或者一个资产到底值不值得我们投,假如有人包了一段高速公路,我们就要看能不能用来抵押贷款,能不能用来盈利,以前真有可能派一个人到收费站盯着数一天,现在有了LBS数据以后就不需要这么做了,同样对工厂的繁荣程度都可以通过这些指标来判断。
除此以外百度还在跟很多第三方公司一块合作建模型,这里面来看数据永远是用不完的,不管一个公司里面的数据有多么强大,第三方数据一定会带来某种程度上的补充,所以我们在跟第三方合作的过程中,从风控指标上还是可以有大幅度的提升。
量化投资
最后讲一下量化投资,怎么用机器学习的技术建立量化投资差异化的优势,一般量化投资分几个阶段,首先要搞清楚标的是什么有个调研,接下来是标的筛选,综合一下,最后不断做风险控制,及时调仓做配置优化。在选标的做这些事情的时候有一个事情要去做的就是因子,我们要看用什么样的数据/指标能够预测判断整个行业或者股市的变化,如果能够预测/判断的话就有了先机,就知道了更多信息。这里面拿股票价格作为一个例子,百度每天会有跟股票名称或者代码相关的搜索,一天有两千多万次,我们观察出来整个股票价格的走势和用户的搜索之间有非常强的相关性,可以到0.7以上,这个角度来讲无论搜索还是舆情都代表了某种信息可以提前让我们感知到这支股票将来的走势。
另外时空数据上我们来判断一个企业一个道路上将来的盈利能力的时候,LBS可以很好得用起来,这里举了另外两个更具体的例子,更好的体现这种架式。如果我们通过观察比如4S店和车流情况可以预测整个汽车行业销售的情况。一般来讲汽车行业会每半年发布这样一个数据,但是我们可以通过LBS数据看到,在整个汽车销售的趋势上面LBS可以做到非常好的吻合,相关度0.9以上这样我们就不用等每半年发布数据的时候做判断,我们可以周级甚至更快更新这个数据,了解这个行业的动态,餐饮是同样一些道理。
如图是反映出来除了传统行业在证券这些方面,我们知道很多在金融领域的专家他们已经积累了大量的非常有效的因子,现在我们在看能不能通过互联网的数据去增加一些更好的因子,在这个因子一般选取的时候还不希望它是非常强相关的,因为强相关一旦出问题就会出大问题,这时候需要找比较稳定但是又相对弱相关的,这样当把大量因子在一起就可以稳定判断一个股票的价格或者证券。这里我们可以看到无论是搜索因子还是舆情因子,当力度切合到一定程度的时候,跨几年的表现跟股价相关性都会非常稳定。
最后一个我们看看为了真的验证因子到底是不是真的有效,一方面我们用传统的因子把它放在一起,选一些股票,形成一种选股的策略,然后再从百度里面刚才发现的所有相关的因子也放到里面看,假以时日可以看出来,即使在非常好的传统的因子组成的策略上面新加进来的互联网信号还是可以进一步拉升收益。
刚才给大家从安全、智能获客、大数据风控、量化投资分享了百度现在做的事情,这些事情只是整个互联网金融科技里面的一个小部分,整个中国乃至全世界的金融科技都在蓬勃发展,在这个过程中我们也愿意跟大家一块把这个事情往更好的方向发展。所以我们还是愿意利用这些大数据人工智能的技术一块升级传统金融实现整个普惠金融的梦想。谢谢大家。
D-Uni Founder&CEO查理:《数据敏捷性 数据时代的云架构》
今天主会环节最后一位演讲嘉宾来自D-Uni Founder&CEO查理,他带来的分享主题为《数据敏捷性 数据时代的云架构》。
D-uni Founder&CEO 查理
以下演讲实录:
我和前面几位讲的不一样,因为我是从企业来的,老的EDS和IDM的架构师出身的,不太有网络公司的背景,所以可能稍微有点不太一样。这是在典型传统企业IT里比较典型的矛盾,因数据的增长一年大概平均增长率40%,即使你对这个数据的管理进行优化,而且存储成本不断下降仍然跟不上数据成长带来了压力,这是普遍在全球的一个趋势,在国内也是一模一样对CIO来说比较大的问题。
同时本身已经在IT的预算压力很大的条件下,这里有一个很有趣的矛盾,一方面数据本身的价值来说它是在发生过的几个小时内价值最高的,随着时间的推移数据的价值是越来越低的。同时我们现有的这种批处理的模型,是对所有的数据不分时间价值来进行一个完整处理,这样一来,大家可以看到实际上一个IT系统,它的成本发生的中心和你实际数据的价值中心是不重叠的,从一个经济学的角度,本身就是一种浪费。
那么这样的话,因为这种落后的批处理的模型,就会带来一系列的模型,我这里只是举了几个实际用户的一些问题。这是一个保险公司,这个保险公司在国内成长相当快的,因为没有得到他的许可,我不好用他的名字。他们就是要做大数据分析,他们用的平台是阿里云的Hadoop,可它的数据是在各个业务系统,他要去做这个刷新的话,就只能用复制的技术来刷新,这个本身的成本是相当高的,同时这个过程中不能保证数据的一致性。如果各位做过大型的仓库,数据一致性是一个相当普遍的问题,我自己在IBM的朋友也好,还是后面公司的朋友也好,这是一个比较普遍的问题。
这是我们第一个用户,在美国纳斯达克上市的一个半导体公司,光是从生产环境往测试开发、运维环境复制这个数据就需要9个小时,这家公司是一个全球公司,不能说马上网上就能复制,因为它在上海、东京、台北都有这个数据,得早上2点才能复制,也就是11点才结束,也就是硅谷这些工作人员早上到11的工作都受到很大的影响。华为的应用开发是每个月一个小版本,每三个月一个大版本,他做测试的话,你要搭这个数据库就10天的时间,光拷贝数据就3天,当然这个数据库也是比较大的,一个数据库就30TB,这都是因为现有的体系架构,这种处理模型本身有了问题。
现在这种传统的云架构,它本身架构的产生主要由网络公司来推动的,对于网络公司来说,他们没有大量的数据库,即使有,他的每一个数据库的体量也都比较小,通常也就是几个G,虽然总量也可能很大,但每个数据库也是比较小的。所以对他们来说这个数据管理是没有什么压力,而对传统企业来说这个数据库通常都比较大,12个T是最基本的,大一点几十个T,华为更夸张直接30个B。这种情况下如果没有数据管理层的话,就会带来一系列的问题。所以我们公司就提出了数据敏捷层的概念,基础层和应用层之间应该有一个数据层,这个观点从我去年回国以来和中国很多的保险公司,银行、电信、电力公司、能源公司,大型的制造企业都做过比较多的沟通,基本上大家或多或少都有这样的想法,有的已经很明确,有的还在刚开始走,有的还在考虑,但基本上得到整个行业的一个认可。
现在我们的这个系统也确确实实在很多的生态环境里得到了验证,这是我们一些实际的效果,你看原来用复制技术去发布大数据的话,它的成本这么多,我们成本这么多。我曾经计算过这个投资回报率,600%,这样的结果是非常惊人的,我能保证数据的一致性,这样在所有的大数据下和大型数据仓库下是一个普遍的问题,基本我在中国大的保险公司,银行和这些大的制造商,运营商,都普遍的他们有类似的问题,目前已经进行试运行了。
我们第一个客户已经整整运行了一年,他们原来9个小时去复制的数据,现在15分钟就复制完了。同时你可以看到我们去配置一个T的数据库,配置出来是15秒,也就是说我配置一个数据库的速度远远超过你去启动一个容器的时间。华为也是一样,他去配置一个数据库,人工要10天的时间,我只要5分钟,这是一个30TB的数据库,也就是我启动一个数据库比你启动一个虚机还要快,这就是我所说的敏捷化,数据变得很轻量很敏捷,和你用一个虚机是一样轻松的,这种情况下你去使用数据库就没有必要说一开始我就先占用了很多的硬件、软件,就等着有人来用,而是说可以按需使用,就根本改变了数据库生命周期的管理。
这里是我在2008年在硅谷全球第一个提出数据库虚拟化,就是这个概念,只不过当时的技术水平没有达到这样的性能水平,这是一个全新的性能水平。其实它的核心技术没有那么难,这是2001年在北京搞出来的东西,我第一次创业是在北京,当时我找出了数据库它的增量部分,我是2002年把这个产品化的。在把这个增长拿到以后,我们对它进行一个智能化的合成,智能化合成以后就是每天,你从使用者的角度来说,是完整的数据库,可真正我做的处理是一个增量级的处理。当你是一个增量级处理的话,你处理的成本是大幅下降的。也就是说对我们来说最核心的技术是什么,就是我只处理最新的数据,这其实是我们公司最核心的一个逻辑,也是我们的一个哲学。
也就是说实际上我们推的主要是一个Lambda的系统架构,既然我能找到改变量,我的改变量就直接通过流处理来处理,因为我处理的实际数据量大幅度的压缩,而且是延迟大幅度压缩,当然我可以落地到Hadoop来,但对于这种大压力高,要求实验很短,实时性的要求,大数据量的情况下,我们更推荐是这样一个架构。大家可以看到这些白色的盒子,都是我们公司自有技术实现的,其他的技术才是开源技术。
因为我们现在把处理的时间主要放在高价值的数据上,所以经过Lambda架构以后,我们处理的成本和数据的价值中心就相对比较重叠,所以通过这样一种方式来得到一个成本的节省,就是把你的钱用在刀口上。这就是刚才那张图,但这个更强调由于我们能更快的把这个数据准备好,并且把这个信息发布完,所以作为一个企业可以缩短他从一个业务事件的发生,到采取行动中间的周期,当你把这个周期缩短了以后,你就可以减少这个反应周期,同时获取一些商业价值,这个就是我们给客户提供的价值。
这张图是对数据的实际价值比较经典的一张图,2016年在CIO关心的十大议题里,我们能解决其中九大议题,唯一我们不能解决的是把你的IT和你的业务对齐,这个最主要是企业文化的问题,我们只解决技术,所以不能解决你的文化问题。但无论你的市场的响应周期,你的创新还是有效性、及时性、灵活性,各种成本控制,我们这样一个架构都能比较有效的去支撑它。
从一个产品来说,我们这两个核心的服务都已经做完了,一个是数据库的技术在2015年3月份已经完成,开放的数据总线在6月份已经完成。我们现在最主要要完成的是流处理平台的技术,这个技术做完以后,我们Lambda架构作为一个产品就完成了。再往后就要实现实时数据应用的平台,其中包括可视化应用的架构。
我们作为一个团队在过去的15年,一直都在做一件事,就是数据管理,从2001年开始在北京创立第一个公司,当时我们是全球第一个实现数据库快捷增量备份的公司,领先甲骨文6年。我在2004年底回到了美国,当时回去以后就花旗银行,在一些大的公司继续工作,做它的数据标准这些东西,包括做一些大数据的分析,包括美国福克斯公司的一些销售预测平台。2008年决定再次创业,就在硅谷创立了D公司,去年估值9.81亿,就是一个独角兽的公司,在这个公司我2008年首次提出了数据库虚拟化的概念,定义了一个新的产品品类,这个市场里的产品基本上不是我自己领导的公司开发的,就是偷我的概念的。
再后来去了VMware公司,又做了一次数据库的虚拟化产品和大数据的虚拟化,再到现在这个公司,我们继续在做数据敏捷化,实际上它的技术核心还是数据库虚拟化。从2008年到2012年,再到2014年,每次做事情我们这个团队都定义了全新的产品品类,全新的市场,这次我希望在中国能取得非常大的成功。
