主持人:下面请出大会的报告者是来自中国科学院自动化研究所的曾大军教授,曾老师原来是在国际上最有影响力的做推荐系统的华人科学家。在美国的时候他所有的文章我都读过。现在在从事和国家安全策略以及公共管理相关的领域,他会带给我们一个全新的你们接触相对较少的大数据的应用。
曾大军:各位专家,业内的同事,大家下午好!非常感谢有这个机会能和大家一起交流大数据对公共管理的意义,以及相关的机遇和挑战。我的发言先就公共管理大数据的背景和现状,大数据环境下的公共管理的一些新的理念以及机遇谈谈我的理解。
大数据本身在过去的一年多的时间里,应该说已经成为IT学术界和相关的工业界最热门的话题。世界各国都非常重视大数据方面的研究,并从国家战略的层面相继推出了自己的研究计划。表里面列了主要几个国家,像美国、欧洲、日本,我们国家相关的计划也在酝酿之中。美国联邦政府今年4月份率先推出了大数据计划,这个表上列了一些参与的单位。大家可以看到,除了里面几个跟科学大数据,像核物理、像地学等相关的部门以外,其实其他绝大多数的部门里面做的都是与公共管理有直接关系的。
我们讨论的应用背景和动因是公共管理,开始介绍之前最好界定一下什么是公共管理。我自己是IT的背景,在中国和美国都做过一些公共管理方面的应用。本来以为随便找一本教科书就可以找出一个非常精准的定义,结果发现现在共识的定义是没有大家都可以认可的。国际和国内都是这样,没有办法,只好用一些非正式的和启发式的这么一些定义,大概的来说在我们讨论里面,公共管理主要指政府部门公益性的职能,还有具体服务于国家、社会、企业、社区等等的行为。
我们先简单的讨论一下什么是公共管理大数据,然后再讨论大数据环境下面的公共管理。模仿美国给大数据下的一个定义,我们把公共管理大数据定义为由传感设备、科学仪器、应用软件、互联网以及政府相关的调查研究等等渠道,生成的这些大规模多模态分布式长期的面向公共管理领域的复杂数据集。与一般意义的数据相比,公共管理大数据之所以称为大数据,主要是因为首先在现有的技术条件下面,我们不能进行相关的处理。其次,即使在理论上能够处理了,但是因为效率低下,无法在给定的时间给出有意的结果。公共管理大数据主要有两个来源,一个来源是政府内部数据,比如政府搜集的各种资料,还有由政府业务产生的各种数据,比如大家从机场过安检,过程里政府部门收集了很多多媒体的数据和文本数据。除了政府内部数据以外,还有政府内部也产生很多公共管理相关的数据。互联网在外部数据里扮演了非常重要的角色,像由网民群体产生的数据,例如微博等等。
政府的内部数据很像企业的ERP数据,它们结构化的程度非常高,而且数据采集的频率也比较固定,根据不同的应用有月的、有年的,有按小时的。政府外部数据里面包含许多非结构化的数据,文本的、多媒体的。数据本身它也是实时的。每谈到大数据,大家都喜欢引用一些吓人的数据,我也想跟风,结果很可惜,我的研究生花了一天一夜找了各种各样的数据,没有对大数据有一个估计。
美国政府最近发布了一个资料,各个政府部门加起来数据中心的总量超过2000个。每个数据中心的数据没有公布,但是他说的数据中心都是规模相当大的,集成的数据服务中心。大家如果再进一步发现里面很多的数据集,每一个数据项本身的规模都非常庞大。
我一个朋友在美国的大学里处理的数据,加起来有64亿条之多,这里在公共管理领域上是起到非常大的作用的。有了这些大数据,我们能够做出什么跟以前不一样的事情?下面我想从理念的层面谈一谈我们在大数据时代公共管理方面比较粗浅的见解。
近年以来,各国政府非常重视社会信息化的建设,我们刚刚闭幕的十八大报告里也多次提到了社会信息化。大数据必将为社会信息化和公共管理信息化带来重大的机遇。一方面政府内部大数据的层面来说,目前政府内部的数据量激增,数据的复杂性和实时要求性也非常的明确。怎么样充分利用这些数据,提高政府公共管理的效率和效果,决策的科学性等等,都已经成为了技术上的瓶颈。另一方面,互联网和社会媒体上蕴含的数据,对公共管理,尤其是对社会安全,可以说现在正在产生更为重要的影响。传统的基于数据统计分析的公共管理模式,已经无法满足我们提到的在大数据环境下进行公共管理服务的要求。大数据本身是政府的一个战略资源,对于政府公共管理政策的制定、实施和评估,这几个方面都有非常重要支撑作用。
(如图)上面有很多具体的公共管理上的功能点,我们可以根据大数据的分析和挖掘,实现由数据驱动的公共管理上面的决策科学化。在智能化和的基础上,我们最终实现了智慧城市这么一个通盘的考虑。
为了实现智慧城市这么一个远景的目标,大数据事实上是直接要促进政府对公共管理理念的转变。其中的一个思路,事实上也是从电子商务最近的像在营销学和运营学提出来的理念,我们觉得放在公共管理里面也是非常合适的,就是以社会生态系统的视角,从这个角度审视公共管理中的各种理念。
在新的视角下面,政府是需要改变传统的角色模式的。左面这一列是对传统模式的一个基本上的梳理,主要是基于经验,基于领导意志。右边这四条,每一条都针对前面提到的现代业务公共管理里面的决策模式,可以说是革命形式的转化,从多维度进行的变革。与民众之间有一个协同发展的过程,问政于民,问计于民,这是他们管理模式的核心。其他的在政府各部门之间,以前也是各自为政,现在政府各部门之间在基于社会生态体系系统的这么一个视角下,也需要摆脱这种模式,做到他们之间的互相共赢的合作的方法。
数据处理方式,在大的场景下,它有需要有比较大的改变。从传统的基于结构化数据的挖掘,转变成更加粗的社会生态系统整体的从系统层面进行分析。最终我们希望得到在宏观的知识的挖掘,在智能化的决策支持方面,能够有更好的工作,能够对公共管理进行更好的支撑。
有了远景的目标和新的理念以后,公共管理大数据的处理和分析还面临一些具体的在数据管理层面,在数据分析层面,数据共享各部门之间共享,包括和民众共享方面,还有在决策方面有一些比较细致的技术层面的一些挑战。因为时间关系,我在这儿就不详细介绍了,数据管理层面包括采集存储控制,尤其是在外部数据方面,事实上公共管理领域里面遇到的问题跟我们前面讨论的电子商务领域遇到的问题是类似的。分析工具有深层的,有浅层的,公共管理领域有一些新的特有的需求,在电子商务里没有,这些都需要我们做IT的,或者跟政府信息化相关的企业能够提供更好的模型、计算方法给予支持。
在共享的技术层面,这也是老生常谈。最核心的还是各个数据来源之间比例的匹配,包括数据源之间动态更新和可视化等等。这在一般性的数据挖掘中也会碰到这样的问题。在决策技术层面,这些挑战应该说是公共管理理念特有的,怎么样针对公共管理理念非常具体的决策场景,我们能够做出基于动态的、社会数据的这么一些决策的框架,能够给他做出基于大数据的支撑,这里面有很多研究的工作可以进一步的开展。
下面我想非常快的介绍三个案例。第一个案例,这是美国的一个计划,欧洲在里面也有不少参与。里面主要做的一件事就是把每个政府里各个部门之间的数据综合起来,它的基本思想就是做一站式的网站,通过这个网站把很多政府各部门的数据聚拢起来。聚拢过之后,能够向民众开放原始数据,能够在政府之间进行各种各样的数据共享。同时能够在共享的数据,融合数据体以后,有了融合过程之后,能够做各种各样的服务。从多个政府的数据源获取数据整合出来之后,能够做很多非常有意思的对社会学、对公共管理,甚至在IT方面,甚至我刚才提到的广告都很有关系。通过一些特有的数据源能够分析出许多非常有意思的事情。
分析一些美国和中国之间的经济数据,还分析了美国媒体对美国本身政府投资之间有什么关联的关系,这些都通过Mashup融合过的数据得出非常好的分析结果来。
第二个研究案例是Ushahidi,诞生于2007年、2008年的肯尼亚危机事件。实时的由民众来贡献,当危机发生一个,一个事件发生以后,各类的灾情和相关的救援信息由老百姓通过自己的移动终端,包括其他的一些信息终端统一的整合起来,整合以后,在时空上面其实用的非常简单,底层技术非常简单。这个词大家觉得比较怪,它实际上非洲的一个语言里面证词的意思,证词就是老百姓看到了事情希望通过一个平台跟大家共享。这个平台发布了以后,在各国媒体都引起了很大的反响,被誉为给应急的响应和救济的处置带来了革命性的变化。我简单的介绍一下从起点到现在大概4年多的时间,在全球10起的突发事件中都起到了重要的作用,尤其是在海地特大地震当中发挥的作用在全世界都受到了非常好的关注。在墨西哥湾石油泄漏中,把一般老百姓贡献的信息,包括油漏和各种各样的灾难信息综合起来以后,政府花了非常非常多的钱,大范围的油污监制和政府整合的资源做了一个对比。结果发现由民众不花钱的方式积累起来的信息,跟政府花了大量的资源收集起来的结果基本一致。用这个平台获得的信息时效性更高,动态效果更强,而且监测更有深度,对救援人员来说做决策都是非常有帮助的。同时,过程里不光是一个信息聚集的过程,跟大众交互的过程中实际上已经有很多的互动。
下面一个项目是我以前的一个朋友在哈佛医学院主导的一个项目,这个项目跟刚才说的项目非常的相似。它也是基于互联网的全球预警系统,这套系统关注的点只是全球的传染病的爆发。它的模式跟刚才说的非常一样,老百姓每个人有什么病,头疼发热,这些信息他就通过移动终端,iPhone上也有,通过其他的渠道把它汇总到哈佛的平台上面。汇总过后平台做一定的过滤,因为害怕有人在里面报虚假的信息,过滤之后,在内部平台的电子地图上对各类的疫情病的情况进行动态的跟踪。不光有个体的用户,还有单位的用户,他们根据定制可以做各种各样的预警。这个平台运行大概有3年的时间,不仅能够实时监测官方报道的全球疫情的情况,同时还能监测到许多官方不能获得的疫情信息。它对全球疫情爆发,每周做预测的时候已经变成了一个重要的信息渠道。这个案例我就不在这儿讲了,在海地的地震里,对整个过程,尤其是公共卫生方面进行了持续不断的关注。
第三个案例是中科院自动化所做的一个基于互联网的实时传染病和生物反恐方面的监测预警的整体的体系。里面核心的一点是像这种应急的场景下,最要紧的一个因素实际上是时效性,很多病你如果早知道几天,从公共卫生的部门实际上做响应,做各种各样的处置,都会有一个很好的结果。如果就晚那么三天,很多事情已经拖到最后无法解决了。有一个量化的手段,有一个持续性的实时的连续监测的手段,对跟传染病爆发有可能相关的因素进行实时的监测,并且建立模型,根据这些模型最后能够给公共卫生应急体系,你能够告诉他什么地方有什么风险,数据告诉你有可能有什么爆发的趋势。
现在由国家的重大科技专项支撑的项目,我们已经做完了北京市的很多病的预警情况,正在往全国的范围内推广。最后很简单的提两句展望。从三个层面。一个是数据层面,二是分析和决策层面,最后一个是人的层面。这些都是对公共管理大数据研究的一些想法。
数据层面,根据我们对文献的理解和我们自己做项目的经验,我们感觉有两点最重要。一点是社会计算。现在大家提的一个概念是物联网、虚拟网络和社会计算全部混在一起的这么一个复杂的数据系统。在这层数据里面,分析和处理都有很多新的东西可以做。
二是数据共享。从分析的角度,我们的想法跟很多今天听到的有所不同,数据是一个比较古老的想法。一个数据本身并不能告诉你故事,尤其是在社会领域。在社会管理层面,在公共管理层面,很多必须是基于模型的。基于模型的理念跟基于数据的技术方法必须有一个深度的融合。
三是以人为中心的计算。里面有两层含义,一层是以社会公众个体为中心的个性化的公共管理服务,这块在医疗,包括其他的企业,现在这些行业我们看到已经有很好的体现。我们预测它会越来越重要。还有一块是刚才提到的众包,是老百姓通过各种各样的方式帮助政府解决各种问题。这里面有很多机制设计的问题。你做公司的时候公共管理也是很有机遇的,系统评价各方面应该说里面有很多有意思的东西大家可以深入的进行一些研究。谢谢大家!
主持人:非常感谢曾老师精彩的演讲,刚才曾老师讲的一个观点特别重要,就是怎么把人、数据和决策结合起来,在公共管理的领域能够用到。下面让我们请出另一位演讲嘉宾王益。他到腾讯一直负责处理几万几十万服务器的大的数据问题。
王益:我今天给大家带来的内容是关于广告的。在腾讯用到的数据是很丰富的,精准的判断一个人看什么,对什么感兴趣,我们出的广告应该是用户觉得不受打扰的,这是腾讯接下来一个很重要的目标。
这个论坛叫大数据,大家一想广告和大数据有什么区别,或者大数据本身值不值得关注呢。两个星期之前,腾讯的高级副总裁问了我们一个问题,说大数据是不是一个炒作,当然我知道他们希望我们回答不是炒作,因为他参加了一个IDG主持的论坛。
大数据到底是怎么回事,说到大数据的时候就应该有一个来源。我以为真正大数据的来源是互联网产品。我听到研究行业各位教授们的介绍,也听到了来自公司商业智能方面的介绍。我今天介绍的内容更主要的是来自互联网产品的。我们每天早上起来就开始工作了,像我早上起来第一件事是收发电子邮件,今天我们大家用的这些电子邮件产品都是互联网电子邮件。设想像QQmail、Gmail、新浪邮箱系统加起来用户量有多少?差不多有10亿。每天早上收发5封,发出去5封,就会为这个系统贡献很多数据量。如果这样的系统运营了10年,每年365天,数据的量就会很大。其他的协同编辑、云笔记,还有搜索引擎,半传统不传统的社交网络,每天都会留下很多用户的足迹,他们在上面做了什么。这些足迹会帮助我们了解他们接下来想干什么,这些日志每天的量都是以T计的。这是真正大数据的一个来源。
刚才说的那么多应用都是谁在买单?应该是广告主在替我们各位买单。广告主替大家构造一个免费的互联网,这个传统是从什么时候开始的?应该是从上个世纪最后的一段时间。我的印象中是从雅虎公司开始的,在雅虎这个公司走向巅峰之前的互联网是一个小众的应用,不是每个人都能用的。很多互联网网页要登录进去,为了取得用户名称和密码是要事先交费的。刚才我们说到常用的一些互联网产品,在这些产品里都能看到广告,有的广告并不多,让这些广告不至于影响我们的市场使用。差不多有三类搜索引擎结果里能看到搜索广告,在社交网络的内容里能看到夹杂着社交广告内容,其他的几类产品中的广告我们统称为情境广告,也有人叫上下文广告。这几个层次加在一起就构造了大数据的生态体系,为了实现刚才说的这些搜索社交邮件的应用,我们需要很多人工智能算法。今天的互联网产品和早期的已经不太一样了,早期的互联网产品是做主页就能卖钱的,今天的互联网产品在浏览器上大家要做各种互动。
互联网人工智能技术也是我接下来介绍广告里面的一个重点。它和我们在学校做的事情就很不一样了。比如刚才大家听祝教授的介绍,当学校里的研究人员来做研究的时候,我们通常不会直接处理群量数据,要从中取出重要的样本。在真实的互联网环境里,为了支持这个业务能跑起来,每个公司都必须要有极大的海量存储和海量计算的框架。从另一个角度来看,这些数据都是用户的行为产生的,大家在产生这个行为的时候,脑子里在想这是人类智能活动留下的数据。1997年互联网盛行之前,在人类了历史上没有任何一个机会让我们留下并且有机会来分析几亿几十亿人的思维足迹。这也是互联网大数据的价值所在,我们要充分利用这些数据归纳出足够充分的知识,这些知识能够帮我们做很多事。除了上面说的这些应用之外,它们能帮我们赚钱。
今天中国传统广告业务的规模有多大?是以千亿计的。今天中国互联网广告业务的规模有多大?要少一个量级,是数百亿,加起来也接近千亿了,几乎能够跟传统广告抗衡,在美国市场这个比例更偏向于互联网广告一些。在互联网应用越来越丰富的时候,在我们的技术越来越能抓住用户需求的时候,互联网广告仍然会有很大的升值空间。为了让这些智能算法跑起来,我们需要海量进行计算的技术,这就是我们所说的云计算技术。后面列的几项技术大家都很熟悉,这是本身我们把人工智能算法从几千个到几万个甚至几十万个CPU上跑起来的基础。这些算法跑是要处理数据的,输出的是海量的数据,结果可能也是海量的。为了支持海量数据的访问,需要有海量的云存储。
支持云存储的机器在哪儿?在数据中心。比如腾讯那样的公司,在中国很多大城市都有数据中心,Google在世界各地都分布着数据中心。数据中心里装的是什么?是服务器,是硬盘,是路由器。很长一段时间里,当我听到大数据这个词的时候,我就觉得好像又是一个炒作,是不是造硬盘的公司弄出来的。实际上仔细想想,大数据还真是有这么一个问题。列出来的是我理解中的大数据生态。广告中买单是在为什么买单?就是在买这样一个层级结构,其中的每一级都要花钱。
接下来我要说的是广告系统,刚刚我也介绍过广告本身要利用其他的产品产生大数据。腾讯会利用搜索引擎产生,帮助我们知道每个人对什么感兴趣。广告本身要利用大数据,自己也要产生大数据。在广告领域什么样的人工智能算法能够帮助我们更精准的定向广告,一类叫相关性计算,这些人工智能技术一方面帮助我们了解用户对什么感兴趣,另一方面帮我们找到与兴趣相符合的广告。还有一类叫点击率预估,我们要判断一下哪些广告展示出来,用户最可能去点,我们选择什么样的广告展示?一方面是用户愿意点的,另一方面是用户每次点击之后广告主为了感谢我们帮他做的推广,愿意给钱给的多的。
刚刚说到利用好这些数据之后,我们可以做一件今天广告系统做不了的事情,就是精准的广告定向。我们清楚的知道他愿意看到什么,就可以做到精准的展示。做到的极限就是广告即内容。今天能做到类似的产品已经开始出现了,大家如果用手机的话看看Tiwtter,看看Facebook。我们的主要内容不在于技术,但是为了多提供点干货,我还是会介绍一些技术。
假设我是腾讯的工程师,知道这个人在看腾讯的产品,在用微信,他的QQ号是多少我们是知道。给这个人展示广告展示什么样的广告?一个很简单的思路是我们知道这个人QQ号在搜搜上搜索了什么,他刚好搜了鲜花,买了一果花,我们就可以在广告中选择标题里带鲜花这个词的广告。沿着这种思路往下想,来看看这样做靠不靠谱。比如有一个用户搜过两个query,一个叫apple pie。假如我们有两个广告,一个是关于苹果公司的,另一个是关于苹果农业种植。我们怎么做匹配,刚才我们说的方式是在文本中做的匹配。字面上的匹配发现apple pie和苹果公司匹配起来了,而iPhone crack和苹果公司有一点关系,可另外一个实际一点关系都没有。在文本很短的时候,很多词并没有交集,但不能表示不匹配。机器能理解语意吗?机器可以像人一样能够理解语意的。
假如我们在互联网上搜索到海量的文本数据,比如在座有来自百度的同学,百度每次的搜索量很大。得到很多词的聚类,每一类词都可以频繁的共建,表达的类似的语意。我们得到的每一类词是一个语意。有了语意之后,如果还有一个算法能帮助我们把一包词投影到语意空间,比如给apple pie这个词,我知道它和上面的语意关系很强。apple pie和苹果电脑关系不是那么强,我就知道这一端的query主要是表达第一个语意的。我们把所有的query投到语意空间,发现很容易比较。
我们怎么样真的能得到这些聚类,又怎么样能够有一个算法,利用这些聚类,把一段文本投影到语意空间,这是最近十年里研究非常火热的一项人工智能技术,叫隐含语意分析。
这张图说的是最近十几年中人工智能技术发展的足迹。列了几个我们在实际工作中得到的语意。第一行的词包括淘宝、拍拍、卖家、货,大家一看这些词构成的语意就是和电商买卖有关的。第二行的词女生、男生、表白、拒绝,这和年轻人谈恋爱有关。再下面是和教育考试有关的,再下面是和歌有关的。实际上我们的系统能学出多少这样的语意?在很多学术研究的论文里,相关的技术能形成几十个、几百个语意。我所了解的业界最大的语意模型,包含的语意数量是Google的一个系统。我曾经在Google做相关的工作,它能学出100万个语意。大家想想我们今天学的词有多少,中文的词,包括复合词,很复杂的NBA的全称,美国男子篮球联赛。把这些词全部算上差不多是30万,100万语意是什么意思?已经不再是词的简单聚类了,它是能识别词的多义性。它已经不做词空间的比较,而是真正的到了语意空间的比较。
今天在腾讯碰到的一个问题是Google和百度这样的公司没有的,在Google和百度很多人会用他们的搜索引擎,所以很多人都会留下搜索足迹。只要知道一个人的搜索足迹,就能知道他对什么感兴趣。可惜的是腾讯搜索引擎的市场份额比较小,比搜狗还要小,但我们的用户量又比百度要大。腾讯几乎是包罗了中国最大的互联网用户群,在这个用户群里只有不大4%的人最近在搜搜上留下的搜索足迹。我们如何针对这个问题了解更多腾讯用户的需求,这就需要用到另外一部分腾讯特有的数据。举几个例子,有的是我们能用的,有的是由于腾讯严格的数据管理政策,我们不能用的。
我们知道用户的关系,在QQ里有哪些好友,在腾讯微博里放了谁,在腾讯QQmail里和谁通讯,很不幸这些数据我们不能用,因为它太敏感了。在以大数据为输入,从大数据中提取信息的过程中,我们经受很多的人,很多的工程师,这些过程都可能导致数据的流失或者是散布。所以这些我们不能用。我们怎么样把数据用起来?这又是人工智能技术再次出场的时候。
对刚才的模型我们做了一些改进,结果不只是把词聚类成语意,而且还包括不同的搜索足迹和语意之间的相关性。最上面这一行文字是我们学出来的几十万语意中的一个,目前世界上能学出来最大的最多种类的语意模型是Google的,但是我能看到的一些语意,有一个语意只有三个词。这三个词我都不认识,而且在字典里查不到,在Google搜索引擎中搜,才知道第一个是一个语言学家的名字,第二个是他的一条狗的名字,第三是非洲一个土著部落的名字。语言学家为了研究土著部落的语言,带着狗在荒野里生活了20年。这样的语意我们在日常生活中几乎用不到,大家会觉得没有什么用,有没有用其实不好说,真可能有用。为什么?大家想想今天我们互联网广告为什么赚钱?因为我们用户多种多样。每个人有不同的偏好,所以各种各样的广告都可以有展示的机会,都可能有人感兴趣去点,都有盈利的可能。
我在例子里只用人的年龄来做分析。有19到24岁的,还有41岁到更大的。人到中年有赚钱压力了,养老婆、养孩子了,所以41岁阶段的他们对股票、投资、证券、黄金更感兴趣。有了这样的模型,我们就知道用户喜欢什么了。
我们期望迈向精准广告的第一步。
