网易首页 > 网易科技 > 科技频道 > 正文

云大数据论坛:探讨大数据的社会生态化

0
分享至

主持人:很荣幸的介绍第一位演讲者,他是来自香港城市大学的祝建华教授。祝老师在美国和香港都有很长的工作经历,对于传播社会学有很深的造诣。今天他给大家演讲的题目是一个文科教授眼中的大数据。有请。

祝建华:谢谢周老师的介绍,用现在的网络语言,我是一个文科男,或者是老年文科男。最近大家最有印象的是莫言在接受诺贝奖时说了一句话,文学不是科学,文学是做无用的东西。我想解释一下文学不等于文科,文科的面更广,在国外分为人文学科和社会科学。我们做的其实是社会科学,当然在座的大部分应该是理科男或者工科男。我很感谢会议把我的发言放在第一位。我觉得我有点对不起组织者,讲一些文科男或者社会科学研究人员对大数据的看法,有些看法也许不是那么乐观,有些保留,这些问题只是供大家参考。

今天上午几个发言人都讲到了现在的大数据是大热,我做了一个小小的统计,(如图)左边在Google搜索词中有关大数据的搜索很多。右边是SCI/SSCI期刊里有关大数据的研究论文,相比之下,学术界对大数据的关心热情比整个社会来的更积极。有关大数据的论文在最近几个月有非常大的增加,反而一般用户的关心当中大数据是平滑的在增加。

我进一步看了一下,研究大数据的学者当中都是来自什么学科的?首先第一位应该是信息科学,计算机科学,占27%。相等的是工程技术,当然在很多学校工程技术跟计算机信息科学和技术是交叉在一起的。这两个部分占了一半以上。然后是两个比较大的应用领域,医学生物化学是一类,下面是基础研究,数学、物理。再往下两个比较小的团队,一个是商学院,一个是社会科学,加起来15%左右。我们做的研究差不多落在这15%里面。

虽然是文科男,但一直在做数据,以前做的都是小数据,我有幸被邀请参加了中国计算机学会最近成立的大数据专家委员会,也参与了大数据委员会对大数据研究的一些热点问题和发展趋势的评选工作。按照我的理解,最近发布的对大数据研究的八个热点问题和十大趋势,在全球范围内至今是最系统的一些看法和表述。当然美国和欧洲各个机构,各个商业学术团体都有一些非常精辟、非常精彩的看法,但从全面性讲这可能是第一个文件。

大数据这个概念最近一直在受到关注的同时,也是有很多批评的意见。也许大家都见过这一条报道,他是Sybase的技术总裁,他讲大数据是一个大谎话。Sybase在座的可能都很熟悉这个公司,是做数据库的,长期为企业做BI应用工具的。他们一直在做大数据的工作,所以觉得现在所有讲的东西早已有之,不是什么新的东西。所以,从这个角度讲他觉得是有点泡沫,有点夸张。做时政研究的人并不完全认同,有些地方是有点夸大,但没有夸大到是虚假的泡沫。

再回到4个V,什么是大数据。从4个V可以衍生到中文当中的多快好省这四个词。哪些是理论上应该实现的,哪些实际上已经在展现,哪些现在还有差距的,是不是多快好省。多,大家讲的个案很多,做数据分析有一对基本的概念,就是我们不仅关心了是个案,同时关心的是变量,变量就是特征值。如果是做一个网络流量的数据,我们关心的是网民各种各样的特征值,做产品的话,产品也有更多的特征值。这两者的交叉,用一个二维的表来说,个案就是每一行,变量就是每一列。在这样的范围内讨论,按照我的想法我们应该关心的是总体和样本之间的选择,到底我们应该是做样本还是选总体。

我想引入另外一个概念,我们有一个叫总体数据,大家都非常清楚,最容易解释的是每十年中国和其他很多国家都要对全国的居民进行人口普查,最近一次的人口普查2010年,发现13.8亿。另外一个概念我们经常用的是样本,抽查,每一年国家人口统计中心或者国家统计局还要做千分之二的样本调查,知道在两次大的十年之间的人口普查之间中国人口增长的变化。

实际上我们现在在讲的大数据,理论上讲应该指的就是总体数据,但实际上在很多情况下,由于技术的原因,由于人为的原因,由于其他原因,按照我的看法,除了少数数据的原始拥有者。例如淘宝或者是新浪微博,或者是今天上午讲到的国家电网或者是教育网,他们也许是真正掌握了总体数据的。对于绝大部分第三方来讲,我们并没有拿到总体,那多的都是局部。这个局部也许是很高的百分比,70%、80%,哪怕是缺了这10%、20%,也许局部数据跟总体就有很大的差别。

我们社会科学做时政研究的人来看,很多情况下样本数据,虽然它的规模要小很多,但实际上比局部数据要更有价值,更可靠。我这里做了一个很小的模拟,随机产生了一万个个案。从一万个点中我抽了500个点,随机抽的。500个点看上去很稀疏,但是它对总体的代表是很好的。我抽了500个个案的样本,计算百分值也是在原点。再抽80%的样本数,人为的设定一些界限,使得其右方向偏,它的数就有所偏离。

数据是用来描述客观事件的,一般把事件分成两类,一类是常态的,一类是异常的。最极端的是前几年有人讲的黑天鹅事件,理论上存在,实际上很少发生,如果发生的话,它对社会带来的影响是极其灾难性的后果。如果我们我们有总体,那没有问题,任何事件都在数据当中可以反映。如果我们有幸获得总体数据,以淘宝为例,淘宝的总体数据仅仅是淘宝网上的,它并不是中国电子商务所有的数据,还有京东,还有其他。谁要说我研究的对象是中国电子商务淘宝的数据,再海量也是一个局部数据,而不是总体数据。

不管怎么说如果你正好有这么一个总体数据,你就不用担心你想描述的事件是常态的还是异态的,不会漏掉东西,结果一定是准确和精确的。如果我们有样本,只要你的抽样方法是符合随机概率的原则,你的基本结论,你的样本对总体是有无偏的估计的,就是准确的,但不一定精确。只要样本足够大,跟总体差距就在1到3个百分点之间。如果我们要研究的是一些异常事件,比如黑天鹅事件,样本数会经常遗漏这些异常数据。假定是局部数据的话,哪怕你是总体的80%,甚至90%,你研究的就是常规事件,你的代表性也许很差。局部数据不管你的规模多大,都是最坏的数据。为什么?因为你漏掉了被你选择的都是一种自我选择机制,这种机制是无所不在的,时刻影响到我们数据的质量。很多情况下我们研究者并不知道为什么我们缺少的一些东西,任何数据的缺少背后都有社会、经济、法律、自然等等原因。我们的观点是做大数据,要么就做总体,如果你有能力,要么就是做样本,掌握你的方法,你能估算你的误差在哪儿。如果依靠局部数据,被局部数据的海量规模所迷惑,其实是害死人的。

历史上有过很多案例,在我们教学过程中每次必讲的是美国1936年的总统选举。2012年的选举刚刚结束,其中有一个非常让人注意的是有关选举的预测问题。这种预测从1932年开始到现在有80年的历史了。那个案例一直成为一个经典,当时有两家公司在做预测。第一家是杂志,随着杂志寄加了问卷,回来250万份问卷,那时美国全国的选民大概是1亿左右,250万已经是相当大的数量。他们经过回收,发现蓝顿比罗斯福高了14%,以绝对优势当选。另外有一家现在是全球知名的品牌,那时刚刚开始搞的一个小小的调查研究,民意测验中心,调查了5000人,他选择的是随机抽样的方法,预测是罗斯福当选,56%。最后罗斯福以压倒性的票数胜过蓝顿。发送杂志订购杂志的人相对知识多一点,更有钱,所以对共和党更支持。而随机样本虽然小,5000人,大概有一点多的百分点,跟总体有一定的差别,但大面是准确的。只是大,但不注意数据的代表性,后果更严重。

我们现在讲大数据,这是以前社会科学家们做的小样本,我们用的数据叫做少个案、多变量。我们数据的结构有N个个案,理想当中的大数据,不仅要变量多,而且个案多,不光是N个,也许是无穷大的。也许我的接触是有限的,我的观察是现实生活中我们现在用到的大数据仅仅是个案多,变量并不多。早晨有人的演讲当中用了7万个变量预测借贷款,这当然是一个革命。以前我们所谓的多变量只有几百个,最多也就是上千个,7万个变量是从什么地方来的,真的是惊人的。多个案,少变量的数据结构是我们面临的大数据的基本环境。造成的原因之一就是每个人占据了其中的一小部分,也就是所谓的数据孤岛。真正要使我们有多个案,多变量大数据的方法,就像今天早上启动的大数据联盟,通过分享、通过整合才能做。

快,其实是效果跟效益之间的选择。我还是用社会科学文科男们做的研究作为慢的例子和现在的大数据的一些基本方法来做比较。我们做的都是手工标注的,现在都是自动分类的。从规模上是没办法比的,我们一般一个样本只有几千个,现在几百万是小的,到万亿才是常态的。从准确率来讲,人工永远超过机器的。有人统计过,我也是自己观察一下,机器学习的准确率平均差不多在80%左右,当然也有些做自然语言处理的,做人工智能的会跟我辩论,说某一个特定的项目他们能做到90%。但是如果把所有的研究都拿来平均一下,80%是比较乐观的标记。人工情况下基本能做到90%、95%,一般学术期刊上准确率低于95%是不会接受的。问题是你怎么知道你的准确率?我们的一般方法是对同样的内容要有两个或者更多的人分别独立的进行标注,而且是背靠背的互相不知道。通过各自的理由,最后计算相互的相似度。

大部分情况下如果是全自动的连准确率都是无法知道的,现在大量的用网上抓做预测的,到底预测以后准不准,永远是一个未知数。从误差来讲,人工判断有误差,但这些误差都是个人误差,如果有几个人同时做的话,其实误差可以非常小的。机器学习的误差是系统性的,如果你知道偏在哪儿,可以很容易的就把它改过来,关键是误差差在什么地方不知道。这就是我刚才讲的,如果是我们已经拿到了局部的数据,你不知道局部的系统误差是往左偏,还是往右偏,偏高了还是偏低了并不知道。所以,按照我们的看法人工小规模的小样本的数据,研究结果是准确的,但是不够精确,所谓精确就是不够稳定。继续学习的方法倒过来,因为你有海量的数据,几百万,几千万,非常精准。其实精准这个词从英文里面只讲准不讲精,精而不准是大数据现有的一个问题。很自然的想到我们需要把人工标注和自动分类结合起来,有监督的机器学习。机器学习包括训练集的质量,训练集规模和你的算法,这三者的重要性就是按照这个排位的。

省,到底是省的人,还是省的能源。大数据肯定省的是人,但省人的同时在耗能。也是一个环保的问题我不想多讲,实际上是惊人的。如果现在才开始规划,不注意的话,也许几年以后大数据就成为我们一个新的污染工业,污染的重工业。确实存在的,我今天早上刚刚听说准备在什么地方建立大数据中心,来几百万台服务器。你可以想象得到所耗用的能源和它产生的辐射,我不是学物理的,我相信辐射也是非常可怕的。实际上现在数据的增加,每年递增的速度远远超过我们现在除尘能力的速度。在这种情况下,除非我们的除尘材料有突破,不然我们必须要想一个问题,到底要把总体数据保存下来吗?联通只能保存4个月,还是抽样,把大数据变小。

这个问题是所有问题的核心,没有答案的。我只想说几个问题。第一,大数据是好,但是大数据在哪里。如果我们拿不到大数据,就是一个橱窗里面的蛋糕,只能在外面看。按照我的看法,我们可以把大数据分成几种,小规模的、中型规模、巨型规模的。小规模的非常多,免费就何以得到。中规模大部分情况下也是免费的或者是一些低成本的。真正的大数据其实是得不到的。做应用也好,做工具服务的也好,都必须考虑这个问题。这就讲到数据的分析工具,实际上对大数据的分析工具并不发达,我们现在所用到的绝大部分工具都是用来解决小数据问题的,用来解决常态数据对异态数据的统计工具。现在基本上没有,最近有人发表一篇文章讲用于大数据相关分析的一些重要思想,这个工作就相当于高斯一百多年前提出的小数据相关关系的年代。也就是说,我们处理大数据的能力还是处在起步的阶段,现在只能分析二元,而不是多元。7万个个案的模型我没看过,也许我们这种学院派的人士比较保守,我不相信他们能做到,因为现在用的都是传统的经典的工具。

对大数据怎么看?我的看法不全部是乐观的,也不全部是悲观的。数据的存在肯定是一个新世纪、新纪元,从数据的潜在价值来讲也是存在的,但是数据的应用,数据的分享,其实是有很多问题的。数据的除尘跟数据的分析研究,其实是刚刚开始,应用现在远远走在了研究的前面。很乐意跟大家一起讨论交流,谢谢大家!

主持人:谢谢祝老师精彩的演讲。首先有很多观点,我是非常赞同祝老师的观点。比如理论笑到最后。祝老师也指出了存在的很多大的理论问题。下面有请程学旗的代表大数据专业委员会介绍一下关于大数据的热点和趋势的讨论。

程学旗代表:我报告的题目是大数据的热点问题和2013年的发展趋势。这是CCF大数据专家委员会在内部做的很详细的调研结果。

关于背景我先做一些简单的介绍。去年我们开了一个大数据的相关会议,会上很多专家提出来,我们能不能在CCF下面成立一个大数据专家委员会。从今年年初开始,我们一直在筹备这个事情,今年10月份在大连中国计算机大会上宣布大数据专家委员正式成立。成立的时候大家有一个很困惑的地方,虽然每个人都在谈我是做大数据的,或者说跟大数据有关的,但是有很多问题大家都没弄清楚。比如说到底什么叫做大数据,到下来还没有一个让所有人都内容公认的定义。大数据本身的内涵是什么,不同的人讲的时候会有不同的答案。

另外,大数据它为什么能够成为一个热点,哪些问题是来自大数据的挑战,这些问题大家都不清楚。计算机大会2000人的规模,同样的问题问不同的人可以得到不同的答案。正因为这样的原因,在大数据专家委员会内部形成了一个共识,能不能在专家委员会内部先做一个调研。专家委员会现在有70人,学术界有46人,产业界有14人,海外代表有10人。在这70人里我们做了一个调研,尝试的对刚才提到的问题给出一个初步的答案。

具体操作是这样的。先是在70人里面发问卷,你所认为的大数据的核心问题是什么,大数据的发展趋势是什么。从收上来的问卷里我们又摘录出来一些问题,经过归并整理,又形成侯选问题。让70位的专家去投票,再从里面选择,最后经过建议归并整理,形成了最后的答案。

下面来看大数据热点问题的侯选项目。其实一开始我们想要回答什么是大数据的核心问题,但后来把侯选问题拿到之后,大家又做了一个分析。征集上来的问题相互之间有一定的关联,有的力度粗一些,有的力度细一些,经过慎重考虑,后来改成叫做热点问题。我们对这些问题的回答是非常谨慎的。

我们收集到了14个热点问题的侯选项,划分成了四个大的板块。第一个是科学问题,第二个是技术问题,第三个是应用实践问题,第四个是大数据的生态问题。科学问题里我们关注一个是大数据真正的科学问题是什么,大数据的基本内涵是什么,大数据计算模式,有什么样的一些模式。技术问题方面关注到大数据本身是因为多元,形态是多种多样的。还有大数据的空间的问题,大数据在网络上分布,涉及到传输、存储以及运算。大数据时间维的问题,涉及到大数据的时效性,在线处理,怎么样把大数据变成一些小数据,再从小数据里进行数据价值的提炼。各行各业的人都在说我在做大数据,最重要的是发现大数据的应用能力是什么。还有大数据的存储系统、平台系统,方方面面的系统提出了各种各样非常苛刻的要求。另外,大数据的质量问题,大数据的安全和隐私问题。大数据已经向资源化的角度来发展,就涉及到里面的共享问题。比如如何去共享,共享的时候有方方面面的问题引发出来。还有大数据的生态环境。

我下面做一一的解读。每一个问题后面都有一个数字,数字是70位委员投票的结果。通过最后的投票票数和归并,最后形成了八个问题。第一个热点问题,数据科学与大数据的学科边界。有两个方面的问题,一个是恩数据的科学问题,二是大数据的基本问题。比如数据界跟物理界、人类社会之间存在什么样的关联与差异。大数据是否存在独立于应用领域的数据科学。如果我们把数据界跟自然界对应,在数据界里大数据分类的谱系是什么。大数据区别于传统的普通的数据,它的特征是什么。刚才祝教授讲的时候,讲了多快好省,4个V,现在有人提出5个V、6个V,8个V的都有。我们想知道到底哪些V是最关键,哪些是V是派生出来的。大数据是否意味着是全数据,有了大数据之后是不是我什么都可以干了。

第二个问题,数据计算的基本模式跟范式。自从微软提出数据密集型的计算之后,我们想知道数据密集型的计算范式到底是什么,基本范式里面的内涵是什么,怎么样去评价数据计算的效率。数据计算的复杂度如何去评估。另外,大数据方方面面的性质,首先它的体量非常大,是不是去中心化自组织的计算模式是适合大数据的计算模式。

第三个问题,大数据的特性与数据态。这里面有三个方面的问题,一个是数据关系维问题。大数据是通过各种各样不同的数据而来的,这些数据之间形成了很复杂的关联关系。在空间的角度来说是大数据怎么样传输,怎么样移动、存储、计算。从时间的角度来说,数据的生命周期,数据时间维的症状,怎么样进行流化的分析。

第四个问题,大数据的作用力和变换反应。里面涉及到数据的抽样、过滤、筛选等等,通过一系列的操作把大数据直接变成小数据。另外大数据价值的提炼,可以利用群体智慧、社会计算等等对数据的价值进行发酵,进行价值的提炼跟萃取,能让我们从数据分析到数据的制造。通过人机交互融入人类的智慧,是否能够让我们的价值提炼更加高效一些。这是对数据的化学反应。

第五个问题,大数据的安全和隐私问题。

第六个问题,大数据对IT技术架构的挑战。大数据对IT的技术架构提出了非常苛刻的要求,比如存储能力的增长远远赶不上数据增长的速度。在这样的情况下,是不是需要最合理的分层存储架构。因为这个原因,我们需要对整个IT的架构进行革命性的重构,也许会颠覆现在传统的模式。

第七个问题,大数据的应用技产业链。大数据在不同的应用领域是有不同要求的,对大数据相应的计算,各种各样的处理也是不一样的。在不同的领域不同的应用需求,获取、分析、反馈的方式也不一样。不同的应用目标代表着不同的价值导向,对大数据的价值密度有很大的影响。另外,从产业链角度来说,怎么样去构建合理的产业链,能够产生增效的环境,让我们能够真正的去挖掘,把大数据最核心的价值挖掘出来。

第八个问题,大数据的生态环境问题。这里面后来又包含两个方面,一个是数据的资源化,二是数据的共享管理。数据的所有权既是技术问题,也是法理问题,我们怎么样对数据的权益进行认定和保护,怎么样在保护各方利益的前提下实现数据的共享。刚刚说大数据涉及到政治、经济、社会、法律、科学方方面面,不管是从国家的角度,从企业的角度来说,都需要去构建理性的、合理的生态环境,这样才能让我们更好的利用大数据。从国家的角度来说,生态环境比如说我们需要有一定的政策出台,扶持企业、科研单位去做大数据的产学研。从国家的角度来说,还需要进行人才的培养。

上面是从14个侯选项里经过归并整理出来的关于大数据的八个热点问题。

第二个大的方面是关于大数据的发展趋势。任何的预测都是有问题的,我们虽然也说了预测,但心里还是有点诚惶诚恐。我们只是通过初步的回答,希望起到抛砖引玉的作用,让大家通过我们抛出的砖促使大家认真的考虑,研究大数据发展的热点是什么,趋势是什么。因为预测是十分困难的,我们只是做了非常短期的,预测一下在2013年大数据有哪些趋势。我们总共设计了37个选项,对这些玄想进行归并整理之后分了几个大的板块。一是整体的态势跟发展的趋势,二是大数据跟学术的关系,三是大数据与人,四是大数据安全与隐私,五是大数据的应用,六是大数据系统跟处理方式模式,最后一个是大数据对产业会产生什么样的影响。

最后的发布是2+10的发布。前面说的“2”是说我们关注的是跟大数据最相关的一些学科,最引人注目的学科,大数据最引人注目的应用是哪些领域。后面的“10”是对十个具体趋势的预测。首先来看最令人注目的学科。1、大数据的分析和预测,在40票里投了25票,是非常高的票。2、分布式计算,也可以说是云计算。3、社会计算。

最令人注目的应用方面,第一个是医疗,第二个是金融,第三个是电子商务,第四个是城市管理。这可能跟在座的很多朋友预期还是比较相符的。

后面的十个趋势,第11、12是大企业大数据和资本高度关注。大数据行业内部,我们预测2013年大企业会并购一些有特色的中小企业,将形成一股热潮,2013年开始有针对的投资。第10大趋势是更大的数据。2013年,因为数据越来越多,多快好省的特性就显得更加的突出。第9个是大数据将催生出一些新的职业,比如有数据分析师、数据科学家、数据工程师,具有丰富经验的数据方面的人才将在2013年成为稀缺的资源。大数据驱动的工作机会将呈现出爆炸式的增长。第8大趋势是数据共享联盟,有一些企业和组织已经开始筹集数据共享联盟了。第7个,数据科学兴起。数据会不会成为一个科学?年初的时候还是一个问题,但我们预测2013年可能会成为一门新兴的科学。第6个大数据的安全。数据的规模越来越大,方方面面的问题都会出现,比如犯罪分子可以得到更多的每个人的信息,有了更多不容易被追踪和防范的犯罪手段,会出现一些更加要命的骗局,大数据已经把你出卖了。第5个,大数据分析的革命性方法。这是我们每个人都十分关注的,因为大数据的体量确实太大,现有的方法没有办法真正的去解决这样一些问题,我们期待着2013年有一些革命性的方法陆续被发掘出来。第4个,基于海量知识的智能。2013年我们预测会有更多的成果出现。第3个,大数据与云计算等资深融合。我们今天的会就是一个非常好的佐证。第2个,大数据隐私问题,个人隐私的保护越来越困难。第1个,大数据的资源化。在2013年数据会成为新的战略指导点,是大家争抢的新焦点。

简单做一下小结。大数据有大钥匙,我们在CCF大数据专家委员会里通过了一些调研,整理出了八个热点问题,十个发展趋势。对热点问题和趋势只是一种初步的尝试,我们希望通过这样一种举措,抛砖引玉,激发大家共同去探讨,去深入的研究大数据。不管是学术界的,还是科技界,还是企业界的,还是政府部门的,我们一起来探讨这些问题。数据的资源化,数据的隐私问题,数据跟云计算的深入融合,这三个发展趋势可以说是非常肯定的,是2013年最根本的三个趋势。

我们做调研从一开始有这样的想法,大数据委员会的成立是10月19号,颁布预测是在11月30号,时间是非常短的,只有40多天。这里面还存在各种各样的问题,我们希望能以更新的观点和眼光去看关于大数据最核心的问题。

主持人:下面请上下一个时段的主持人郑毅。

郑毅:今天大家听了一天的会,到现在还都能留在这儿,说明大家对大数据这个问题是很感兴趣。我这里面也是借助周涛教授最新的一本书序言里面的一句话,里面说某些观念有时会以惊人的力量给你知识,带来巨大的机会。这些知识能解决很大的问题,它们似乎有希望解决许多基本问题,澄清许多不明了的一点。每个人都迅速抓住它们,作为进入某种新时政科学的法宝。李丰先生主要做的投资方面比较多一些,我也想问一下,是不是在大数据领域是的出现了一些和大数据相关的公司?

苏萌:百分点做的是依据大数据,为终端消费者提供个性化的信息服务。我们的几个主打的产品包括百分点推荐引擎,百分点分析引擎。推荐引擎主要应用在电子商务网站上,同时应用在很多的媒体上。

郑毅:我们是在为企业提供大数据的解决方案,这种应用模式是不是已经成为了产业的应用模式,在推广的过程中会不会遇到其他的问题?

苏萌:推荐引擎是比较新兴的行业,在美国和欧洲有几家公司,早期在模仿亚马逊在做,国内其实也有一些企业在做。像腾讯、百度这样的终端企业都在做,我们做了模式可能跟某些家不太一样的地方是,百分点希望做的是打通用户全网的行为,构建用户的全轮廓偏好的分析。基于全网的数据,就像我们在做一个拼图一样,每个企业都有自己的一块,在拼自己的一块,我们希望能够在一个个信息孤岛之间建立一座桥梁,这个桥梁能够帮助我们更好的拼出属于自己的拼图。

糜万军:亿赞普在国内跟移动、电信、联通合作,在国外像西班牙。我们一方面是帮助运营商转型,另外一方面也是帮助解决媒体跟用户的利益。

郑毅:王总是腾讯的,大家都知道腾讯是什么样的公司,您也介绍一下我们在大数据方面的工作。

王益:我在腾讯负责的业务是广告,腾讯是中国互联网公司中拥有的用户群最大的一家公司,所以腾讯的广告业务和其他的公司有很分明的特点。腾讯的广告更着重于个性化的广告,更着重于广告及内容。

李丰:正好我们在一个礼拜之前,内部为主也召开了闭门的大数据论坛,基本上你们就知道我们对这个行业是非常看好的。过去一年当中,新投的跟数据有关的企业大概有4个。当然我们也非常高兴百分点是其中一个,而且是大数据系列投资当中的第一个。我们在投项目的时候,当时去看的时候,看见周涛的时候,也对大数据第一次产生了印象。他给我一张名片,很年轻,周教授,我也不知道他是什么背景,拿到名片一看,博士生导师,教授。因为这件事才接触到百分点的大数据,最终我们也非常高兴投了百分点,虽然前途未卜,至少是良好的开始。

郑毅:在大数据时代数据是关键,不管是百分点公司,还是亿赞普公司,还是腾讯公司,都是在用不同的业务模式来获取数据。数据的获取,还是数据隐私方面以及数据安全方面会有什么难点和痛点,请苏总分析一下,百分点公司是在为电商做技术服务,我们有没有具体实践方面的经验和思考跟大家分享一下。

苏萌:百分点做的事情非常简单,通过对电商企业提供技术服务,这个技术服务是帮助他们做个性化。我们会分析用户在这个场景下的意图,根据我们积攒下来的用户历史的行为,以及利用群体的智慧,跟他很相似的用户他们的偏好,实时的为用户他的每一个购物流程的环节实时的推荐他要购买的商品,以及在媒体上实时的推荐他最可能感兴趣的文章。这是我们在做的一件事情。在提供技术服务的过程中,我们也积攒了大量的心得和在推荐领域的知识,我们希望能够帮助我们服务的企业能够迅速的提升用户在网站上,无论是电商网站还是媒体网站他的用户体验。在过程中我们觉得能够规模效应,那一定是能够给社会带来利益最大化的。每个企业它都花很大的人力、物理来做一个推荐引擎技术的研究,那会耗费很多的资源,我们在提供推荐技术服务的过程中,确实是非常清楚的了解到了用户跨网站的偏好。一个用户对我们来说就是一个ID,这个ID我不知道他是谁,没办法拼出来,比如具体的姓名、电话、邮件我都不需要,只需要某一个ID。这个ID比如他的品牌偏好,他喜欢阿迪,另外一个人喜欢耐克,我就能比较有效的拼凑出来他在全网的兴趣图谱。这个兴趣图谱帮助我们给一个新的用户,包括冷启动的问题,非常有效的提供更精准的推荐服务。

郑毅:是不是可以这么理解,我们其实是在为第三方的电商网站提供推荐引擎的服务,我们是在用我们的服务让他做部分的数据的开放和交换。

苏萌:我们在给他提供技术服务的时候,就像所有的服务公司,他是SaaS的模式。我们看到大数据兴起的一个基础就是软件行业的泛互联网化,如果没有泛互联网化的话,传统的软件是没法形成大数据产业的。在这个过程中,用户我们的客户会主动提交他认为有必要让我们了解的用户行为,根据我们的场景引擎、算法引擎、规则引擎等等实时的做推荐。

郑毅:百分点其实是在为第三方的电商网站提供推荐引擎的时候,我们去和大家做数据的交换。在一些数据的获取和数据具体的一些隐私保护方面以及其他具体的实践方面,运营商为什么愿意跟我们做这些工作,跟大家分享一下。

糜万军:隐私是特别敏感的问题,昨天在亦庄的论坛上说价值100亿美元的问题,明显把这个价值低估了,应该远远超过100亿美元。其实业界更关注的不是欧洲的运营商去谈判,欧洲应该说是对隐私特别注重的,大家现在关注更多的是怎么提升利益的问题。比如运营商为什么能够跟我们分享数据?从运营商角度来讲,他有海量的数据和用户,但确实没有见到什么钱。所以,从他的利益角度来讲他有这种强大的愿望。从用户的角度来讲,我们能够形成一个比较健康的产业链,让大家都获益,这是业界更加注重的问题,包括简单的数据隐私的问题,包括数据的流动,数据形成的利益分配问题。

郑毅:利益分配和利益交换,整个业务过程中会涉及到几方。比如做电信数据,电信数据有普遍的用户,有电信运营商,还有第三方广告商。如果是在不同的环节,一个利益交换会不会有不同的考虑?

糜万军:会。本身数据隐私安全是个相对的概念,很难说有完美的解决方案。像美国做的试验,仅仅是把人的各种隐私信息引进去,就能把数据挖掘出来,只是用了部分的搜索日志,已经把人完全的定位出来。所以隐私安全我觉得是个相对的概念,而且法律远远落后于业界的实践和广大用户的需求,这是一个不断摸索的过程。

我们做了一个预测人的医疗费用的公司,从美国国家层面公开的数据和每个企业关于单个职工的一些数据,当时开发了一个算法,可以比较动态的来预测这个人的医药费用。包括刚才祝老师讲的用了很多的变量跟数据源,可以比较靠谱的预测医疗机构在这个人身上是不是赚钱。欧美是特别注重隐私的国家,但实践层面还是远远超过了法律层面。

郑毅:您讲的也是在和全球的运营商都会有一些合作,不同的国家,不管是欧洲、南美,还是中国,会有实践方面的差别吗?

糜万军:我们不是为了数据而数据,因为各个国家的业务需求不一样,所以会衍生出不同的产品。产品不一样,后面采集的数据也会不一样的。

郑毅:您是用腾讯的数据为腾讯自己做精准的搜索和更精准推荐的工作,对于腾讯来讲,是不是所有的部门都能访问到您的部门的数据。腾讯和外界有没有数据开放或者沟通的远景和设计。

王益:腾讯内部有一个部门叫设计平台部,这个部门的职责是搜集腾讯这么多部门产生的数据,所以说腾讯是应该有一个集中的数据管理机制的。在这个机制上,腾讯公司有机会建立数据隐私严格保护的机制,只有数据统一管理监控下才有可能做到。我也听说过微博上会流传一些故事,实际上腾讯内部也经历过,我很能体会到腾讯内部对隐私保护是非常严格的。所有被收集起来的数据是被按安全级别管理的,要经过好几层的审批。

郑毅:这会不会对您的内部工作造成什么影响,这种分成的安全机制。从内部工作来讲,会不会有一些其他的考虑。

王益:我理解隐私保护的重要性是大家都能够理解和接受的,管理的过程其实也是督促工程师我们到底是怎么使用数据的过程。不同的产品需要用不同的数据来分析。腾讯注册的QQ号有十多亿,基本上覆盖了中国绝大部分的互联网人群,这个数据很重要,能不能用?当然是可以用的。腾讯有一个搜索引擎叫搜搜,市场份额不是很高,但不管怎么样,作为一个搜索引擎留下的数据是用户当时很强烈的意图的。这样的数据是可以用的,我们知道用户最近想要什么,推介和广告就会依据这个信息出现结果,实现非常精准的广告定向。这对业界是正向帮助的,并不会导致隐私的泄露。

我个人的工作了解到腾讯有一个开放平台,也提供一些API用户通过平台开发的各种插件是可以了解一部分用户信息的。当然这个API也是在腾讯的数据保护监管下开放合适的资源。

郑毅:李丰您看公司的时候更看重什么,是更看重它在数据方面的能力,还是算法方面的能力。有没有一个整体的布局,我投资这些公司,这些公司之间可能数据会有一定的互补性。

李丰:我们原则上大家都说投人,如果是数据驱动模式的话,人应该是相对难找点。我们先开始看的确实是技术驱动的事,我们花了很多时间把这个行业中有这个能力的人尽量的找到。最难找的是第二件事,在这个前提基础上有明确的商业性的想法。我们找到的技术非常好的国内和国外,因为我们在美国也投一些公司,我自己在美国也有三个早期的创业公司。技术人才我们找的非常多,但找商业的想法更难一些。

中国数据公司面临一个非常大的挑战是怎么去启动的问题,要不然就是趴一些大的公司的身上,或者像运营商,先获得大量的数据来启动。我们大家都了解在互联网上,在中国这么做,最大的风险是人靠谱不靠谱。为消费者提供服务,我们肯定是行业中的外行,大道理上来看应该是这样的,对消费者级的应用,大家想到的比较多的是推荐类的应用。对消费者比较合适的方式还是所谓你在心里头知道什么东西好,但你很难描述这种类型的分类是我们认为比较好的应用领域。

打个比方,音乐应该讲是每个人在心里头知道你大概喜欢听什么样的歌曲,但客观上来讲,你很难把这个东西用语言描述出来。我想这是一个类别,你有更多的诉求或者情感类的诉求,你心里知道什么好什么不好,你想要什么,但很难用精准的语言刻画出来,在这种消费者中比较适合做推荐。这里面又分另外一个挑战,我自己看过非常多的推荐类应用,有一个小的误区,我觉得阅读是比较难做的。难做的原因是理论上阅读也符合这个条件,所谓条件的概念是你知道什么好什么不好,但很难拿语言精确的描述出来。

我自己没准确的结论,阅读难做的原因是我问过很多典型消费者,发现典型消费者在阅读问题上最大的困惑在于很多人对于判断哪篇文章好还是不好是被其他人左右的,而不是自己有非常明确的主观的判断方法。

另外一部分是企业服务,像百分点、亿赞普做的都是面向企业提供的服务。数据驱动应用最主要的功能是提高效率,在特定的行业当中如果它的供需关系没有到必须提升效率的阶段,或者最终不好到这个阶段的话,我们觉得数据驱动的应用是比较难普及的。比如说百分点,前途虽然未卜,但电商作为零售行业非常典型的特点是业态复杂,并且分布比较广,同时毛利率比较差。换句话说,对于零售行业在线下那么长时间证明一件事情,效率提高1%或者2%,决定了这个企业在将来到底能活还是不能活。我们的意思是从中期来看,这个行业的竞争力将主要集中在小范围或者中等范围的效率提升这件事情上。在这个前提下,我们觉得数据可能是一个办法,因为对于提高效率,不可能从10%到100%,可能从10%变成15%、20%,但这对行业非常的重要。

比如你做的是广告,广告我们也投过很多公司。广告之前在中国互联网主要的问题,2008年、2009年之前应该讲是非常典型的买方市场,广告主说了算。因为媒体的供给量,媒体的库存远远超过了购买需求,换句话说大量媒体的广告卖不出去。至少在之前的阶段中,如果互联网广告看作是企业服务市场的话,最大的挑战是它不是非常的效率驱动,或者是完全由买方驱动的。慢慢的中国行业的互联网广告市场跟美国有一点点像了,开始进入把效率提高的比较好,不管是从媒体端还是从广告主端。刚才我的意思是在我们投企业服务的时候,一个行业将会或者正在进入效益变得比较重要的应用阶段的时候,我们觉得数据驱动就会在里面显得是一个可能比较好的模式,至于结果我们也不好判断。

郑毅:刚才李丰对两位的商业模式都有比较大的挑战,你们有没有什么话说?

王益:我想补充说明一些情况,确实像李丰刚才说的,中国的互联网广告很大程度上是取决于广告主开始愿意投多少钱。随着中国的互联网广告业发展了十年,今天大家看广告的需求和当年确实已经发生变化了。刚才李丰说的美国的情况,我在我自己的工作中都已经开始感觉到,首先用户越来越讨厌没有道理的广告,这是为什么我们要特别重视技术,需要从海量数据中挖掘足够的人工智能技术,挖掘足够的知识来支持广告的投放的原因。除了用户对我们驱动之外,还有一种新的业务形式是有所驱动的,就是手机广告。要在手机上出广告,那一定要出得很精准,这也是对我们工作的一个驱动。

再顺便说一点,大家可能已经注意到国外的有些公司已经在做类似的事情,就是广告及内容。今天看Facebook和Twitter手机版,Facebook除了看朋友有什么动态会夹杂一些广告,夹杂的广告也是要做的内容相当的精准。Twitter形式看起来跟Facebook手机版很像,看有哪些推文,广告也是夹杂在推文当中,要跟上下文相关或者跟用户近期的兴趣非常的相关。这是腾讯目前正在努力的方向。

郑毅:刚才李丰总回避了我的一个问题,您在数据方面有没有一定的布局?您给我的回答是更关注应用和人才方面。其实咱们可以借助李丰刚才提的话题聊一聊,您在投资公司的时候,什么样的人才是比较合适的人才。现在大家做的很多事情偏向于理想主义,业务模式也是一些精准广告。大家都相信大数据未来能够带来一定的价值,带来价值关键是需要通过人带来价值。我想先问一下李丰,我们在投公司的时候,更看重人的哪方面?

李丰:基础前提要懂技术,因为大数据很多情况下容易被弄成概念。

郑毅:很难兼得的。

李丰:没有办法,必须兼得,如果靠两个人来驱动,那要看其中主要的人是谁。因为很难一个团队说这两个人是同样起作用的,基本上总得有一个人起主要的作用。属于一把手不是搞技术的,可以,但是挑战会比较大。相对来讲以非常技术驱动的模式来看。

郑毅:我的理解是技术大牛,再有一个商业搭档相对是比较好的。

李丰:如果这样是最好的。如果你商业上不错,但最起码得懂一点技术。

郑毅:从企业内部的应用来讲,我们是比较希望能够抓到一些什么样的人才?企业内部对人才有什么样的培养机制?

王益:我自己的经验跟自己的经历很像,首先技术做的好。作为互联网产品,广告是商业气息最浓厚的,我们的团队是广告中负责广告策略和广告质量的,一般有很多人工智能的要求,利用大数据做精准的广告投放。另外一方面我们对商业模式要求也很广,我们的广告系统应该调成什么样子,如何追踪广告主和用户的反馈意见。我的具体工作中还有一个需要让我权衡的一点,中国的大学培养出来的研究生有两类。一类是擅长写程序,一类是擅长做研究。很多同学并没有两方面的能力兼得,即便是技术这方面也不能兼得。其实我们的需要是程序写的不好研究员是不合格的研究员,从业界的需求来讲是这样的,和学校的需求并不一样。

郑毅:在腾讯做广告的时候,怎么去用我们的东西真正支撑一线业务人员的工作?刚才您说一定要会写程序的人,其实很多在用大数据的人来讲是不会写程序的。

王益:我今天来咱们这个论坛,确实有一个感觉,我猜台上的人分了三类,台下坐的人也包括这三类。第一类是研究人员,比如祝老师。研究人员眼里的大数据,在业界人员眼里就是小数据。第二类是做互联网应用的人。我们看到的数据是什么样子的?比如我的工作,现在广告系统首先它要利用大数据。刚刚我说过要利用搜索引擎上留下的海量数据来了解用户喜欢什么,然后才能出精准的广告。作为广告系统我们也是自己产生大数据的源泉,每天我们的广告系统要展示多少广告?大概是120亿。其中有一部分会被用户点击,每次展示和每次点击量的操作都会留下日志,每天留下的日志有多少?是以10G百G来计算的,甚至每天可以形成1T。这真是大数据,反过来这些日志在帮我们更精准的抓住用户的兴趣,让广告更精准。

今天中国的互联网行业已经日渐的成熟,很多大公司都是这样的。随着人工智能技术的演进,今天机器能做的事情很精准,在这点上我不太认同刚才祝老师的一个观点,机器技术不够精确或者不够精准。大家知道,广告的点击率是很低的,我猜在座的很多人可能从来都没点过广告,但想想我们今天坐在这儿说大数据,这些钱是哪儿来的,我们每天用了搜索引擎,能产生大数据是要大硬盘去存,到底谁在买单?都是广告主。为什么这么低的点击率,背后能赚这么多钱,使得大家能安心的坐在这儿开这个会,因为基数特别大。大的基数里要把广告定位出来,这个概率很低。

郑毅:可以理解为一个点击它的收入很低,如果用人工去做这些广告投放效率上是很差的,所以我们完全用机器的经验取代人的经验。

王益:需求这么多,每天120亿次请求,每次应该展示哪一个,人做不了。第二,就算非常专业训练过的人,他也不能精准的判断广告点击率,点击率是万分之一或者千分之一的时候,我们怎么样从一万个广告里定位一个能带来点击的机会,定位不准赚的钱就少了,大家就不能开心的坐在这里开会了。

郑毅:在我们的公司里首先对人员的要求,是要求技术很牛,还是业务更重要。

糜万军:百分点是一家技术公司,所以我们非常重视员工技术的深度。无论是处理大数据,分析大数据,包括对于行为预测的水平,我是毋庸置疑的。我们80%的人全都是技术背景出身。讲到选拔人才用什么样的方式,我觉得大数据领域将来一定会变成交叉学科。不仅是计算机、统计学,同时包括营销学,包括心理学。举个例子,比如早年在美国读书的时候,我们拿到了美国用户超市的购买数据,从80年代开始,一个用户在超市所有的购买记录都有。早期会根据用户的购买历史、购买行为来构建一个数据模型,之后会用越来越复杂的数据来模拟用户的购买行为。我们在搭建模型的时候,确实是需要计算机统计数学背景的人才。因为我们做的是电商,所以需要很多消费心理和消费行为的分析。

数据本身是跨学科的,从技术层面涵盖了多门学科的知识。上个月在清华开的一次会议,来的人本身就非常的多样化,技术本身又非常的复杂。现在很多模式是数据驱动,尤其是跨领域的多种数据源的结合会产生很多新的模式。对人,对企业管理的人要求确实是非常复杂。

郑毅:总结一下大家的观点,大家要玩大数据必须先学好技术,管理学和营销学作为辅助。请各位用一句话展望一下对大数据未来的期待。

苏萌:我觉得互联网时代,开放和共享是互联网时代最耀眼的一个特点。我们现在有了这样足够的对用户信息的了解,我们如果能让手里面的数据交叉复用,能够让数据流转起来。我们之前看到了美国IT产业的发展趋势,从软件开源到数据开放。我相信在中国一定会同样经历数据它的流动性、可流转性、可复用性,一定会成为大数据行业整个生态链和发挥数据价值的一个最基本的前提。

糜万军:我自己感觉非常的幸运,能够从事这个行业,也非常激动和期待在这个领域能够做一些实实在在的事情。

王益:我自己的兴趣确实在于大数据,利用它提供更多精准的知识,利用这些知识把互联网的产品做的更好用。

李丰:我支持他们三位说的。

主持人:下面请出大会的报告者是来自中国科学院自动化研究所的曾大军教授,曾老师原来是在国际上最有影响力的做推荐系统的华人科学家。在美国的时候他所有的文章我都读过。现在在从事和国家安全策略以及公共管理相关的领域,他会带给我们一个全新的你们接触相对较少的大数据的应用。

曾大军:各位专家,业内的同事,大家下午好!非常感谢有这个机会能和大家一起交流大数据对公共管理的意义,以及相关的机遇和挑战。我的发言先就公共管理大数据的背景和现状,大数据环境下的公共管理的一些新的理念以及机遇谈谈我的理解。

大数据本身在过去的一年多的时间里,应该说已经成为IT学术界和相关的工业界最热门的话题。世界各国都非常重视大数据方面的研究,并从国家战略的层面相继推出了自己的研究计划。表里面列了主要几个国家,像美国、欧洲、日本,我们国家相关的计划也在酝酿之中。美国联邦政府今年4月份率先推出了大数据计划,这个表上列了一些参与的单位。大家可以看到,除了里面几个跟科学大数据,像核物理、像地学等相关的部门以外,其实其他绝大多数的部门里面做的都是与公共管理有直接关系的。

我们讨论的应用背景和动因是公共管理,开始介绍之前最好界定一下什么是公共管理。我自己是IT的背景,在中国和美国都做过一些公共管理方面的应用。本来以为随便找一本教科书就可以找出一个非常精准的定义,结果发现现在共识的定义是没有大家都可以认可的。国际和国内都是这样,没有办法,只好用一些非正式的和启发式的这么一些定义,大概的来说在我们讨论里面,公共管理主要指政府部门公益性的职能,还有具体服务于国家、社会、企业、社区等等的行为。

我们先简单的讨论一下什么是公共管理大数据,然后再讨论大数据环境下面的公共管理。模仿美国给大数据下的一个定义,我们把公共管理大数据定义为由传感设备、科学仪器、应用软件、互联网以及政府相关的调查研究等等渠道,生成的这些大规模多模态分布式长期的面向公共管理领域的复杂数据集。与一般意义的数据相比,公共管理大数据之所以称为大数据,主要是因为首先在现有的技术条件下面,我们不能进行相关的处理。其次,即使在理论上能够处理了,但是因为效率低下,无法在给定的时间给出有意的结果。公共管理大数据主要有两个来源,一个来源是政府内部数据,比如政府搜集的各种资料,还有由政府业务产生的各种数据,比如大家从机场过安检,过程里政府部门收集了很多多媒体的数据和文本数据。除了政府内部数据以外,还有政府内部也产生很多公共管理相关的数据。互联网在外部数据里扮演了非常重要的角色,像由网民群体产生的数据,例如微博等等。

政府的内部数据很像企业的ERP数据,它们结构化的程度非常高,而且数据采集的频率也比较固定,根据不同的应用有月的、有年的,有按小时的。政府外部数据里面包含许多非结构化的数据,文本的、多媒体的。数据本身它也是实时的。每谈到大数据,大家都喜欢引用一些吓人的数据,我也想跟风,结果很可惜,我的研究生花了一天一夜找了各种各样的数据,没有对大数据有一个估计。

美国政府最近发布了一个资料,各个政府部门加起来数据中心的总量超过2000个。每个数据中心的数据没有公布,但是他说的数据中心都是规模相当大的,集成的数据服务中心。大家如果再进一步发现里面很多的数据集,每一个数据项本身的规模都非常庞大。

我一个朋友在美国的大学里处理的数据,加起来有64亿条之多,这里在公共管理领域上是起到非常大的作用的。有了这些大数据,我们能够做出什么跟以前不一样的事情?下面我想从理念的层面谈一谈我们在大数据时代公共管理方面比较粗浅的见解。

近年以来,各国政府非常重视社会信息化的建设,我们刚刚闭幕的十八大报告里也多次提到了社会信息化。大数据必将为社会信息化和公共管理信息化带来重大的机遇。一方面政府内部大数据的层面来说,目前政府内部的数据量激增,数据的复杂性和实时要求性也非常的明确。怎么样充分利用这些数据,提高政府公共管理的效率和效果,决策的科学性等等,都已经成为了技术上的瓶颈。另一方面,互联网和社会媒体上蕴含的数据,对公共管理,尤其是对社会安全,可以说现在正在产生更为重要的影响。传统的基于数据统计分析的公共管理模式,已经无法满足我们提到的在大数据环境下进行公共管理服务的要求。大数据本身是政府的一个战略资源,对于政府公共管理政策的制定、实施和评估,这几个方面都有非常重要支撑作用。

(如图)上面有很多具体的公共管理上的功能点,我们可以根据大数据的分析和挖掘,实现由数据驱动的公共管理上面的决策科学化。在智能化和的基础上,我们最终实现了智慧城市这么一个通盘的考虑。

为了实现智慧城市这么一个远景的目标,大数据事实上是直接要促进政府对公共管理理念的转变。其中的一个思路,事实上也是从电子商务最近的像在营销学和运营学提出来的理念,我们觉得放在公共管理里面也是非常合适的,就是以社会生态系统的视角,从这个角度审视公共管理中的各种理念。

在新的视角下面,政府是需要改变传统的角色模式的。左面这一列是对传统模式的一个基本上的梳理,主要是基于经验,基于领导意志。右边这四条,每一条都针对前面提到的现代业务公共管理里面的决策模式,可以说是革命形式的转化,从多维度进行的变革。与民众之间有一个协同发展的过程,问政于民,问计于民,这是他们管理模式的核心。其他的在政府各部门之间,以前也是各自为政,现在政府各部门之间在基于社会生态体系系统的这么一个视角下,也需要摆脱这种模式,做到他们之间的互相共赢的合作的方法。

数据处理方式,在大的场景下,它有需要有比较大的改变。从传统的基于结构化数据的挖掘,转变成更加粗的社会生态系统整体的从系统层面进行分析。最终我们希望得到在宏观的知识的挖掘,在智能化的决策支持方面,能够有更好的工作,能够对公共管理进行更好的支撑。

有了远景的目标和新的理念以后,公共管理大数据的处理和分析还面临一些具体的在数据管理层面,在数据分析层面,数据共享各部门之间共享,包括和民众共享方面,还有在决策方面有一些比较细致的技术层面的一些挑战。因为时间关系,我在这儿就不详细介绍了,数据管理层面包括采集存储控制,尤其是在外部数据方面,事实上公共管理领域里面遇到的问题跟我们前面讨论的电子商务领域遇到的问题是类似的。分析工具有深层的,有浅层的,公共管理领域有一些新的特有的需求,在电子商务里没有,这些都需要我们做IT的,或者跟政府信息化相关的企业能够提供更好的模型、计算方法给予支持。

在共享的技术层面,这也是老生常谈。最核心的还是各个数据来源之间比例的匹配,包括数据源之间动态更新和可视化等等。这在一般性的数据挖掘中也会碰到这样的问题。在决策技术层面,这些挑战应该说是公共管理理念特有的,怎么样针对公共管理理念非常具体的决策场景,我们能够做出基于动态的、社会数据的这么一些决策的框架,能够给他做出基于大数据的支撑,这里面有很多研究的工作可以进一步的开展。

下面我想非常快的介绍三个案例。第一个案例,这是美国的一个计划,欧洲在里面也有不少参与。里面主要做的一件事就是把每个政府里各个部门之间的数据综合起来,它的基本思想就是做一站式的网站,通过这个网站把很多政府各部门的数据聚拢起来。聚拢过之后,能够向民众开放原始数据,能够在政府之间进行各种各样的数据共享。同时能够在共享的数据,融合数据体以后,有了融合过程之后,能够做各种各样的服务。从多个政府的数据源获取数据整合出来之后,能够做很多非常有意思的对社会学、对公共管理,甚至在IT方面,甚至我刚才提到的广告都很有关系。通过一些特有的数据源能够分析出许多非常有意思的事情。

分析一些美国和中国之间的经济数据,还分析了美国媒体对美国本身政府投资之间有什么关联的关系,这些都通过Mashup融合过的数据得出非常好的分析结果来。

第二个研究案例是Ushahidi,诞生于2007年、2008年的肯尼亚危机事件。实时的由民众来贡献,当危机发生一个,一个事件发生以后,各类的灾情和相关的救援信息由老百姓通过自己的移动终端,包括其他的一些信息终端统一的整合起来,整合以后,在时空上面其实用的非常简单,底层技术非常简单。这个词大家觉得比较怪,它实际上非洲的一个语言里面证词的意思,证词就是老百姓看到了事情希望通过一个平台跟大家共享。这个平台发布了以后,在各国媒体都引起了很大的反响,被誉为给应急的响应和救济的处置带来了革命性的变化。我简单的介绍一下从起点到现在大概4年多的时间,在全球10起的突发事件中都起到了重要的作用,尤其是在海地特大地震当中发挥的作用在全世界都受到了非常好的关注。在墨西哥湾石油泄漏中,把一般老百姓贡献的信息,包括油漏和各种各样的灾难信息综合起来以后,政府花了非常非常多的钱,大范围的油污监制和政府整合的资源做了一个对比。结果发现由民众不花钱的方式积累起来的信息,跟政府花了大量的资源收集起来的结果基本一致。用这个平台获得的信息时效性更高,动态效果更强,而且监测更有深度,对救援人员来说做决策都是非常有帮助的。同时,过程里不光是一个信息聚集的过程,跟大众交互的过程中实际上已经有很多的互动。

下面一个项目是我以前的一个朋友在哈佛医学院主导的一个项目,这个项目跟刚才说的项目非常的相似。它也是基于互联网的全球预警系统,这套系统关注的点只是全球的传染病的爆发。它的模式跟刚才说的非常一样,老百姓每个人有什么病,头疼发热,这些信息他就通过移动终端,iPhone上也有,通过其他的渠道把它汇总到哈佛的平台上面。汇总过后平台做一定的过滤,因为害怕有人在里面报虚假的信息,过滤之后,在内部平台的电子地图上对各类的疫情病的情况进行动态的跟踪。不光有个体的用户,还有单位的用户,他们根据定制可以做各种各样的预警。这个平台运行大概有3年的时间,不仅能够实时监测官方报道的全球疫情的情况,同时还能监测到许多官方不能获得的疫情信息。它对全球疫情爆发,每周做预测的时候已经变成了一个重要的信息渠道。这个案例我就不在这儿讲了,在海地的地震里,对整个过程,尤其是公共卫生方面进行了持续不断的关注。

第三个案例是中科院自动化所做的一个基于互联网的实时传染病和生物反恐方面的监测预警的整体的体系。里面核心的一点是像这种应急的场景下,最要紧的一个因素实际上是时效性,很多病你如果早知道几天,从公共卫生的部门实际上做响应,做各种各样的处置,都会有一个很好的结果。如果就晚那么三天,很多事情已经拖到最后无法解决了。有一个量化的手段,有一个持续性的实时的连续监测的手段,对跟传染病爆发有可能相关的因素进行实时的监测,并且建立模型,根据这些模型最后能够给公共卫生应急体系,你能够告诉他什么地方有什么风险,数据告诉你有可能有什么爆发的趋势。

现在由国家的重大科技专项支撑的项目,我们已经做完了北京市的很多病的预警情况,正在往全国的范围内推广。最后很简单的提两句展望。从三个层面。一个是数据层面,二是分析和决策层面,最后一个是人的层面。这些都是对公共管理大数据研究的一些想法。

数据层面,根据我们对文献的理解和我们自己做项目的经验,我们感觉有两点最重要。一点是社会计算。现在大家提的一个概念是物联网、虚拟网络和社会计算全部混在一起的这么一个复杂的数据系统。在这层数据里面,分析和处理都有很多新的东西可以做。

二是数据共享。从分析的角度,我们的想法跟很多今天听到的有所不同,数据是一个比较古老的想法。一个数据本身并不能告诉你故事,尤其是在社会领域。在社会管理层面,在公共管理层面,很多必须是基于模型的。基于模型的理念跟基于数据的技术方法必须有一个深度的融合。

三是以人为中心的计算。里面有两层含义,一层是以社会公众个体为中心的个性化的公共管理服务,这块在医疗,包括其他的企业,现在这些行业我们看到已经有很好的体现。我们预测它会越来越重要。还有一块是刚才提到的众包,是老百姓通过各种各样的方式帮助政府解决各种问题。这里面有很多机制设计的问题。你做公司的时候公共管理也是很有机遇的,系统评价各方面应该说里面有很多有意思的东西大家可以深入的进行一些研究。谢谢大家!

主持人:非常感谢曾老师精彩的演讲,刚才曾老师讲的一个观点特别重要,就是怎么把人、数据和决策结合起来,在公共管理的领域能够用到。下面让我们请出另一位演讲嘉宾王益。他到腾讯一直负责处理几万几十万服务器的大的数据问题。

王益:我今天给大家带来的内容是关于广告的。在腾讯用到的数据是很丰富的,精准的判断一个人看什么,对什么感兴趣,我们出的广告应该是用户觉得不受打扰的,这是腾讯接下来一个很重要的目标。

这个论坛叫大数据,大家一想广告和大数据有什么区别,或者大数据本身值不值得关注呢。两个星期之前,腾讯的高级副总裁问了我们一个问题,说大数据是不是一个炒作,当然我知道他们希望我们回答不是炒作,因为他参加了一个IDG主持的论坛。

大数据到底是怎么回事,说到大数据的时候就应该有一个来源。我以为真正大数据的来源是互联网产品。我听到研究行业各位教授们的介绍,也听到了来自公司商业智能方面的介绍。我今天介绍的内容更主要的是来自互联网产品的。我们每天早上起来就开始工作了,像我早上起来第一件事是收发电子邮件,今天我们大家用的这些电子邮件产品都是互联网电子邮件。设想像QQmail、Gmail、新浪邮箱系统加起来用户量有多少?差不多有10亿。每天早上收发5封,发出去5封,就会为这个系统贡献很多数据量。如果这样的系统运营了10年,每年365天,数据的量就会很大。其他的协同编辑、云笔记,还有搜索引擎,半传统不传统的社交网络,每天都会留下很多用户的足迹,他们在上面做了什么。这些足迹会帮助我们了解他们接下来想干什么,这些日志每天的量都是以T计的。这是真正大数据的一个来源。

刚才说的那么多应用都是谁在买单?应该是广告主在替我们各位买单。广告主替大家构造一个免费的互联网,这个传统是从什么时候开始的?应该是从上个世纪最后的一段时间。我的印象中是从雅虎公司开始的,在雅虎这个公司走向巅峰之前的互联网是一个小众的应用,不是每个人都能用的。很多互联网网页要登录进去,为了取得用户名称和密码是要事先交费的。刚才我们说到常用的一些互联网产品,在这些产品里都能看到广告,有的广告并不多,让这些广告不至于影响我们的市场使用。差不多有三类搜索引擎结果里能看到搜索广告,在社交网络的内容里能看到夹杂着社交广告内容,其他的几类产品中的广告我们统称为情境广告,也有人叫上下文广告。这几个层次加在一起就构造了大数据的生态体系,为了实现刚才说的这些搜索社交邮件的应用,我们需要很多人工智能算法。今天的互联网产品和早期的已经不太一样了,早期的互联网产品是做主页就能卖钱的,今天的互联网产品在浏览器上大家要做各种互动。

互联网人工智能技术也是我接下来介绍广告里面的一个重点。它和我们在学校做的事情就很不一样了。比如刚才大家听祝教授的介绍,当学校里的研究人员来做研究的时候,我们通常不会直接处理群量数据,要从中取出重要的样本。在真实的互联网环境里,为了支持这个业务能跑起来,每个公司都必须要有极大的海量存储和海量计算的框架。从另一个角度来看,这些数据都是用户的行为产生的,大家在产生这个行为的时候,脑子里在想这是人类智能活动留下的数据。1997年互联网盛行之前,在人类了历史上没有任何一个机会让我们留下并且有机会来分析几亿几十亿人的思维足迹。这也是互联网大数据的价值所在,我们要充分利用这些数据归纳出足够充分的知识,这些知识能够帮我们做很多事。除了上面说的这些应用之外,它们能帮我们赚钱。

今天中国传统广告业务的规模有多大?是以千亿计的。今天中国互联网广告业务的规模有多大?要少一个量级,是数百亿,加起来也接近千亿了,几乎能够跟传统广告抗衡,在美国市场这个比例更偏向于互联网广告一些。在互联网应用越来越丰富的时候,在我们的技术越来越能抓住用户需求的时候,互联网广告仍然会有很大的升值空间。为了让这些智能算法跑起来,我们需要海量进行计算的技术,这就是我们所说的云计算技术。后面列的几项技术大家都很熟悉,这是本身我们把人工智能算法从几千个到几万个甚至几十万个CPU上跑起来的基础。这些算法跑是要处理数据的,输出的是海量的数据,结果可能也是海量的。为了支持海量数据的访问,需要有海量的云存储。

支持云存储的机器在哪儿?在数据中心。比如腾讯那样的公司,在中国很多大城市都有数据中心,Google在世界各地都分布着数据中心。数据中心里装的是什么?是服务器,是硬盘,是路由器。很长一段时间里,当我听到大数据这个词的时候,我就觉得好像又是一个炒作,是不是造硬盘的公司弄出来的。实际上仔细想想,大数据还真是有这么一个问题。列出来的是我理解中的大数据生态。广告中买单是在为什么买单?就是在买这样一个层级结构,其中的每一级都要花钱。

接下来我要说的是广告系统,刚刚我也介绍过广告本身要利用其他的产品产生大数据。腾讯会利用搜索引擎产生,帮助我们知道每个人对什么感兴趣。广告本身要利用大数据,自己也要产生大数据。在广告领域什么样的人工智能算法能够帮助我们更精准的定向广告,一类叫相关性计算,这些人工智能技术一方面帮助我们了解用户对什么感兴趣,另一方面帮我们找到与兴趣相符合的广告。还有一类叫点击率预估,我们要判断一下哪些广告展示出来,用户最可能去点,我们选择什么样的广告展示?一方面是用户愿意点的,另一方面是用户每次点击之后广告主为了感谢我们帮他做的推广,愿意给钱给的多的。

刚刚说到利用好这些数据之后,我们可以做一件今天广告系统做不了的事情,就是精准的广告定向。我们清楚的知道他愿意看到什么,就可以做到精准的展示。做到的极限就是广告即内容。今天能做到类似的产品已经开始出现了,大家如果用手机的话看看Tiwtter,看看Facebook。我们的主要内容不在于技术,但是为了多提供点干货,我还是会介绍一些技术。

假设我是腾讯的工程师,知道这个人在看腾讯的产品,在用微信,他的QQ号是多少我们是知道。给这个人展示广告展示什么样的广告?一个很简单的思路是我们知道这个人QQ号在搜搜上搜索了什么,他刚好搜了鲜花,买了一果花,我们就可以在广告中选择标题里带鲜花这个词的广告。沿着这种思路往下想,来看看这样做靠不靠谱。比如有一个用户搜过两个query,一个叫apple  pie。假如我们有两个广告,一个是关于苹果公司的,另一个是关于苹果农业种植。我们怎么做匹配,刚才我们说的方式是在文本中做的匹配。字面上的匹配发现apple  pie和苹果公司匹配起来了,而iPhone  crack和苹果公司有一点关系,可另外一个实际一点关系都没有。在文本很短的时候,很多词并没有交集,但不能表示不匹配。机器能理解语意吗?机器可以像人一样能够理解语意的。

假如我们在互联网上搜索到海量的文本数据,比如在座有来自百度的同学,百度每次的搜索量很大。得到很多词的聚类,每一类词都可以频繁的共建,表达的类似的语意。我们得到的每一类词是一个语意。有了语意之后,如果还有一个算法能帮助我们把一包词投影到语意空间,比如给apple  pie这个词,我知道它和上面的语意关系很强。apple  pie和苹果电脑关系不是那么强,我就知道这一端的query主要是表达第一个语意的。我们把所有的query投到语意空间,发现很容易比较。

我们怎么样真的能得到这些聚类,又怎么样能够有一个算法,利用这些聚类,把一段文本投影到语意空间,这是最近十年里研究非常火热的一项人工智能技术,叫隐含语意分析。

这张图说的是最近十几年中人工智能技术发展的足迹。列了几个我们在实际工作中得到的语意。第一行的词包括淘宝、拍拍、卖家、货,大家一看这些词构成的语意就是和电商买卖有关的。第二行的词女生、男生、表白、拒绝,这和年轻人谈恋爱有关。再下面是和教育考试有关的,再下面是和歌有关的。实际上我们的系统能学出多少这样的语意?在很多学术研究的论文里,相关的技术能形成几十个、几百个语意。我所了解的业界最大的语意模型,包含的语意数量是Google的一个系统。我曾经在Google做相关的工作,它能学出100万个语意。大家想想我们今天学的词有多少,中文的词,包括复合词,很复杂的NBA的全称,美国男子篮球联赛。把这些词全部算上差不多是30万,100万语意是什么意思?已经不再是词的简单聚类了,它是能识别词的多义性。它已经不做词空间的比较,而是真正的到了语意空间的比较。

今天在腾讯碰到的一个问题是Google和百度这样的公司没有的,在Google和百度很多人会用他们的搜索引擎,所以很多人都会留下搜索足迹。只要知道一个人的搜索足迹,就能知道他对什么感兴趣。可惜的是腾讯搜索引擎的市场份额比较小,比搜狗还要小,但我们的用户量又比百度要大。腾讯几乎是包罗了中国最大的互联网用户群,在这个用户群里只有不大4%的人最近在搜搜上留下的搜索足迹。我们如何针对这个问题了解更多腾讯用户的需求,这就需要用到另外一部分腾讯特有的数据。举几个例子,有的是我们能用的,有的是由于腾讯严格的数据管理政策,我们不能用的。

我们知道用户的关系,在QQ里有哪些好友,在腾讯微博里放了谁,在腾讯QQmail里和谁通讯,很不幸这些数据我们不能用,因为它太敏感了。在以大数据为输入,从大数据中提取信息的过程中,我们经受很多的人,很多的工程师,这些过程都可能导致数据的流失或者是散布。所以这些我们不能用。我们怎么样把数据用起来?这又是人工智能技术再次出场的时候。

对刚才的模型我们做了一些改进,结果不只是把词聚类成语意,而且还包括不同的搜索足迹和语意之间的相关性。最上面这一行文字是我们学出来的几十万语意中的一个,目前世界上能学出来最大的最多种类的语意模型是Google的,但是我能看到的一些语意,有一个语意只有三个词。这三个词我都不认识,而且在字典里查不到,在Google搜索引擎中搜,才知道第一个是一个语言学家的名字,第二个是他的一条狗的名字,第三是非洲一个土著部落的名字。语言学家为了研究土著部落的语言,带着狗在荒野里生活了20年。这样的语意我们在日常生活中几乎用不到,大家会觉得没有什么用,有没有用其实不好说,真可能有用。为什么?大家想想今天我们互联网广告为什么赚钱?因为我们用户多种多样。每个人有不同的偏好,所以各种各样的广告都可以有展示的机会,都可能有人感兴趣去点,都有盈利的可能。

我在例子里只用人的年龄来做分析。有19到24岁的,还有41岁到更大的。人到中年有赚钱压力了,养老婆、养孩子了,所以41岁阶段的他们对股票、投资、证券、黄金更感兴趣。有了这样的模型,我们就知道用户喜欢什么了。

我们期望迈向精准广告的第一步。

主持人:由于时间关系我们不多废话,我们开始下一个时段的论坛。请到的几位都是身在一线,我想问的第一个问题是希望各位从自己科学研究的经验讲一讲自己做了哪些工作是典型的大数据时代的科学工作,或者对大数据的时代到来有帮助的,以及自己的哪些工作有可能受到了大数据这种新的理念的影响。

小龙:我是大数据方面的外行,说一下我们中心的一些工作。我们中心做的是网络大数据,主要是做的网络运行分析,网络上面的群体挖掘,通过微博以及网络以及论坛等等来分析,进行深层的解析。首先是对群体,然后是群体之后的网络。这些方面都是要从很大量的数据上进行分析,首先从网络上扒取数据,然后是存储、预处理,有很多噪声的数据,怎么消除噪声,通过一系列的操作挖掘出我们需要的信息。很显然这都是大数据。我们中心有几百台的服务器来支持这样的工作,当然是规模比较小的。

曾大军:我们课题组主要展开两方面的工作,一块是跟电子政务,也就是公共管理相关的。这一块在数据的获取,数据的分析阶段,整体跟大数据是非常接近的。第二块还是在电子商务,包括现在比较时髦的社会方面做了一些数据挖掘的工作。我自己跟两个研究生刚刚做了一个自己觉得挺好的事,把推荐系统里面一些算法试图拿到超大数据的规模,非常大的数据集上做一些分析,做一些推荐方面算法方面的研究。自己感觉这里面的挑战还是挺多的,一个是确实从算法复杂性的角度,不管你有多少的数据,里面做各种各样并行化的处理,尤其是比较复杂的机器学习的模型是做不了的。这是技术上一块非常突出的瓶颈,我们现在采取的思路就是把大数据,刚才前面老师也讲过了我先把大数据拼成小数据,把小数据之间的关联用形式化的方法描述出来,小数据出来的结果我们再做融合。

还有一个方向在电子商务方面,其实是跟刚才腾讯讲的精准广告部分非常相关的。现在在广告方面从应用的领域最大的一个新的热点就是把上下游的广告也整个搬到类似于GSP方面竞拍的平台里。我们的拿来主义存在一个非常大的问题,做大数据,做基础设施,做算法的,其实给不了我们很多帮助,我们必须自己去想办法。

沈浩:2000年的时候,我就开始从事数据挖掘,我们一直在做类似于像个性化推荐等等建模的过程。在建模过程中,我们一直采用的是抽样,通过建立模型以后维系大数据的过程。当然我们也会碰到海量的数据,比如我曾经处理过2亿多条的数据,对我来讲就是用时间换空间。让一个数据的重构数据可以跑14个小时,反正我能跑出来就行了。只不过因为我没有更高的CPU,或者我没有更高的高性能计算机就是了,但是我知道如果我配了这样的设备,我可能能算得出来,只不过速度快一些就是了。但是自从有了社交网络,也就是像微博这样的信息以后,它给我们带来最大的一个困难和所谓的我们叫做大数据的时候,我们会发现我们希望从关系的数据去寻找这种可视化,这时候当5万个结点他们再去寻找关系的时候,我们看不了了。虽然我们可以通过JAVA的技术,能够显示它的动态,但是无法看到整体。我们曾经希望看到十万个结点之间的关系,但是计算机内存都做不了。

同时我们会发现在处理这些数据的时候,所有的社会,也就是说我们的软件不支持,或者我们不懂支持在大数据,包括我们现在的云平台上怎么去做。可能我知道怎么把数据存在云平台上,但不知道云计算支持不支持我的软件。如果我知道它支持我的加减乘除,但不支持在特定的建模中的算法。所以,我们在处理数据的时候,其实我一直处理的是海量的结构化数据。在那个时候我并不认为它是大数据。当然了如果称它是大数据也没有问题,但今天我们看到的所谓的大数据这样一个概念,不光是自然科学,其实还涉及到社会科学。大家都在谈论大数据的时候,我一直在说其实它跟传统的数据挖掘有什么差别。它跟我们现在基于关系下的社交媒体是什么样的差别,而这种差别最大的就是当淘宝,我知道它有那么大的海量数据,大数据,腾讯也有,但是它跟我没关系,因为它不会给我,我也没法去分析他,也不会因为他有大数据而我变得兴奋。但是当有了微博的时候,至少在一定程度上我会变得兴奋,因为我可以抓下来,我可以不经过新浪就可以抓下来。当然在一定程度上互联网的很多信息,我们都可以可见了,这时候当我们抓下来这些信息的时候,它能够分析每一个人。所以,今天谈到社交应用的时候实际上我们可以算到每一个人。

大数据的时代如果来临,我们不光可以过去算计群体,现在可以精确到算计每一个人。在人所生成的数据中,我愿意说大数据时代到来了。谢谢!

发言人:我是来自清华大学计算机系,我所在的高性能计算所,过去是做高效能计算机的,计算机本身做的少,主要做计算机有关的应用软件和系统软件。大数据这个事骑士队我来说,首先我并不觉得它是一个大事,在科技的数据里,比如天文望远镜拍的数据,像基因的数据、蛋白质的数据本来就很大。大小上我觉得社会网络这些数据不算大,包括互联网的某些数据我也不认为是大数据。

沈浩:在社会科学里,我们研究人不可能像自然科学那样把人研究的那么透。因此,在研究的过程中,看到数据总是要看到背后的人的时候,你会发现这时候科学味道就没有那么强。在这里面我们总是希望越来越多的利用自然科学研究社会科学的东西,研究人以及人所在的群体和组织相关的关系。如果这样的话,我相信研究人一定要跨学科、多学科,合作我觉得是这样的一个发展方向。所以我更愿意把我们的传播学培养成为具有数据科学精神和能力的人。当然我也希望我们的数据或者数学这样一个学科的人拥有更好的理解数据背后人、社会科学的能力。这是我希望的。

曾大军:我自己的感觉是这样的,脱离了领域本身的数据是没有生命力的。从学科建设的角度,我觉得在美国实际上已经有这个趋势,我也非常希望看到在国内有类似的趋势。下一代的研究者必须有非常强有力的数据方面的处理和工具使用的能力,作为一个辅修的专业,我觉得是很好的专业。有类似的活动,大概前5天美国已经开始了作为信息学、信息处理整个在跟自然学和工程的,包括社会科学有大的交叉,这些辅修的学科其实非常有意义,我们应该顺着这个思路走,而不是单纯的把大数据作为独立的主体提炼出来。这些其实意义不大,说白了数据科学早就有了,就是统计学,打开统计学的定义其实就是数据科学。

小龙:我们在年初组织的关于网络数据科学相关会议的时候,邀请到的委员也反对的,也有支持的。总体来说,反对的比较多一些,支持的比较少一些。刘院士有一句话,他说目前来看数据工程是走在数据科学前面的,我们目前看到的很多的问题实际上都是一些工程方面的问题。比如我们怎么去处理大数据的大体量,怎么去处理比如说是小数据,但是短时间内需要很快的速度去处理的时候,相对的这种大数据。工程上没法解决的一些共性问题,后面数据科学会不会朝着这个方向走,去解决这些共性的问题。这些共性的问题也许不是跟领域相关,而是跟领域无关的一些问题。比如说数据的复杂性,到底由什么因素所产生的。这种复杂性它不是因为某个领域的数据有各种各样的特征,这些特征导致的复杂性,而是数据当它变成大数据之后它的共性的复杂性。这种复杂性一个是怎么产生,另外一个是怎么去解决,怎么去面对。这些问题都是后面的数据科学或者数据学科需要去解决的一个问题。

刚才说的第二个问题,也许一开始我们不会马上就开辟一个数据科学,而是朝着数据学科。曾老师和沈老师他们几位老师都已经说了,其实是有一些相关的,往这个方向去发展。至于到最后是成为一门数据科学,还是归结来归结去还是数据工程,我们还要看后面的发展。总体的可能会朝着数据学科这个方向去发展。

主持人:四位嘉宾自己内部的意见不是很统一,但这是一个很好的事情,有活力的东西都不大太统一。大家现在谈到现在时和将来时的问题,将来时我们不知道,三位嘉宾都达成了共识,至少在现在来看,数据不应该成为脱离主要应用战场的单独的学科。我们在做计算机,做社会科学的时候会遇到一些问题,需要处理大数据。我觉得这种观点我也是很同意的,我们可以通过加强这方面的教育培养这方面的人。这里面我想提一点,我们谈有没有数据科学,其中一个很大的问题是科学的味道在哪儿,我们会不会因为有了大量的数据,能够分析一些问题,从而就屏蔽了我们对科学的感觉。有的时候数据多了,就只满足你利用这个数据算什么,而不满足于你利用这个数据去挖掘出为什么。不知道问题从哪儿来,为什么,这就是一个工程问题。像小龙比较乐观的看,有可能我们将来会遇到一些共性的问题,数据的质量怎么评估,复杂性怎么评估,它的品质,它的价值怎么评估。数据本身大量的产生,带给整个社会经济体系的冲击是什么,如果这些东西形成了某种不依赖于任何一个单一学科,和生物没关系,和计算机没关系,和物理都没关系,一个纯粹基于数据的思考,也可能某一天我们真的变得很成熟。正如小龙的一句话,我们拭目以待。

由于时间的关系再问大家两个问题,所有的人只要有企业界和投资界的人参加的都想问的。我们有了很多科学的成果,这些成果怎么变成技术,技术又怎么样变成产品来产生社会经济价值。各位是学界的大拿,能不能在这方面提一些好的建议,或者希望企业界和投资人有没有什么可能提供帮助的?

曾大军:我自己因为没有实战的经验,但是我自己本身是横跨在计算机学院和管理学院的,所以就从管理宏观研究的角度谈谈。我的感觉一个好的范式是应该由国家做一些重点的领域,包括方法论也好,包括重点应用,能够在一些核心的方向上进行一些拉动。在拉动的过程里,可以采取这种模式,科研的前沿的成果跟具体应用以公司的方式跟科研院所直接进行结合,这是非常重要的第一步。在第一步出来以后,说老实话,如果这一步做的面比较广,吸引的像科研团队和技术团队在一起交叉的比较好,第二步我觉得真是应该直接叫市场来考验,政府他的功能已经不是很强了,而且意义不大了。

这两步走如果有这么一个策略,像我们说的大数据,包括云计算方面,我觉得我们国家政府的各方面,包括中央的、地方的,实际上已经成功第一步了。我自己感觉已经过了第一关,第二关要让市场来评判他们的价值怎么样。

小龙:在我们这边所里头有一个特色,如果是纯粹做很基础的研究的话,在我们看来是有问题的。我们所关注和所研究的一些问题,本身是跟应用要挂钩,我们在找问题,找研究方向的时候,从一开始就考虑到研究方向后面能不能产生一些比较有实用价值的成果。比如有一些系统,一些比较好的产品出来。相当于我们从定位上来说是要跟实用最直接挂钩,在具体操作的时候,一个是做的时候争取跟用户在研究的过程中有比较直接的交流。在交流的过程中最直接的去了解用户的意图,让我们的研究跟产品距离能够一步一步的拉近。第三步,我们的队伍把研究的成果怎么样去做知识的转化,孵化出一些创业的团队出来。这相当于我们的一个特色,这么多年计算所孵化出来一些新的研究所,乳化出来很多的公司,比如联想、曙光等等。我们现在有了天津团队之后,天津我们也是有自己的公司。整个过程我们要做的东西是把它实用化,这是最跟我的目标的。有了目标导向,研究不会脱离实际,也不是很多年之后才能看到效果那样的一种结果。总之一句话,研究应该是你的应用跟实际是要挂钩的。

发言人:像我们大学现在这个趋势越来越清楚,过去大学会做一些企业做的事,在中国,因为企业不行,没有研发能力,学校做。像中兴、华为这样的公司越来越厉害,有很多人,很多机器,不需要我们再做这样的事了,我们的定位越来越清楚,尽量的往基础研究走。如果老师要去办公司也很难,他的特长兴趣都不在这儿,所以我们有几种方式,一种是接受公司的委托研究,像华为跟我们有一些研究的课题,我们来做一些东西,做完以后你就把专利或者一些产品原形拿走,你自己实现真正的产品去做。一种是专利转让,我过去做的项目转让给你。还有一种是学生创业,在第三个方面学生创业方面我们也在加大力气,现在有很多校友和其他的成功的企业家能够到我们那里讲一些创业的过程,鼓励学生,支持学生创业的项目。

沈浩:周老师的这个问题其实对我来讲,在我这样的一个学科里面,经常有人问沈老师,你在新闻传播,你怎么整天说统计、数据、数据挖掘、大数据,包括我推荐各种各样可能在自然科学里面需要的一些复杂网络的分析,包括幂律等等。第一个是我的背景,因为我背景本身就是学数学和计算机的,因为我不是自己一定要走到那头,最后因为学校传媒大学的特色,所以我在博士的时候学的是传播学。其实挺痛苦的,为什么?当我谈一个非结构化问题的时候,他们说你应该先解构,就走到了后现代的文学思想上。这个学科过去叫解释问题,他们叫诠释问题。什么是诠释?就是爱怎么说怎么说。从那个角度来说,其实我也希望变成所谓的传播学者。当然现在应该算。包括大数据,其实对我来讲是玩出来的,这是兴趣所然。在兴趣的过程中,我一直在商业上去帮助企业建构各种研究模型,包括像传统的市场研究,包括我们现在比如说移动电信的这些所谓建模。其实这些建模在没有大数据之前一直都有,包括个性化推荐,包括评估的指数,包括数据化。社会科学的重要特点是一定给相关部门提供决策支持,如果不提供决策支持,你的研究真的一点用都没有。所以,我们其实一直在为社会科学相关的部门提供服务,企业是需要这些的。

现在的很多研究其实都已经在企业里有所应用了,自从有了微博以后,很多人说沈老师投资你呀,我说我已经岁数大了,不值得投了。从另一个角度看我要投资学生,我说我的学生其实都是文科,你投了他们会给你写,但是让他们算你还是找计算机科学或者自然科学的人吧,我是属于另类。

主持人:我发现两边是两个不同的阵营,来自研究所的老师和来自高校的老师心态不大一样。其实我完全理解,在高校唯一重要的事情就是培养学生,其他一切都是扯淡。所以,我们不可能像研究所那么自由。刚才陈老师讲我们培养学生,如果学生去创业,你可能提供一些技术算法资源的指导,帮他找一些好的校友去支持他。我有一个问题是专门问两位来自研究所的老师,研究所和国家传统的研究机制接触比较多,你们在研究所有没有遇到一些困难,可能企业家并不觉得是困难,在运营、融资、市场方面有没有特别觉得缺乏的东西或者让你们感觉有障碍的东西?

小龙:我对流程也不是很了解,但是有一点点比较肤浅的认识。对研究所的人来说要创业面临的问题是非常多的,研究所本身没有团队去怎么样帮助你,一个是建立公司这样一个机制,你需要考虑的因素,比如说营销团队怎么去建立,管理团队怎么样去建立。对研究所的人来说,你可能在技术方面是本身的强项,但是在别的一些方面并不强。还有在法律法规方面,你本身也不是很了解,怎么样去建立这样的一个团队,这本身就是一个很大的困难。另外,你研究出来的这些成果,能不能拿出去创业,里面还有跟上级部门相关单位的交涉问题。这两个层面对研究所来说要创业是最大的障碍。

曾大军:我自己没有创业,没有办法贡献。

主持人:再次感谢台上的四位嘉宾,今天的活动到此结束,谢谢!也谢谢大家参与!

相关推荐
热点推荐
张本智和当场发飙!主持人叫错名字 中国乒协致歉日本乒协:非故意

张本智和当场发飙!主持人叫错名字 中国乒协致歉日本乒协:非故意

风过乡
2025-12-14 08:34:41
日企集体加速撤离?又一家电巨头关停中国工厂,央媒早有警告

日企集体加速撤离?又一家电巨头关停中国工厂,央媒早有警告

燕梳楼频道
2025-12-12 18:06:43
中国为啥能迅速崛起,德国专家给出看法:中国没覆盖全民族的宗教

中国为啥能迅速崛起,德国专家给出看法:中国没覆盖全民族的宗教

兴趣知识
2025-12-13 03:31:06
太棒了!这穿着你是一点都不遮掩,真是太让人羡慕了

太棒了!这穿着你是一点都不遮掩,真是太让人羡慕了

章眽八卦
2025-11-29 11:58:56
海外华人,要注销国内户口,为什么现在查的这么严

海外华人,要注销国内户口,为什么现在查的这么严

呼呼历史论
2025-12-14 16:12:50
夫妻分床睡觉,时间长了女人还是一声不吭,越能够体现一个事实

夫妻分床睡觉,时间长了女人还是一声不吭,越能够体现一个事实

卡西莫多的故事
2025-12-12 10:13:21
队史交锋首败!浙江加时爆冷惜败宁波 约克33分辛普森36分

队史交锋首败!浙江加时爆冷惜败宁波 约克33分辛普森36分

醉卧浮生
2025-12-14 22:02:58
稀土牌还没打完,又要打钢铁牌?商务部又放大招了

稀土牌还没打完,又要打钢铁牌?商务部又放大招了

青青子衿
2025-12-14 06:56:07
随着巴萨2-0,马竞2-1,西甲最新积分榜出炉:巴萨优势近2位数

随着巴萨2-0,马竞2-1,西甲最新积分榜出炉:巴萨优势近2位数

侧身凌空斩
2025-12-14 07:31:07
雷军:小米SU7 Ultra的紫水晶车漆,人工打磨“近50小时”

雷军:小米SU7 Ultra的紫水晶车漆,人工打磨“近50小时”

荆楚寰宇文枢
2025-12-13 21:42:45
亨德森:前不久是若塔生日,我不经常进球所以想把进球献给他

亨德森:前不久是若塔生日,我不经常进球所以想把进球献给他

懂球帝
2025-12-15 03:31:14
梅西印度行第二站:由于主办方正常!全程梅西和球迷都体验良好!

梅西印度行第二站:由于主办方正常!全程梅西和球迷都体验良好!

氧气是个地铁
2025-12-14 10:59:55
高市早苗勾结菲律宾?日本开始军事介入南海?中国会如何应对?

高市早苗勾结菲律宾?日本开始军事介入南海?中国会如何应对?

近史阁
2025-12-15 02:47:14
争议!徐杰被绊倒重摔倒地不起后返回更衣室 未吹违体杜锋暴怒

争议!徐杰被绊倒重摔倒地不起后返回更衣室 未吹违体杜锋暴怒

醉卧浮生
2025-12-14 20:40:38
给这人顶薪?三分10中2坑惨郭昊文,球迷:你的三分比戴了还安心

给这人顶薪?三分10中2坑惨郭昊文,球迷:你的三分比戴了还安心

弄月公子
2025-12-14 23:07:55
涉华绝密报告曝光,美国官员脸色煞白,普京再补刀,特朗普不玩了

涉华绝密报告曝光,美国官员脸色煞白,普京再补刀,特朗普不玩了

南宫一二
2025-12-13 10:42:32
医生提醒:早期脑梗不是头晕,而是频繁出现这4个异常,要警惕

医生提醒:早期脑梗不是头晕,而是频繁出现这4个异常,要警惕

岐黄传人孙大夫
2025-12-14 02:00:03
哈兰德头球破门+点球克服心魔,福登世界波,曼城3-0完胜水晶宫

哈兰德头球破门+点球克服心魔,福登世界波,曼城3-0完胜水晶宫

硬腿子聊个球
2025-12-14 23:57:51
演员何晴去世,《三国演义》“赵云”扮演者张山透露病情:我们是邻居,她罹患脑瘤还中风了,曾在院子里见到阿姨推着她进出

演员何晴去世,《三国演义》“赵云”扮演者张山透露病情:我们是邻居,她罹患脑瘤还中风了,曾在院子里见到阿姨推着她进出

极目新闻
2025-12-14 13:32:28
最后的疯狂:许家印被抓捕的全部过程

最后的疯狂:许家印被抓捕的全部过程

月光作笺a
2025-12-09 08:38:58
2025-12-15 04:15:00

科技要闻

当人形机器人有了App Store,宇树在赌什么

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

头条要闻

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

体育要闻

马刺终结雷霆:以勇猛,以文班亚马

娱乐要闻

何晴生前最大谣言!没有再婚嫁廖京生

财经要闻

重大违法强制退市!10人被判刑

汽车要闻

硬核敞篷巴士?掷弹兵Game Viewer 2026年初量产

态度原创

艺术
亲子
数码
本地
公开课

艺术要闻

六年磨一“扇”!上海大歌剧院亮灯,年内竣工!

亲子要闻

保护孩子宝妈必学,什么是分离焦虑变异和饮食失调依赖进食?

数码要闻

Beats携手IShowSpeed合作短片 《速稳风云》全球上线

本地新闻

云游安徽|阜阳三朝风骨,传承千年墨香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×