主持人:由于时间关系我们不多废话,我们开始下一个时段的论坛。请到的几位都是身在一线,我想问的第一个问题是希望各位从自己科学研究的经验讲一讲自己做了哪些工作是典型的大数据时代的科学工作,或者对大数据的时代到来有帮助的,以及自己的哪些工作有可能受到了大数据这种新的理念的影响。
小龙:我是大数据方面的外行,说一下我们中心的一些工作。我们中心做的是网络大数据,主要是做的网络运行分析,网络上面的群体挖掘,通过微博以及网络以及论坛等等来分析,进行深层的解析。首先是对群体,然后是群体之后的网络。这些方面都是要从很大量的数据上进行分析,首先从网络上扒取数据,然后是存储、预处理,有很多噪声的数据,怎么消除噪声,通过一系列的操作挖掘出我们需要的信息。很显然这都是大数据。我们中心有几百台的服务器来支持这样的工作,当然是规模比较小的。
曾大军:我们课题组主要展开两方面的工作,一块是跟电子政务,也就是公共管理相关的。这一块在数据的获取,数据的分析阶段,整体跟大数据是非常接近的。第二块还是在电子商务,包括现在比较时髦的社会方面做了一些数据挖掘的工作。我自己跟两个研究生刚刚做了一个自己觉得挺好的事,把推荐系统里面一些算法试图拿到超大数据的规模,非常大的数据集上做一些分析,做一些推荐方面算法方面的研究。自己感觉这里面的挑战还是挺多的,一个是确实从算法复杂性的角度,不管你有多少的数据,里面做各种各样并行化的处理,尤其是比较复杂的机器学习的模型是做不了的。这是技术上一块非常突出的瓶颈,我们现在采取的思路就是把大数据,刚才前面老师也讲过了我先把大数据拼成小数据,把小数据之间的关联用形式化的方法描述出来,小数据出来的结果我们再做融合。
还有一个方向在电子商务方面,其实是跟刚才腾讯讲的精准广告部分非常相关的。现在在广告方面从应用的领域最大的一个新的热点就是把上下游的广告也整个搬到类似于GSP方面竞拍的平台里。我们的拿来主义存在一个非常大的问题,做大数据,做基础设施,做算法的,其实给不了我们很多帮助,我们必须自己去想办法。
沈浩:2000年的时候,我就开始从事数据挖掘,我们一直在做类似于像个性化推荐等等建模的过程。在建模过程中,我们一直采用的是抽样,通过建立模型以后维系大数据的过程。当然我们也会碰到海量的数据,比如我曾经处理过2亿多条的数据,对我来讲就是用时间换空间。让一个数据的重构数据可以跑14个小时,反正我能跑出来就行了。只不过因为我没有更高的CPU,或者我没有更高的高性能计算机就是了,但是我知道如果我配了这样的设备,我可能能算得出来,只不过速度快一些就是了。但是自从有了社交网络,也就是像微博这样的信息以后,它给我们带来最大的一个困难和所谓的我们叫做大数据的时候,我们会发现我们希望从关系的数据去寻找这种可视化,这时候当5万个结点他们再去寻找关系的时候,我们看不了了。虽然我们可以通过JAVA的技术,能够显示它的动态,但是无法看到整体。我们曾经希望看到十万个结点之间的关系,但是计算机内存都做不了。
同时我们会发现在处理这些数据的时候,所有的社会,也就是说我们的软件不支持,或者我们不懂支持在大数据,包括我们现在的云平台上怎么去做。可能我知道怎么把数据存在云平台上,但不知道云计算支持不支持我的软件。如果我知道它支持我的加减乘除,但不支持在特定的建模中的算法。所以,我们在处理数据的时候,其实我一直处理的是海量的结构化数据。在那个时候我并不认为它是大数据。当然了如果称它是大数据也没有问题,但今天我们看到的所谓的大数据这样一个概念,不光是自然科学,其实还涉及到社会科学。大家都在谈论大数据的时候,我一直在说其实它跟传统的数据挖掘有什么差别。它跟我们现在基于关系下的社交媒体是什么样的差别,而这种差别最大的就是当淘宝,我知道它有那么大的海量数据,大数据,腾讯也有,但是它跟我没关系,因为它不会给我,我也没法去分析他,也不会因为他有大数据而我变得兴奋。但是当有了微博的时候,至少在一定程度上我会变得兴奋,因为我可以抓下来,我可以不经过新浪就可以抓下来。当然在一定程度上互联网的很多信息,我们都可以可见了,这时候当我们抓下来这些信息的时候,它能够分析每一个人。所以,今天谈到社交应用的时候实际上我们可以算到每一个人。
大数据的时代如果来临,我们不光可以过去算计群体,现在可以精确到算计每一个人。在人所生成的数据中,我愿意说大数据时代到来了。谢谢!
发言人:我是来自清华大学计算机系,我所在的高性能计算所,过去是做高效能计算机的,计算机本身做的少,主要做计算机有关的应用软件和系统软件。大数据这个事骑士队我来说,首先我并不觉得它是一个大事,在科技的数据里,比如天文望远镜拍的数据,像基因的数据、蛋白质的数据本来就很大。大小上我觉得社会网络这些数据不算大,包括互联网的某些数据我也不认为是大数据。
沈浩:在社会科学里,我们研究人不可能像自然科学那样把人研究的那么透。因此,在研究的过程中,看到数据总是要看到背后的人的时候,你会发现这时候科学味道就没有那么强。在这里面我们总是希望越来越多的利用自然科学研究社会科学的东西,研究人以及人所在的群体和组织相关的关系。如果这样的话,我相信研究人一定要跨学科、多学科,合作我觉得是这样的一个发展方向。所以我更愿意把我们的传播学培养成为具有数据科学精神和能力的人。当然我也希望我们的数据或者数学这样一个学科的人拥有更好的理解数据背后人、社会科学的能力。这是我希望的。
曾大军:我自己的感觉是这样的,脱离了领域本身的数据是没有生命力的。从学科建设的角度,我觉得在美国实际上已经有这个趋势,我也非常希望看到在国内有类似的趋势。下一代的研究者必须有非常强有力的数据方面的处理和工具使用的能力,作为一个辅修的专业,我觉得是很好的专业。有类似的活动,大概前5天美国已经开始了作为信息学、信息处理整个在跟自然学和工程的,包括社会科学有大的交叉,这些辅修的学科其实非常有意义,我们应该顺着这个思路走,而不是单纯的把大数据作为独立的主体提炼出来。这些其实意义不大,说白了数据科学早就有了,就是统计学,打开统计学的定义其实就是数据科学。
小龙:我们在年初组织的关于网络数据科学相关会议的时候,邀请到的委员也反对的,也有支持的。总体来说,反对的比较多一些,支持的比较少一些。刘院士有一句话,他说目前来看数据工程是走在数据科学前面的,我们目前看到的很多的问题实际上都是一些工程方面的问题。比如我们怎么去处理大数据的大体量,怎么去处理比如说是小数据,但是短时间内需要很快的速度去处理的时候,相对的这种大数据。工程上没法解决的一些共性问题,后面数据科学会不会朝着这个方向走,去解决这些共性的问题。这些共性的问题也许不是跟领域相关,而是跟领域无关的一些问题。比如说数据的复杂性,到底由什么因素所产生的。这种复杂性它不是因为某个领域的数据有各种各样的特征,这些特征导致的复杂性,而是数据当它变成大数据之后它的共性的复杂性。这种复杂性一个是怎么产生,另外一个是怎么去解决,怎么去面对。这些问题都是后面的数据科学或者数据学科需要去解决的一个问题。
刚才说的第二个问题,也许一开始我们不会马上就开辟一个数据科学,而是朝着数据学科。曾老师和沈老师他们几位老师都已经说了,其实是有一些相关的,往这个方向去发展。至于到最后是成为一门数据科学,还是归结来归结去还是数据工程,我们还要看后面的发展。总体的可能会朝着数据学科这个方向去发展。
主持人:四位嘉宾自己内部的意见不是很统一,但这是一个很好的事情,有活力的东西都不大太统一。大家现在谈到现在时和将来时的问题,将来时我们不知道,三位嘉宾都达成了共识,至少在现在来看,数据不应该成为脱离主要应用战场的单独的学科。我们在做计算机,做社会科学的时候会遇到一些问题,需要处理大数据。我觉得这种观点我也是很同意的,我们可以通过加强这方面的教育培养这方面的人。这里面我想提一点,我们谈有没有数据科学,其中一个很大的问题是科学的味道在哪儿,我们会不会因为有了大量的数据,能够分析一些问题,从而就屏蔽了我们对科学的感觉。有的时候数据多了,就只满足你利用这个数据算什么,而不满足于你利用这个数据去挖掘出为什么。不知道问题从哪儿来,为什么,这就是一个工程问题。像小龙比较乐观的看,有可能我们将来会遇到一些共性的问题,数据的质量怎么评估,复杂性怎么评估,它的品质,它的价值怎么评估。数据本身大量的产生,带给整个社会经济体系的冲击是什么,如果这些东西形成了某种不依赖于任何一个单一学科,和生物没关系,和计算机没关系,和物理都没关系,一个纯粹基于数据的思考,也可能某一天我们真的变得很成熟。正如小龙的一句话,我们拭目以待。
由于时间的关系再问大家两个问题,所有的人只要有企业界和投资界的人参加的都想问的。我们有了很多科学的成果,这些成果怎么变成技术,技术又怎么样变成产品来产生社会经济价值。各位是学界的大拿,能不能在这方面提一些好的建议,或者希望企业界和投资人有没有什么可能提供帮助的?
曾大军:我自己因为没有实战的经验,但是我自己本身是横跨在计算机学院和管理学院的,所以就从管理宏观研究的角度谈谈。我的感觉一个好的范式是应该由国家做一些重点的领域,包括方法论也好,包括重点应用,能够在一些核心的方向上进行一些拉动。在拉动的过程里,可以采取这种模式,科研的前沿的成果跟具体应用以公司的方式跟科研院所直接进行结合,这是非常重要的第一步。在第一步出来以后,说老实话,如果这一步做的面比较广,吸引的像科研团队和技术团队在一起交叉的比较好,第二步我觉得真是应该直接叫市场来考验,政府他的功能已经不是很强了,而且意义不大了。
这两步走如果有这么一个策略,像我们说的大数据,包括云计算方面,我觉得我们国家政府的各方面,包括中央的、地方的,实际上已经成功第一步了。我自己感觉已经过了第一关,第二关要让市场来评判他们的价值怎么样。
小龙:在我们这边所里头有一个特色,如果是纯粹做很基础的研究的话,在我们看来是有问题的。我们所关注和所研究的一些问题,本身是跟应用要挂钩,我们在找问题,找研究方向的时候,从一开始就考虑到研究方向后面能不能产生一些比较有实用价值的成果。比如有一些系统,一些比较好的产品出来。相当于我们从定位上来说是要跟实用最直接挂钩,在具体操作的时候,一个是做的时候争取跟用户在研究的过程中有比较直接的交流。在交流的过程中最直接的去了解用户的意图,让我们的研究跟产品距离能够一步一步的拉近。第三步,我们的队伍把研究的成果怎么样去做知识的转化,孵化出一些创业的团队出来。这相当于我们的一个特色,这么多年计算所孵化出来一些新的研究所,乳化出来很多的公司,比如联想、曙光等等。我们现在有了天津团队之后,天津我们也是有自己的公司。整个过程我们要做的东西是把它实用化,这是最跟我的目标的。有了目标导向,研究不会脱离实际,也不是很多年之后才能看到效果那样的一种结果。总之一句话,研究应该是你的应用跟实际是要挂钩的。
发言人:像我们大学现在这个趋势越来越清楚,过去大学会做一些企业做的事,在中国,因为企业不行,没有研发能力,学校做。像中兴、华为这样的公司越来越厉害,有很多人,很多机器,不需要我们再做这样的事了,我们的定位越来越清楚,尽量的往基础研究走。如果老师要去办公司也很难,他的特长兴趣都不在这儿,所以我们有几种方式,一种是接受公司的委托研究,像华为跟我们有一些研究的课题,我们来做一些东西,做完以后你就把专利或者一些产品原形拿走,你自己实现真正的产品去做。一种是专利转让,我过去做的项目转让给你。还有一种是学生创业,在第三个方面学生创业方面我们也在加大力气,现在有很多校友和其他的成功的企业家能够到我们那里讲一些创业的过程,鼓励学生,支持学生创业的项目。
沈浩:周老师的这个问题其实对我来讲,在我这样的一个学科里面,经常有人问沈老师,你在新闻传播,你怎么整天说统计、数据、数据挖掘、大数据,包括我推荐各种各样可能在自然科学里面需要的一些复杂网络的分析,包括幂律等等。第一个是我的背景,因为我背景本身就是学数学和计算机的,因为我不是自己一定要走到那头,最后因为学校传媒大学的特色,所以我在博士的时候学的是传播学。其实挺痛苦的,为什么?当我谈一个非结构化问题的时候,他们说你应该先解构,就走到了后现代的文学思想上。这个学科过去叫解释问题,他们叫诠释问题。什么是诠释?就是爱怎么说怎么说。从那个角度来说,其实我也希望变成所谓的传播学者。当然现在应该算。包括大数据,其实对我来讲是玩出来的,这是兴趣所然。在兴趣的过程中,我一直在商业上去帮助企业建构各种研究模型,包括像传统的市场研究,包括我们现在比如说移动电信的这些所谓建模。其实这些建模在没有大数据之前一直都有,包括个性化推荐,包括评估的指数,包括数据化。社会科学的重要特点是一定给相关部门提供决策支持,如果不提供决策支持,你的研究真的一点用都没有。所以,我们其实一直在为社会科学相关的部门提供服务,企业是需要这些的。
现在的很多研究其实都已经在企业里有所应用了,自从有了微博以后,很多人说沈老师投资你呀,我说我已经岁数大了,不值得投了。从另一个角度看我要投资学生,我说我的学生其实都是文科,你投了他们会给你写,但是让他们算你还是找计算机科学或者自然科学的人吧,我是属于另类。
主持人:我发现两边是两个不同的阵营,来自研究所的老师和来自高校的老师心态不大一样。其实我完全理解,在高校唯一重要的事情就是培养学生,其他一切都是扯淡。所以,我们不可能像研究所那么自由。刚才陈老师讲我们培养学生,如果学生去创业,你可能提供一些技术算法资源的指导,帮他找一些好的校友去支持他。我有一个问题是专门问两位来自研究所的老师,研究所和国家传统的研究机制接触比较多,你们在研究所有没有遇到一些困难,可能企业家并不觉得是困难,在运营、融资、市场方面有没有特别觉得缺乏的东西或者让你们感觉有障碍的东西?
小龙:我对流程也不是很了解,但是有一点点比较肤浅的认识。对研究所的人来说要创业面临的问题是非常多的,研究所本身没有团队去怎么样帮助你,一个是建立公司这样一个机制,你需要考虑的因素,比如说营销团队怎么去建立,管理团队怎么样去建立。对研究所的人来说,你可能在技术方面是本身的强项,但是在别的一些方面并不强。还有在法律法规方面,你本身也不是很了解,怎么样去建立这样的一个团队,这本身就是一个很大的困难。另外,你研究出来的这些成果,能不能拿出去创业,里面还有跟上级部门相关单位的交涉问题。这两个层面对研究所来说要创业是最大的障碍。
曾大军:我自己没有创业,没有办法贡献。
主持人:再次感谢台上的四位嘉宾,今天的活动到此结束,谢谢!也谢谢大家参与!
