大数据的探索历程——回归初心
谈一下主要处理的三个关系:数据与机器的关系、数据与数据的关系,经过Hadoop,经过各种分析可视化工具,最后回归初心,数据从哪里来?
数据与机器的关系。大数据纪元刚开始,我们碰到的第一个核心问题就是“大”的问题。主要有三个方面,新型的数据与机器关系当中的第一条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有免费的午餐,所以我们必须要舍弃一些,得到一些新的。我们必须舍弃贵族化的高端小型机和服务器,得到平民化大量的X86的服务器。通过这样一种可横向、可水平扩展服务器处理每两年翻番的数据量的挑战。我们上面的软件,传统上依赖硬件的可靠性和可用性。现在要舍弃它,得到软件的可靠性和可用性。这也就是谷歌三大论文以及Hadoop的核心重点。我们要舍弃传统数据库的强一致性,获得更放松一致性的架构可扩展。算法原则强调非常严格的精确性,现在要放弃一些精确性,通过近似、采样这种方式来获得更好的扩展性。
最早大数据的处理范式是Mapreduce的批量处理,慢慢我们发现有其他的需求,实时的流处理、多迭代的处理、图计算、即时查询等等新的范式百花齐放,最后我们万法归宗。刚才王斌老将讲的SAP的HANA本身就是数据管理和分析的融合,现在非常荣幸的Hadoop之后的SPACK,就是把前面的各种范式进行了融合。
存储与内存的消长,大数据第一个要解决把数据存储下来,互联网发现要把它放到大的内存里进行处理,获得实时性,但是在存储和内存之间现在又出现了闪存,有闪存化甚至全闪存的存储,也有闪存化的内存,我们把所有的计算在闪存里面处理。现在微软、Facebook等等在大量使用新的范式。大家可以预期,两年以后出现新的非易失性的闪存,它的速度可能要比闪存快几百倍,和内存相似,这又会极大地颠覆数据与机器的关系。
数据与人的关系。主要是价值的觉醒,如果数据不能产生价值它可能是负面资产。数据怎么能够给人带来价值?介绍一下它的价值维度,三个V的含义,把它映射到二维的时空象限里,用六个关键词来描述它。第一是“Volume”,两个关键词,小数据见微对个人进行刻划,大数据支柱能够了解宏观规律,它是时间概念也是空间概念,同时也是时间概念,数据刚刚产生的时候,它的个性化价值、见微的价值最大,而随着时间的推移,它渐渐退化。第二是Velocity,时间轴的原点是当下实时价值,副轴是过往,正轴是预测未来,如果知道知前后就能够做到万物的皆明。第三是Variety,多元抑制的数据,能够过滤噪声、查漏补缺、去伪存真,就是辩讹。还有晓意,能够从大量的非结构化数据中获得语意。
数据与数据的关系。黄色的部分是与世隔绝的数据。蓝色的海是web上已经上网的数据。现在只有海面平的数据是搜索引擎可以检索到,深海的数据可能是黑暗的数据,在政府、在企业里大家看不到。我们怎么办呢?必须让数据发现数据。只有让数据能够发现数据、遇到数据,才能产生金风玉露一相逢、便胜却人间无数的效果。这里有三个重要的观念,需要法律、技术、经济理论和实践上配合。法律上要明确数据的权利,数据所有权,数据的隐私权,什么数据不能给你看;数据的许可权,什么数据是可以给你看的;数据的审计权,我给你看了以后,你是不是按照许可的范围去看;数据的分红权。数据像原油又不同于原油,原油用完了就没有了,数据可以反复地产生价值。我们要保证数据的开放、共享、交易。