作为大数据入门连载的最后一部分,本次将介绍大数据技术的历史、应用、实践策略和当前技术前沿。由于部分内容初次编辑成稿于2016年年初,有些文中所称的“最新”或“前沿”已然名不符实,但时间所限,笔者在此处仍保留了原表达,读者在批判吸收的同时也不妨享受一下目睹技术快速迭代进化的上帝视角。
1) 大数据技术小史
互联网上有关大数据历史的资料大多混杂了数据、技术和科普营销事件,本节所谈则聚焦于几个关键技术产生,旨在帮助读者了解大数据技术发展的走向。
i) 前身
上世纪90年代至本世纪初,是大数据技术的前身 – 商业智能和商业分析发展的时期。数据库技术日臻成熟后,数据仓库和数据挖掘技术开始逐步发展,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
ii) 产生
2003年到2006年互联网企业的技术实践创造了大数据的基础技术组件。2003年谷歌公司研发了大数据“三核心”——文件系统(Google File System)、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和范式,被认为是大数据技术的肇始之作。在这一阶段,大数据技术处于围绕非结构化数据自由探索阶段。以2004年Facebook创立为标志,社交网络的流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对,从而带动了大数据技术的发展进入下一阶段的快车道。
图:Google最初研发的大数据技术示意图。来源:互联网
iii) 成长
2006至2009年,出现并行运算与分布式系统,大数据发展进入快速成长期。2006年雅虎基于谷歌的算法思想,创建了Hadoop开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具,并以数据为消费产品改善用户体验。Jeff Dean在BigTable基础上开发了Spanner数据库(2009)。此阶段,大数据研究的热点关键词再次趋于集中,聚焦“Performance”(性能)、“CloudComputing”(云计算)、“MapReduce”(大规模数据集并行运算算法)、“Hadoop”(开源分布式系统基础架构)等。
iv) 炒作
2010年至2015年,随着智能移动设备、物联网等技术的广泛应用,数据的碎片化、分布式、流媒体特征更加明显,大数据技术开始与移动和云技术结合,复杂事件处理、图形数据库和内存计算开始发展。技术的进一步成熟伴随着商业获利的渴望攀升到新高,营销炒作贯穿这一时期,带来的好处就是大数据概念越来越被垂直行业以及政府和大众接受。大数据技术通过催化新的商业模式使得大数据的技术领域和传统行业的边界变得模糊,人们开始更加关注应用创新而非技术本身。接近本阶段的尾声,炒作逐渐回落,大数据产业的主题已经转向应用对行业的变革性影响。
下图总结了大数据技术的发展史中的关键技术、公司和文献:
图:大数据技术的发展简史。 来源:上海科学技术情报研究所
2) 大数据技术的最新应用
来到大数据技术炒作的后期,热情向理性回归,人们对大数据的看法产生了两极分化,一种是认为大数据技术无异于原有的商业智能,因而倾向于轻视技术带来变革的可能,或以技术辅助业务的惯性做有限的尝试;一种是更加乐观,寄希望于大数据带来的颠覆性创新力量。研究机构在审慎拥抱技术发展的同时也指出,数据和数据技术对商业活动的影响已是进行时,企业应该以正确的方式重启大数据之旅。
i) 营销
大数据技术在营销方面的应用仍最为广泛,在一定意义上也是由于这类案例比较多的被宣传
· Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。
· Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
· 日用品企业Clorox和Kimberly等运用气象、交通等大数据关联预测客户需求,从而提高销售收入
ii) 运营
利用大数据技术对于机会和风险做出更快的判断、从而提高前台或后台运营效率的案例越来越多,这些案例无可置疑的表明大数据的确有别于原有的BI技术。
· 梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
· 沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”
· 快餐业的视频分析。快餐公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。
· Tesco PLC(特易购)和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。
· 美国运通(American Express)和商业智能。以往,运用传统的BI,AmEx只能实现事后诸葛式的报告和滞后的预测。而采用大数据技术,AmEx开始构建真正能够预测忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后四个月中流失的客户,已经能够识别出其中的24%。
· PredPol Inc.在公共安全方面应用大数据技术预防犯罪。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。
iii) 创新
最为重要的是,在一些行业领先的企业,大数据已经开始真正进入战略层面,引发新的业务实践,或被用于产品创新。Forrester从实际调研的案例得出的结论是:大数据究竟是不是“大”取决于用是否将其应用于“大”(战略性)的思考和改变。
· 飞机制造企业罗斯罗伊斯基于大数据技术转型服务性业务。传感器采集数据并加以分析,基于此为客户提供维保服务,目前其服务收入已超过总收入的50%。
· John Deere和孟山都等企业意欲以数据为抓手领先未来农业生产生态链。农业是最传统的生产方式之一,然而通过数字化这一行业中的多个要素:土壤成分、天气、作物基因、机械化设施等,农民开始有可能以新的方式进行生产,产业链有可能被重塑。
图:John Deere和孟山都用大数据重塑农业。 来源:Forrester
· 大数据技术也在企业知识管理领域大有用武之地。企业知识管理属于企业信息管理的范畴,核心的技术是企业级搜索(Enterprise Search)。除了广泛的内部已知结构化数据和有目的获取的外部数据外,大数据技术还能够激活原属于企业但“隐藏”的数据,如邮件、会议音频、视频、扫描存档等,并通过创新灵活的应用提高企业办公效率、加速研发、优化营销和客户体验。
图:企业搜索和知识发现平台架构图。 来源:Forrester
无论上述案例是否仍很多带有营销的夸大,从竞争角度看,在大数据技术已经实实在在落地的今天,忽视、轻视大数据技术都是不明智的。首先,后发的从业者会利用客户的个人数据占领新的市场、甚至是侵入原有垄断者的市场,Uber、嘀嘀打车即是典型的例子;其次,以数字技术装备的消费者在营销博弈中也会渐渐注重个人隐私数据的保护,会产生基于此种隐私自觉的新商业模式,可想而知在这一信息予夺的博弈过程中大数据分析技术也会更快的迭代;第三,因为缺乏渠道和媒介而留白的细分领域正在被大数据技术驱动的高效商业模式所填补,同理,原有依靠渠道和中间媒介盈利的商业模式也将被大数据技术颠覆。前者是城市出租车行业的现状,后者则是银行行业面临的未来。在数字化拉平世界的今日,中外皆然,全球共冷暖。
3) 大数据技术的当前实践策略
从上述案例中我们看到,当前大数据技术应用趋于战略和战术并重,开源、节流、风险预判并重,这一现状表现在大数据技术的实践策略上就是领先企业纷纷致力于发展灵活的、可扩展的实时的数据分析和洞察能力。
图:大数据技术不止是Hadoop。 来源:Forrester
Forrester研究报告建议一方面要在战略上充分认识大数据技术具备超越传统BI价值的潜力,另一方面在落地上要基于现有BI能力协同的发展大数据技能,以大数据能力增强现有BI能力,最终形成融合的数据分析机制。我们理解,这一认知和策略包含以下要点:
· 数据分析产生大数据价值,数据整合和治理形成正确分析的前提,二者缺一不可,大数据并非抛弃而是增强传统的BI能力和平台。
· 数据整合和治理仍然是数据应用的基础,但是需要将大数据纳入未来数据治理架构设计的考量之中,特别是重视因大数据产生的数据整合阶段的复杂性。
· 在数据分析技术方面,在架构的各层尝试植入大数据手段,并形成固化的大数据处理能力。
· 结合而言,这一最佳实践要求整体的而非孤立的规划大数据和传统BI技术,并且避免大动干戈,而是“润物细无声”式的、有策略的逐步将大数据敷设到现有BI能力平台中。Forrester把所建议的大数据和BI融合平台架构成为轴-辐(Hub-Spoke)模式,在数据聚合部分(Hub)建立传统结构数据和新型大数据共存的“数据发现加速器”,在多态分析部分(Spoke)的各个层次分别考虑加入大数据处理模块。
图:大数据和BI融合平台的架构示意图。来源:Forrester
4) 大数据技术的趋势
2015年初,Gartner资深分析师,最初提出大数据3V特性的Doug Laney撰写了报告:《2015至2020年信息和数据分析技术预测》,总结了Gartner研究人员在一些列报告中提出的近百个大数据和信息管理相关的趋势,分为关键信息和数据类、关键分析技术类、数字化商业/商务类、信息基础设施类、业务职能类、和行业六大类。
对于大数据,Gartner认为在未来的五年中项目挑战将将从技术层面转移到组织级别的数据治理、安全和整合,其表现为:
· 大数据驱动的IT项目将日渐增多,但由于企业开始更加关注价值回报,大数据项目推进的整体进展可能依然保持平稳。
· 无论是基于创新的大数据试点项目还是安全、管控或生产系统类的大数据项目,在投入实际应用之前和现有流程的结合是成功的重要因素。
· 在零星的应用试点之后,以建设大数据能力为目标,企业开始再次发力于数据架构的整合以及数据资产管理等企业信息管理的基础模块
当然,除了这样定性的意见之外,在这些报告里Gartner也做了大量定性的预测,例如,对于大数据包括:
· 到2017年,60%的大数据项目将在实验期之后即告结束
· 到2017年,超过一半的机构在文化或商业模式方面尚不具备从大数据技术中获益的条件
· 到2018年,90%已经实施的数据湖泊将变得毫无用处,因为其中充斥了大量当初基于不确定的业务应用采集的信息资产
· 到2018年,不当的大数据分析将导致一半的业务道德违规
对于数据基础架构的预测包括:
· 到2017年,专门的内存数据库将不再是一个特别的数据库类别,而成为一般数据库的一个可选项
· 到2018年,机械硬盘将仍占75%到85%服务器基于外部控制器存储的市场,然而固态硬盘的市场份额已经提升至15%-25%
· 到2018年,30%的流处理、近实时数据的整合和管理用例将由包含Apache Spark的技术组合支持实现
关于数据治理和主数据管理的预测包括:
· 到2017年,50%的数据治理项目将包含“信息倡导”的概念,以保证项目是以价值驱动的
· 到2018年,40%的CRM和ERP客户将要求解决方案中内嵌主数据管理的能力
· 到2018年,组织级信息风控环境缺陷相关的监管披露要求将提升50%
· 到2018年,90%的有关“市民职责”的信息治理项目将无法达成预期目标
· 到2017年,25%的大企业将制定数字行为守则,以避免信息滥用
除了Gartner以外,Intel中国研究院的院长吴甘沙在2014年底发布了一份涵盖数据获取、获取、存储、分析全生命周期的十大前沿方向,也可以作为前瞻大数据未来发展的参考材料。
5) 重点技术发展专题
本节对三个主要大数据技术最新发展做简要的介绍
i) 逻辑数据仓库
传统单一存储、单一技术选型的数据仓库越来越不能满足日益复杂的数据治理、多样化的数据处理语言、灵活的数据查询方式、升级的性能要求、以及大量复杂的大数据类型和应用场景。逻辑数据仓库应运而生,成为企业既能够解决以上问题,又能保有原数据仓库投资的不二之选。Gartner敦促企业尽快拥抱逻辑数据仓库。
图:逻辑数据仓库参考架构。来源:Gartner
另外一个新技术是数据湖泊(Data Lake)。这一技术尽管看上去类似数据仓库,但与数仓的偏数据整合和分析用途不同,数据湖泊更像是一个数据存储策略,由于数据在湖泊中以接近或完全原始的状态保存,基于数据湖泊的分析就需要更高水平的专业技术能力。
图:数据湖泊参考架构。来源:EMC
ii) 事件流处理(Event Stream Processing)
事件流处理是一种针对大数据“高速”特性的重要处理技术,复杂事件可能由来自于对多个源的数个至数百万个基础事件的计算的结果,所反映出的数据中存在的模式有可能对应某种业务机会或风险。金融行业因其远远超过行业平均水平的高数据量和低延迟率要求,成为最典型的事件流处理技术的应用者。
目前的事件流处理平台有复杂事件处理(CEP)和分布式流计算(DSCP)两种类型,前者具备更多专门的数据筛选、计算聚合和模式探测功能。针对两种类型,目前市场上都已有众多独立软件供应商或开源解决方案。
Complex Event Processing (CEP) | Distributed Stream Computing Platforms (DSCPs) |
Codehaus/EsperTech's Esper, NEsper | Google Cloud Dataflow |
Feedzai Pulse | Apache S4 (open-source, originated in Yahoo) |
IBM InfoSphere Streams | Apache Samza (open source, maybe from Linked-In) |
IBM Operational Decision Manager (ODM) | Apache Spark (open source, offline or some streaming data) |
Informatica RulePoint | Apache Storm (originated in Twitter) |
Fujitsu Interstage Big Data Complex Event Processing Server | DataTorrent RTS |
Hitachi uCosminexus Stream Data Platform | |
LG CNS' EventPro | |
Microsoft StreamInsight | |
OneMarketData OneTick CEP | |
Oracle Event Processing | |
Red Hat Drools Fusion/JBoss Enterprise BRMS | |
SAP Event Stream Processor | |
SAS DataFlux | |
SQLstream s-Server | |
Software AG Apama Event Processing Platform | |
Tibco BusinessEvents | |
Tibco Streamba se | |
Vitria Operational Intelligence Analytic Server | |
WS02 CEP Server |
表:事件流处理厂商。来源:Gartner
iii) 内存计算
和事件流处理密切相关的技术是内存计算,顾名思义,就是计算机应用所处理的数据全部置于内存中的计算方式。
图:传统计算和内存计算的对比。来源:Gartner
内存计算能够支持多种不同的处理事务和应用类型,包括企业服务总线、业务流程管理、ERP、SaaS等。
图:内存计算支持的应用。来源:Gartner
当然,内存计算是大数据中快速数据特性的重要支持技术之一,多种内存计算技术支持不同场景的快速数据。除了复杂事件处理外,内存数据技术还包括内存数据网格,内存数据库,高性能消息架构,和内存分析。
图:支持快速数据应用的多种内存计算技术。来源:Gartner
内存计算技术厂商繁多,市场呈现碎片化特征,但包括Oracle, SAP, Teradata, IBM, Microsoft在内的所有大型数据库厂商都在其旗舰产品中纳入了某种内存计算能力。行业用户应当关注内存计算的技术走向和厂商的技术供应特点和发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.