中国电信的“天翼大数据飞龙平台”长啥样？

2018-07-15 21:30:02 举报

分享至

2018年世界移动大会在上海召开，有幸去观摩了下，说来惭愧，由于一直在运营商从事IT相关工作，对于通信技术却是门外汉，因此有点刘姥姥逛大观园的感觉，回来一定要好好学习，对于5G等技术需要有个更深入的理解，而不是简单的知道个名词。

大会上有不少的大数据能力展示，而吸引我的却是中国电信的天翼大数据飞龙平台，电信是录了一个天翼大数据飞龙平台的操作视频，因此其实能看到很多的平台细节，笔者赶忙把主要页面拍下来，分享给大家。

其实电信展示的不是平台能力，而是对于大数据的端到端的管理能力，主要分为集群管理、数据采集、作业调度、数据管理与分析及数据可视化五部分，笔者就结合展示的内容和自己的实践谈谈对于这些功能的理解，希望于你有启示。

1、集群管理

由集群管理视图可以一窥电信大数据平台当前拥有的hadoop技术组件和监控的主要指标，当然截图只能看到监控的功能，更为重要的是比如集群资源的分配，回收等功能，也包括数据的视图和赋权，如果能将这些操作管理功能用高体验、可视化的方式管理起来，那定制化能力是相当的强了。

随着hadoop应用的深入，当前对于平台脚本性能的自动诊断分析变得非常迫切，经常发现HIVE的很多SQL突慢突快，而要追踪到诸如数据倾斜等原因耗时很长，如能提供这类逐层推进，庖丁解牛般的分析能力，对于大数据平台的利用效率肯定会大幅提升。

2、数据采集

数据采集是大数据平台最为核心的组件了，从上图可以看到天翼飞龙大数据平台支持的主要采集类型：

FTP：批量离线采集

Kafka：消息中间件，一个采集的缓冲器，在实时采集中用得最多了

flume：现在实时采集的核心组件了，可以分布式以记录级方式采集，现在flume+kafka变成了标配

storm：实时采集后往往需要实时处理，storm是可选的一种

当前主流的采集组件都支持以可视化、流程化的方式进行采集的配置，下图显示了flume采集写hdfs的流程：

其实除了以上的采集组件，还有诸如关系型数据库的采集，比如ORACLE、GBASE等，关系型数据库的增量采集，比如OGG等，部署SDK的APP采集，比如阿里的采集平台，还有采集的变种异构交换，就是能实现诸如ORACLE到GBASE，GBASE到Hadoop等交换能力，这些都是非常现实的对于采集平台的要求，挑战其实是非常大的。

当然采集平台不仅要做好功能，还要做好体验，不仅要支持图形，也要支持批量导入，比如很多场景就不适合一个个用流程配，不仅要采集准确，还要能具备实时预警能力，比如直接基于采集日志告警等等，要实现这些能力并非易事，采集平台闭门造车其实很难做好，一般是靠运营迭代出来的。

3、作业调度

调度是作业的执行引擎，看上图左边是支持的作业类型，既有shell，python等脚本，也有MR、HIVE等作业形式，通过可视化方式可以非常方便的完成一个端到端的任务，这个任务可以包括很多的作业，这些作业互相之间千丝万缕的关系通过可视化流程来定义，每个作业由什么触发、怎么触发可以通过设置作业属性来确定，灵活度是相当高的，比如上图右上角的一个配置就是说这个作业每间隔10分钟触发一次。

除了面上的功能，调度最核心的就是要构建一个强大的分布式作业调度引擎，要确保海量作业能及时分配到调度资源，能够高并发的执行，记得以前数据管理平台很多作业延时就是因为调度资源不够等待所致，情况严重就会产生死锁问题，因为依赖作业太多了，大家互相等待。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.