苏宁大数据平台基本介绍
大数据平台运维的痛点及解决方案
痛点1. 部署及运维复杂痛点2. 无资源使用视图
痛点3. 任务相互影响,资源隔离性差
痛点4. 排查问题耗时长,应用优化门槛高
解决1. 平台化、自动化
大数据管理平台:主机管理,集群管理自动化
元数据管理:数据字典,权限申请审批实施自动化
数据流管理平台:集成Flume,智能扩缩容,插件式
数据开发平台:支持10种不同的任务类型,支持任务流/任务管理,解决复杂依赖问题,可扩展
解决2.资源可视化、人民币化
存储/计算资源计量计费
资源池使用可视化
任务展板
解决3.差异化服务、物理隔离
解决4. 智能诊断、优化建议
平台优化及增强
稳定
Hive metaserver 连接数过高的问题
修改bonecp的配置:maxConnectionsPerPartition=1
Spark Streaming & Druid System CPU过高的问题
设置vm.zone_reclaim_mode=0
透明大页导致System CPU过高的问题
echo never >/sys/kernel/mm/transparent_hugepage/defrag
安全
账户/权限体系:每个系统一个账户,不允许跨账户写
Hive metaserver 密码加密
基于User/IP的访问控制策略:RPC层面控制,白名单
skipTrash禁用:防止误删数据
扩展性
结合HDFS的压力、瓶颈问题的逐步优化:
程序优化,扫全表: Hive慎用unix_timestamp方法
小文件合并
YARN日志降低副本至1
YARN日志单独放在另一个集群
Federation + Alluxio 实现统一命名空间
DOING & TO DO
Flink推广OLAP平台建设
流计算消息回溯
多活&灾备
资源统一管理
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.