网易首页 > 网易号 > 正文 申请入驻

全景天窗式科普数据仓库

0
分享至

数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。

数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反映历史变化。

今天我们从数据的源头开始说起,数据的源头是数据采集和上报。

(一)数据采集

采集内容

数据采集一般需要涵盖4W(When、Where、Who、What)四大要素,像作文一样分别从时间、地点、人物、事件对用户的行为予以描述。
When
操作时间。有些数据上报并不是在采集后马上进行的,而是累计采集N条后打包上报;有些参数的获取需要前后台彼此交互,所以时间的采集可以细分为动作发生的时间、采集时间、前后台交互完成时间、上报时间等,根据各业务需求和复杂程度决定采集的类型和范围。

Where
操作地点。一般可以通过IP地址或经纬度确定。
Who
身份标识。这里主要介绍2种身份标识:用户账号和设备号。
用户账号是各个应用按照自己的规则赋予用户的内部身份标识。其中有些应用根据流量域属性、内容生产和消费属性等设计了多级账号体系;有些应用则使用单账号体系;有些使用大生态下的开放账号体系。

设备号是硬件设备的身份标识,包括但不限于手机、电脑、电视、智能可穿戴设备等。设备号的作用是识别一台具体设备,例如IMEI、IDFA、OAID等,生成设备ID的相关的算法也在不断优化升级以达到更准确的识别和标记。
在硬件推送(PUSH)场景下,用户账号要先转化为设备号才能进行正常推送。除此之外,设备号在黑产打击方面也有大规模的应用。

What

操作内容。诸如页面、曝光、点击等操作和相关的业务参数在此进行采集。在前端框架技术上支持的情况下,用户操作的来源和去向也可以根据统计需要进行采集。

数据采集和上报是为了优化服务的,不能过度影响到应用的正常功能,所以需要在一定程度上进行权衡与精简。而操作内容的采集场景,存在大量的前后端数据交互,若请求数据结构过大,则可能影响传输性能进而影响使用体验。

采集方式

埋点采集
前后端应用开发人员在特定场景下的特定时机,根据需要采集特定的参数。早期和中小型应用多使用该采集方式。其优点是开发成本低,修改灵活;但缺点是容易造成全局采集逻辑不一致的情况,后续维护成本和数据加工成本高。

SDK采集

SDK通过内部集成采集和缓存能力,统一采集时机和采集策略,标准化采集事件来进行全局参数采集,是从数据源头改善数据质量的重要方式,已经被越来越多的大型业务所使用。其优点是标准化程度高,降低前后端开发人员的开发量;缺点是开发这一套工具需要较大的前期投入。

采集时机和采集策略的统一是SDK采集相较于埋点采集的重大改进。用曝光场景举个例子,若使用埋点上报,有些开发人员在目标露出屏幕100个像素时采集,另一些开发人员可能在目标露出5%时进行采集;不同的开发人员在采集同一个参数时,使用的代码和采集路径也不一定完全相同。在大型应用中,数据的采集不是一次就能完成的,而是一个分阶段进行的过程,采集的参数个数也可能不是几个,而是几十上百个,所以不同的采集时机和采集策略就意味着能采集到参数的个数和质量也不尽相同。

BINLOG采集
BINLOG可以获取数据库的每一条变更记录,由此完成DB数据的采集。目前已经有比较成熟的开源组件可以直接使用。其优点是无需前后端开发人员的额外工作,但缺点是后续的数据加工会变得非常复杂,需要频繁的去重和取最新数据的操作,这在实时数据处理场景下几乎是致命的。
数据采集的质量决定了数仓质量的上限,数据开发的工程量是数据源质量和数仓设计与实施质量共同决定的。一个团队多做一点,另一个团队就少做一点,但在一些关键节点上,一个团队修补另一个团队的开发空缺可能是几倍甚至几十倍的工作量。在预期提供相同质量数仓的前提下,决策者需要合理平衡数据源开发和数仓开发的工作配比,才能更大程度地发挥数据价值。

(二)数据上报

拿到采集的数据以后,需要进行数据的上报,才能被后续的链路所使用。

客户端(前端)上报

客户端在采集到的数据后,直接或在缓存N条以后,批量将数据通过网络发送到日志服务器。这个过程可能由于网络波动或者用户直接杀掉进程导致部分数据上报缺失;有些应用为应对网络问题会内置上报重试逻辑,一定程度上解决上报缺失的同时也引入了重复上报的可能性。

无论是上报缺失或者上报重复,都是小概率事件,并且一般通过客户端上报的数据都是页面、曝光、点击这类的描述性数据,故在统计容忍的范围内仍可接受。

后台上报

后台服务在用户触发较为关键性的操作时(例如访问、下单、关注等)或者后台主动操作时(例如发券、回收权限等)进行相关参数的采集和上报,也是通过网络发送到日志服务器上。但因为后台服务一般处于比较稳定的内部生产环境,所以上报的成功率会比客户端更高,一些对准确性要求较高的统计数据可以使用后台上报的方式。

BINLOG上报

数据库BINLOG的采集和上报一般是集成在一起的,可以在采集后立即发送到消息队列(多为Kafka队列)完成数据上报。

(三)数据源选择

数仓里的数据不是业务DB里的数据,中间经过了采集和加工过程。

数据在加工链路上不可避免地会产生一定程度的丢失和延迟,所以在要求高准确性和低延迟的简单统计场景下,在不会影响到应用基本功能的前提下更推荐在DB内直接统计数据;在同样要求高准确和低延迟的较复杂场景时,也可以通过提高数仓建设标准和一定程度的定制开发,使用经数仓加工后的数据。

数据源的选择同样面临投入产出比的衡量,业务DB由于范式概念的设计,较难实现复杂的统计需求,但具有准确和快速的优点,数仓可以进行大规模复杂计算,但面对极低延迟和极强准确性的需求时也会提高其建设成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
窦文涛戳破内娱访谈虚伪真相,录 5 分钟叫停顶流女星采访

窦文涛戳破内娱访谈虚伪真相,录 5 分钟叫停顶流女星采访

南万说娱26
2026-07-05 09:04:00
残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

残忍?塞内加尔出局后全队机场苦等数小时 被告知足协已取消包机

风过乡
2026-07-05 11:33:51
炸锅!十几万中欧班列深陷危局,美方一招直接掐断欧洲通路?

炸锅!十几万中欧班列深陷危局,美方一招直接掐断欧洲通路?

春之寞陌
2026-07-05 10:02:09
世界杯:墨西哥vs英格兰

世界杯:墨西哥vs英格兰

足球赛事交流解析
2026-07-05 10:00:07
给泰山安装刀片刺网,在古代要被砍头

给泰山安装刀片刺网,在古代要被砍头

黔有虎
2026-07-03 16:49:25
1夜7大转会!曼城签下安德森,渣叔执教德国在即,阿克转战土超!

1夜7大转会!曼城签下安德森,渣叔执教德国在即,阿克转战土超!

田先生篮球
2026-07-05 07:36:43
局势恶化,在俄华人说出真相,乌克兰打击效果显著,普京作出选择

局势恶化,在俄华人说出真相,乌克兰打击效果显著,普京作出选择

青衫书生本尊
2026-07-04 16:06:44
九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

九华山美女道士,靠身体施法“日进斗金”,8个男徒弟曝光内幕

苏大强专栏
2025-05-08 15:16:18
根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

触摸史迹
2026-07-05 02:44:15
哇塞!这才叫真正的漂亮,太美了!

哇塞!这才叫真正的漂亮,太美了!

TVB的四小花
2026-07-05 10:40:59
江苏一家三口新疆“网红公路”自驾游突遇山洪,母子被冲走失联6天,孩子事发前一天刚过11岁生日,孩子父亲:只想尽快找到妻儿

江苏一家三口新疆“网红公路”自驾游突遇山洪,母子被冲走失联6天,孩子事发前一天刚过11岁生日,孩子父亲:只想尽快找到妻儿

台州交通广播
2026-07-04 22:06:55
WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

翰飞观事
2026-07-04 19:12:47
星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

雅儿姐游世界
2026-04-14 16:52:38
“天天路过打我,还特意穿过大马路蹲点再打一回”,网友连续多日遭黑鸟攻击,短短十几秒头部被攻击6次,专家:建议换装试试

“天天路过打我,还特意穿过大马路蹲点再打一回”,网友连续多日遭黑鸟攻击,短短十几秒头部被攻击6次,专家:建议换装试试

深圳晚报
2026-07-04 18:26:54
坐不住了?印度民众不满中方做法,公开喊话:要求中方给印度免签

坐不住了?印度民众不满中方做法,公开喊话:要求中方给印度免签

书写传奇
2026-07-05 13:13:50
蒋方舟再回应“清华教授实名举报论文造假”:逐项澄清肖鹰23项指控中涉及的问题,学术打假是珍贵的公器,它的力量来自公正

蒋方舟再回应“清华教授实名举报论文造假”:逐项澄清肖鹰23项指控中涉及的问题,学术打假是珍贵的公器,它的力量来自公正

极目新闻
2026-07-05 10:12:41
没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

没完没了抹黑挑拨中俄!这群人源源不断带节奏,背后目的藏不住了

一国之君历史
2026-07-02 13:50:53
如今这个社会,手握500万存款意味着什么?真实结果很扎心

如今这个社会,手握500万存款意味着什么?真实结果很扎心

猫叔东山再起
2026-07-05 10:20:09
“超跑”遇到“大巴”也难受!姆巴佩点射助法国淘汰巴拉圭,上半场被激怒疑似爆粗口

“超跑”遇到“大巴”也难受!姆巴佩点射助法国淘汰巴拉圭,上半场被激怒疑似爆粗口

红星新闻
2026-07-05 08:02:16
糯康临刑吐露实情,金三角毒枭不惧武警枪械,唯独忌惮尘封密令

糯康临刑吐露实情,金三角毒枭不惧武警枪械,唯独忌惮尘封密令

唠叨说历史
2026-07-03 17:01:04
2026-07-05 13:44:49
派可数据
派可数据
企业级BI可视化分析平台
787文章数 30关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
本地
亲子
公开课
军事航空

冲击史上销量榜首!《GTA6》有望打破游戏销量纪录

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

为什么大多数女性生娃后,对夫妻间的生活都不满?其实跟老公有关

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京与特朗普通话85分钟 细节公布

无障碍浏览 进入关怀版