网易首页 > 新闻中心 > 正文

一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台

0
分享至

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

日前,由51CTO传媒精心打造的WOT2016大数据峰会在北京盛大开幕。本次大会议题涵盖实时计算、机器学习、等九大数据领域前沿技术专场,百度大数据平台架构师侯珏、HBase核心贡献者 Ted Yu、一点资讯大数据平台研发总监田超等应邀出席并发表演讲。

一点资讯大数据平台研发总监田超发表演讲

在大会现场,一点资讯大数据总监田超深度透析用户点击反馈背后的系统设计,并以一点资讯实时反馈平台为例,分享了支撑一点资讯亿级别用户实时计算系统的设计理念和心得。

他表示,实时的数据处理能力对于一个现代互联网公司来说是必要的组成部分,一点资讯作为一家融合了“搜索”和“推荐”的兴趣引擎平台,根据不同场景、频道下的点击反馈形成数据矩阵,对数据进行深层次挖掘,并通过大规模实时点击反馈系统和大规模机器学习进行智能推荐,从而为用户提供兼具共性与个性的移动价值阅读,实现了用户体验的提升。

以下是演讲节选:

大家好,很高兴今天与大家分享一点资讯关于大数据技术的一些心得。作为近两年来在移动资讯领域发展最快的公司之一,目前,一点资讯的日活达4800万。此外,我想在这里特别强调的是,一点资讯主动订阅用户数已达4700万。作为一家融合了搜索和推荐的技术驱动资讯平台,与单纯被动根据用户历史记录进行推荐不同,我们更注重自由订阅来给予用户主动表达的出口,通过全网化的智能客户端,不仅为大家带来有趣、有料的新闻,也更提供有用、有品的资讯。

实时点击反馈平台打造最佳推荐服务

上图是今天我们主要讲的,点击反馈相关推荐的部分。主要包括两个,左手边叫Neo的系统是今天的主题,也就是点击反馈计算平台。

因为这次论坛的主题是实时计算,所以我们也回顾一下整个推荐系统里面实时计算所涉及的三个方面的应用场景:第一部分是实时画像中的后验指标,包括了用户画像,内容画像和频道画像等。第二部分,应用场景是我们实时的数据分析,让我们在做不同实验时,了解到不同人群、文章点击率的变化。第三部就是在线的机器学习,后面我会详细介绍。

值得注意的是,虽然推荐服务系统为我们带来很多便利,但同时也面临不少问题和挑战,下面我将从一点资讯的平台为例,为大家分别阐述五个方面的主要问题以及解决方式。

问题1:如何统一各种近似的实时Pipeline

第一个问题就是近似的pipeline大家怎么样去统一?做实时计算时,大家常常发现你的Storm、spark跑着各种各样相近但又不同的作业,这些作业中80%运算是相同的。

在一点资讯内部,我们设计了一套叫Neo的点击反馈平台系统,统一了主要的实时点击反馈计算逻辑。Neo系统的核心数据结构是一个Multi-Dimensional Matrix,用以描述用户在各个维度和粒度的兴趣属性和基础属性两部分,可以在不同维度和数据粒度上进行各种聚合运算。其次,我们围绕着核心数据结构构造了整个运行时的framwork,可以支持用户自定义自己的算子。

问题2:实时计算和离线计算的统一

第二个问题说实时计算和离线计算怎么样统一?

实时计算与离线计算的统计是流式计算领域里的研究热点之一,对于我们的生产工作来说也有着比较重要的实际意义,市面上有一些开源和技术和论文包括Spark、SummingBird、Google DataFlow等都对如何实现有自己的解决方案。一点资讯采用的是Lambda architecture,对于核心计算逻辑有一套统一的数据结构抽象和计算算子抽象。我们本质上处理的是事件流在不同矩阵上以不同粒度聚合的问题,这里尤其是对于矩阵的Delta和Base之间的计算,我们给出了一套比较完整的抽象。这一套核心代码可以同时跑在Storm/JStorm, Spark、Mapeduce上。

问题3:数据变化如何追踪与Debug

我们的平台除了考虑到了上面所述的数据结构和计算模型外,还考虑到了时间的因素。时间是一个非常重要的维度,对于我们的计算引擎也是一个挑战。总结来说,包括这几个问题:不同类型的Feature需要不同的淘汰策略,需要能够计算各种时间周期上的feature、需要能够知道数据历史变化的状态、数据分析需要追踪指标变化曲线。

对于这些问题,我们构建了比较完整的windowing modol的实时计算模型:在hbase上存储细粒度的delta数据,这一部分的数据是实时更新的,每次更新时计算pipeline会通过kafka写入一个WAL,有一个Pusher组件会监听这个WAL,并可以根据自定义的策略对不同的数据表采用不同的window计算模型;在pusher层面,支持各种时间窗口淘汰策略,包括Fixed window,session window,sliding window,decay,last value win等,

问题4:高性能存储引擎

一点资讯在高峰期产生的2M+QPS的读请求,和200K+的更新量,因此对我们线上的分布式存储系统会有比较高的性能要求,市面上线程的分布式存储方案都不能解决我们面临的问题。

因此我们开发了自己的分布式存储系统NeoDB,底层基于Rocksdb,上层使用ThriftRPC,我们对系统层次做了很多的优化,,包括把一些部分计算可以推到最底下节点上、减少Compaction的层次,控制Compaction对于读请求的影响、控制写放大,优化缓存命中率等。

问题5:如何监控和维护整个系统

最后一个问题怎么样做监控和维护整个系统。这里面涉及到一些问题,主要包括怎么对数据流lag做监控报警。对流式计算如何做profiling,线上如何做负载均衡等。我们针对这些问题开发了两个系统,一个是监控我们做了YMetric的监控系统。客户端兼容codahale metrics库,会将metric汇总发送到Kafka中,并由我们统一的Storm Pipeline进行聚合计算,结果存储在openTSDB之中。我们的这套系统支持多Metric的自定义计算、报警、Trending预测等。

另外一个系统是ycluster服务,她有点像Apache Helix,但是我们做的更为简单易用,YCluster是一套基于Zookeeper的分布式负载均衡和机群管理系统,支持Multiple Service Namespace、Hash Sharding、Multiple Replica。同时我们基于YCluster做了Neo系统的Smart Client,通过这套Smart Client完成路由和负载均衡的工作,我们支持多种不同负载均衡的算法,包括简单的Random和Round-Robin、,同时我们做了一个叫做link Scheduler的负载均衡的算法,可以支持多数据中心中的本地优先调度,并支持相同副本的优先调度,从而大幅度提升了缓存命中率。

我们这套东西大概线上跑了一年多了不到两年,目前承担了一点资讯一直以来快速服务的增长,这里面就是今天我跟大家介绍的东西,另外补充一点是说,我们也欢迎对一点资讯感兴趣的同学加入进来。

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

相关推荐
热点推荐
她是第二个赵丽颖,甚至超越赵丽颖,毕竟小小年纪就全国闻名

她是第二个赵丽颖,甚至超越赵丽颖,毕竟小小年纪就全国闻名

光影纪史
2024-08-30 15:58:23
旅客在座位置物袋内发现渗血布条 西部航空:正在调查处理|云投诉

旅客在座位置物袋内发现渗血布条 西部航空:正在调查处理|云投诉

封面新闻
2024-08-29 13:04:19
杨奇凌晨刷B站看《黑神话》吐槽 玩家:出个DLC吧

杨奇凌晨刷B站看《黑神话》吐槽 玩家:出个DLC吧

游民星空
2024-08-31 18:07:35
刘和平:柯文哲“马失前蹄”,或颠覆台湾政治生态?

刘和平:柯文哲“马失前蹄”,或颠覆台湾政治生态?

直新闻
2024-08-31 21:39:46
内蒙古一农民,把2个月弃婴抱回家,32年后,养子成上校军官,还把他接到身边养老

内蒙古一农民,把2个月弃婴抱回家,32年后,养子成上校军官,还把他接到身边养老

坦然风云
2024-08-31 20:40:26
皇马仅第二!新赛季欧冠赔率出炉,巴萨重返前五,榜首无悬念

皇马仅第二!新赛季欧冠赔率出炉,巴萨重返前五,榜首无悬念

祥谈体育
2024-09-01 10:50:11
【AV女优档案】(79)蛋糕店小妹三原穗香

【AV女优档案】(79)蛋糕店小妹三原穗香

琅琊郡守
2024-08-31 23:56:30
岳母出轨被我发现,求我放过她,说可以满足我一切需求。

岳母出轨被我发现,求我放过她,说可以满足我一切需求。

神奇的锤子
2024-07-16 17:20:26
郭晶晶家发奖金了,张雨霏获157万,全红婵等排第二,第一是谁?

郭晶晶家发奖金了,张雨霏获157万,全红婵等排第二,第一是谁?

尘语者
2024-08-30 22:40:12
38岁大龄"无业"剩女谈择偶标准:存款1000万,年薪100万 评论炸锅

38岁大龄"无业"剩女谈择偶标准:存款1000万,年薪100万 评论炸锅

笑熬浆糊111
2024-08-29 12:20:34
14:8!瑞士态度有变,通过决议要求对华谈判,并想摆脱对华依赖

14:8!瑞士态度有变,通过决议要求对华谈判,并想摆脱对华依赖

王墨观察
2024-08-31 17:53:25
恭喜郑钦文!短短8个月:奖金1612万+奥运会金牌,超越自我

恭喜郑钦文!短短8个月:奖金1612万+奥运会金牌,超越自我

叶青足球世界
2024-08-31 15:53:55
笑了!小女孩到山东旅游被热成小男孩:我本来在内蒙待得好好的!

笑了!小女孩到山东旅游被热成小男孩:我本来在内蒙待得好好的!

小鹿姐姐情感说
2024-08-22 20:09:20
泰晤士报:哈兰德花210多万英镑,购买了两架飞机的“权益”

泰晤士报:哈兰德花210多万英镑,购买了两架飞机的“权益”

直播吧
2024-08-31 21:08:33
港影:《内幕》和《风林火山》,请慎之又慎

港影:《内幕》和《风林火山》,请慎之又慎

唐泪
2024-08-31 11:23:50
才播4集,全国收视率第一,终于有让我熬夜狂追的央视大剧了!

才播4集,全国收视率第一,终于有让我熬夜狂追的央视大剧了!

崽下愚乐圈
2024-09-01 10:29:55
穆帅争冠对手踢疯,5-1横扫,取3连胜,少赛1场仅落后费内巴切1分

穆帅争冠对手踢疯,5-1横扫,取3连胜,少赛1场仅落后费内巴切1分

侧身凌空斩
2024-09-01 05:22:08
3:1!力压美国队!

3:1!力压美国队!

半月谈APP
2024-08-31 17:29:02
脱北者揭秘张成泽被捕真相:死前曾给金正恩戴绿帽,9名爱人殉葬

脱北者揭秘张成泽被捕真相:死前曾给金正恩戴绿帽,9名爱人殉葬

神秘历史故事
2023-12-18 13:57:42
以色列呼吁中国接纳日本难民,遭全球网友围攻!竟视中国为避难所

以色列呼吁中国接纳日本难民,遭全球网友围攻!竟视中国为避难所

夜雨晨曦
2024-08-30 20:33:42
2024-09-01 11:14:44

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

体育要闻

欧冠36队中,有个快乐的“倒数第一”

娱乐要闻

这个瓜牵扯的太多……

财经要闻

国有六大行上半年合计日赚37.54亿元

科技要闻

估值150亿,中国GPU独角兽一夜之间解散

汽车要闻

第三季度后上市 方程豹豹8亮相成都车展

态度原创

健康
亲子
旅游
房产
公开课

50岁后还能健康工作多久?

亲子要闻

上海儿童医院患儿意外死亡

旅游要闻

别跑空!暑假过后 多家博物馆、公园调整开放时间

房产要闻

恭喜业主!广州最大烂尾楼有救了!

公开课

曾激光治近视的人,现在后悔吗?

无障碍浏览 进入关怀版
×