网易首页 > 新闻中心 > 正文

一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台

0
分享至

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

日前,由51CTO传媒精心打造的WOT2016大数据峰会在北京盛大开幕。本次大会议题涵盖实时计算、机器学习、等九大数据领域前沿技术专场,百度大数据平台架构师侯珏、HBase核心贡献者 Ted Yu、一点资讯大数据平台研发总监田超等应邀出席并发表演讲。

一点资讯大数据平台研发总监田超发表演讲

在大会现场,一点资讯大数据总监田超深度透析用户点击反馈背后的系统设计,并以一点资讯实时反馈平台为例,分享了支撑一点资讯亿级别用户实时计算系统的设计理念和心得。

他表示,实时的数据处理能力对于一个现代互联网公司来说是必要的组成部分,一点资讯作为一家融合了“搜索”和“推荐”的兴趣引擎平台,根据不同场景、频道下的点击反馈形成数据矩阵,对数据进行深层次挖掘,并通过大规模实时点击反馈系统和大规模机器学习进行智能推荐,从而为用户提供兼具共性与个性的移动价值阅读,实现了用户体验的提升。

以下是演讲节选:

大家好,很高兴今天与大家分享一点资讯关于大数据技术的一些心得。作为近两年来在移动资讯领域发展最快的公司之一,目前,一点资讯的日活达4800万。此外,我想在这里特别强调的是,一点资讯主动订阅用户数已达4700万。作为一家融合了搜索和推荐的技术驱动资讯平台,与单纯被动根据用户历史记录进行推荐不同,我们更注重自由订阅来给予用户主动表达的出口,通过全网化的智能客户端,不仅为大家带来有趣、有料的新闻,也更提供有用、有品的资讯。

实时点击反馈平台打造最佳推荐服务

上图是今天我们主要讲的,点击反馈相关推荐的部分。主要包括两个,左手边叫Neo的系统是今天的主题,也就是点击反馈计算平台。

因为这次论坛的主题是实时计算,所以我们也回顾一下整个推荐系统里面实时计算所涉及的三个方面的应用场景:第一部分是实时画像中的后验指标,包括了用户画像,内容画像和频道画像等。第二部分,应用场景是我们实时的数据分析,让我们在做不同实验时,了解到不同人群、文章点击率的变化。第三部就是在线的机器学习,后面我会详细介绍。

值得注意的是,虽然推荐服务系统为我们带来很多便利,但同时也面临不少问题和挑战,下面我将从一点资讯的平台为例,为大家分别阐述五个方面的主要问题以及解决方式。

问题1:如何统一各种近似的实时Pipeline

第一个问题就是近似的pipeline大家怎么样去统一?做实时计算时,大家常常发现你的Storm、spark跑着各种各样相近但又不同的作业,这些作业中80%运算是相同的。

在一点资讯内部,我们设计了一套叫Neo的点击反馈平台系统,统一了主要的实时点击反馈计算逻辑。Neo系统的核心数据结构是一个Multi-Dimensional Matrix,用以描述用户在各个维度和粒度的兴趣属性和基础属性两部分,可以在不同维度和数据粒度上进行各种聚合运算。其次,我们围绕着核心数据结构构造了整个运行时的framwork,可以支持用户自定义自己的算子。

问题2:实时计算和离线计算的统一

第二个问题说实时计算和离线计算怎么样统一?

实时计算与离线计算的统计是流式计算领域里的研究热点之一,对于我们的生产工作来说也有着比较重要的实际意义,市面上有一些开源和技术和论文包括Spark、SummingBird、Google DataFlow等都对如何实现有自己的解决方案。一点资讯采用的是Lambda architecture,对于核心计算逻辑有一套统一的数据结构抽象和计算算子抽象。我们本质上处理的是事件流在不同矩阵上以不同粒度聚合的问题,这里尤其是对于矩阵的Delta和Base之间的计算,我们给出了一套比较完整的抽象。这一套核心代码可以同时跑在Storm/JStorm, Spark、Mapeduce上。

问题3:数据变化如何追踪与Debug

我们的平台除了考虑到了上面所述的数据结构和计算模型外,还考虑到了时间的因素。时间是一个非常重要的维度,对于我们的计算引擎也是一个挑战。总结来说,包括这几个问题:不同类型的Feature需要不同的淘汰策略,需要能够计算各种时间周期上的feature、需要能够知道数据历史变化的状态、数据分析需要追踪指标变化曲线。

对于这些问题,我们构建了比较完整的windowing modol的实时计算模型:在hbase上存储细粒度的delta数据,这一部分的数据是实时更新的,每次更新时计算pipeline会通过kafka写入一个WAL,有一个Pusher组件会监听这个WAL,并可以根据自定义的策略对不同的数据表采用不同的window计算模型;在pusher层面,支持各种时间窗口淘汰策略,包括Fixed window,session window,sliding window,decay,last value win等,

问题4:高性能存储引擎

一点资讯在高峰期产生的2M+QPS的读请求,和200K+的更新量,因此对我们线上的分布式存储系统会有比较高的性能要求,市面上线程的分布式存储方案都不能解决我们面临的问题。

因此我们开发了自己的分布式存储系统NeoDB,底层基于Rocksdb,上层使用ThriftRPC,我们对系统层次做了很多的优化,,包括把一些部分计算可以推到最底下节点上、减少Compaction的层次,控制Compaction对于读请求的影响、控制写放大,优化缓存命中率等。

问题5:如何监控和维护整个系统

最后一个问题怎么样做监控和维护整个系统。这里面涉及到一些问题,主要包括怎么对数据流lag做监控报警。对流式计算如何做profiling,线上如何做负载均衡等。我们针对这些问题开发了两个系统,一个是监控我们做了YMetric的监控系统。客户端兼容codahale metrics库,会将metric汇总发送到Kafka中,并由我们统一的Storm Pipeline进行聚合计算,结果存储在openTSDB之中。我们的这套系统支持多Metric的自定义计算、报警、Trending预测等。

另外一个系统是ycluster服务,她有点像Apache Helix,但是我们做的更为简单易用,YCluster是一套基于Zookeeper的分布式负载均衡和机群管理系统,支持Multiple Service Namespace、Hash Sharding、Multiple Replica。同时我们基于YCluster做了Neo系统的Smart Client,通过这套Smart Client完成路由和负载均衡的工作,我们支持多种不同负载均衡的算法,包括简单的Random和Round-Robin、,同时我们做了一个叫做link Scheduler的负载均衡的算法,可以支持多数据中心中的本地优先调度,并支持相同副本的优先调度,从而大幅度提升了缓存命中率。

我们这套东西大概线上跑了一年多了不到两年,目前承担了一点资讯一直以来快速服务的增长,这里面就是今天我跟大家介绍的东西,另外补充一点是说,我们也欢迎对一点资讯感兴趣的同学加入进来。

(原标题:一点资讯田超出席WOT:深度透析兴趣引擎背后的点击反馈平台)

相关推荐
热点推荐
西安血站:献血1000ml可终身无限量免费用血,要相信我们

西安血站:献血1000ml可终身无限量免费用血,要相信我们

映射生活的身影
2025-01-12 08:01:49
一路走好,2025年不到5天,5位名人接连去世,最年轻的仅30岁

一路走好,2025年不到5天,5位名人接连去世,最年轻的仅30岁

阿矗论古今
2025-01-09 09:30:35
尹锡悦再破纪录?成为韩国历史上首位外逃总统!

尹锡悦再破纪录?成为韩国历史上首位外逃总统!

星辰故事屋
2025-01-12 23:14:35
厉害了!山东泰安,有村民拍到了自家狸花猫,抓到只好肥的黄鼠狼

厉害了!山东泰安,有村民拍到了自家狸花猫,抓到只好肥的黄鼠狼

观察鉴娱
2025-01-13 10:01:59
陆毅时隔30年再吃西湖醋鱼!给妻子夹菜有爱,吃鱼时鲍蕾表情抢眼

陆毅时隔30年再吃西湖醋鱼!给妻子夹菜有爱,吃鱼时鲍蕾表情抢眼

鑫鑫说说
2025-01-13 10:13:33
泰国警方最新发声

泰国警方最新发声

新京报
2025-01-12 22:22:09
体坛:海港接近签下莱昂纳多、艾菲尔丁;第五外援倾向于边锋

体坛:海港接近签下莱昂纳多、艾菲尔丁;第五外援倾向于边锋

懂球帝
2025-01-13 12:05:25
连续三次击败皇马,巴萨拥有赢得西班牙国家德比的法宝

连续三次击败皇马,巴萨拥有赢得西班牙国家德比的法宝

星耀国际足坛
2025-01-13 13:19:54
特朗普就职典礼,邀请名单已曝光,日本外相将出席,中俄安排不同

特朗普就职典礼,邀请名单已曝光,日本外相将出席,中俄安排不同

猎火照狼山
2025-01-12 21:09:47
煤层厚1千米,蔓延上千公里!世界大型煤田正是由植物形成的

煤层厚1千米,蔓延上千公里!世界大型煤田正是由植物形成的

三农老历
2025-01-13 07:31:09
马未都:在香港,宁愿花20万请菲律宾女佣,也不愿意聘用内地保姆

马未都:在香港,宁愿花20万请菲律宾女佣,也不愿意聘用内地保姆

历史看阿敞
2024-12-30 14:26:13
全球最危险的10个国家,缅北排不上号,专家提醒:不要去旅游

全球最危险的10个国家,缅北排不上号,专家提醒:不要去旅游

何为惠
2024-12-21 09:26:30
三只羊低调复播,为什么选择视频号?

三只羊低调复播,为什么选择视频号?

无相商业趋势
2025-01-12 21:49:36
原来这才是医生的兴奋点!一点都不在乎我这个黄花大姑娘的感受

原来这才是医生的兴奋点!一点都不在乎我这个黄花大姑娘的感受

美好客栈大掌柜
2024-12-06 06:53:30
突发,神秘资金割肉。。

突发,神秘资金割肉。。

格隆汇
2025-01-13 09:45:06
吴京的评论区炸了,网友喊他去妙瓦底救人

吴京的评论区炸了,网友喊他去妙瓦底救人

历史总在押韵
2025-01-10 23:59:26
昨夜今晨,快船传来一组喜讯

昨夜今晨,快船传来一组喜讯

美人茶话会
2025-01-13 08:41:36
帮中方,还是帮特朗普?拜登派心腹出访,3国收到强烈信号

帮中方,还是帮特朗普?拜登派心腹出访,3国收到强烈信号

奇闻异评
2025-01-13 12:00:02
华为Mate X6新购买方式,黄牛们沉默了

华为Mate X6新购买方式,黄牛们沉默了

小兔子发现大事情
2025-01-13 09:45:51
广东周二夜间迎新一股弱冷空气!过程最低气温将在周五出现

广东周二夜间迎新一股弱冷空气!过程最低气温将在周五出现

南方都市报
2025-01-13 09:23:16
2025-01-13 14:00:49

头条要闻

五台山一游客徒步朝台时遇难 当地发文禁冬季擅自徒步

头条要闻

五台山一游客徒步朝台时遇难 当地发文禁冬季擅自徒步

体育要闻

熟悉的姆巴佩回来了,但还是救不了皇马

娱乐要闻

甄嬛传晚会孙俪和他一起出场,她演纯元

财经要闻

赵薇黄有龙资本残局:离婚后商业仍有交集

科技要闻

张亚勤何小鹏等9位大咖24年遗憾和25年期待

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

亲子
艺术
本地
游戏
公开课

亲子要闻

宝宝睡觉离不开架子,妈妈得拿着架子又得抱着宝宝才能哄着睡着

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

食味印象|来太原,先干了这碗牺汤!

《燕云十六声》不会搞女性擦边 新敌人河伯来袭!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×