虽然IJCAI的大赛已经结束,
但是我们对于世界顶赛的热情不能停!
接下来让我们继续刷屏
IJCAI大赛获奖团队答辩干货!
冠军:CAT
CAT团队选手来自BAT,实力也非常强劲,在采访的时候,其队长BRYAN表示IJCAI的门槛相对于其他大赛会更高一些。获奖的原因除了团队成员本身都具有大赛获奖经历,更在于他们在前期的大赛中都是各自run任务,到最后的一周交流思路并融合。
获奖思路
IJCAI-17 口碑商家客流量预测(Passengers flow forecast for Koubei)是一个根据商家历史支付流量数据来预测口碑网商家在未来一段时间内支付流量的问题。本次竞赛给出了2000个商家在历史16个月的客流量数据,我们的任务是对这2000个商家在未来两周内每天的客流量做出预测。我们分别使用了时间序列加权回归模型,和基于现有树模型的回归模型。在时序回归模型中我们提取了常量因子,时间衰减因子,星期因子,天气因子。在树回归模型中我们使用了日期,商家,天气等特征来建立树模型。
答辩PPT
亚军:生活充满节奏感
获奖名单中唯一一人成队且拿到名次的团队。在谈及本次大赛时,其队长表示这是第一次参加国际性的赛事。感觉比较深刻的就是竞争更加激烈,需要在不同的性质的比赛中采取不同的比赛策略。这次比赛的时间序列问题,而且是有相对明显的稳定性和趋势性的时间序列问题,规则比模型更加稳定和有效。
对参赛新手的建议更是倾囊相授:对于比赛来说,基础知识很重要。在比赛中,需要对评分公式和业务场景的知识有比较深刻的理解。同时要坚持做下去,不断尝试自己的想法,这样会让你比别人有更大的概率赢得比赛。
获奖思路
拿到题目就知道是一个典型的时间序列问题,所以就想用之前的时间序列经验进行处理。用离散型的时间序列模型就可以达到初期比较好的分数和排名。后期对于异常值和稳定值的分开处理,然成绩稳步上升。同时要结合实际的先验知识,这个对于分数的提升也有很大的帮助。
定训练数据范围->异常值处理->让多个稳定趋势进行叠加->用先验知识进行细节优化。
答辩PPT
季军:---------Baseline--------
Baseline团队是在参赛团队中最多样化的一个团队,团队成员来自三地两国,背景更是有金融专业、计算机专业和统计专业。在了解其为什么会取得如此成绩的时候,其队长表示专业背景对其的帮助是最大的,对于商业方面数据的理解,对于业务数据的处理会更加专业,并且优先采用财务中常用的时间序列数据方法来处理。
在谈及本次大赛中印象最深刻的事情,其队长表示,团队成员有中国,也有美国的,在参赛过程中在美国的成员经常“失联”,但也有一个优势,就是因为时差关系,其他团队最多有十多个小时在比赛上,而他们却有24小时。
获奖思路
我们按照时间序列分解的基本思路,把客流量分解成三个成分,即Base, Cycle和Residuals。Base是贯穿预测区间的一条水平的直线,用KNN来预测。Cycle描述周一到周日的周期波动,用规则法提取。Residuals是残差,用xgboost结合天气特征来进行训练。预测时分别预测每一个成分,然后在把三个成分合成为最终预测。
答辩PPT
特别奖: Flamingo
情侣学霸来参赛,自然是有别样的风景,情侣学霸分别来自工程力学与热能专业。在本次中获得特别奖的团队在IJCAI2016大赛中获得了第一名的好成绩。在谈及本次大赛,其队长表示在本次大赛中有些小遗憾,因为前期沟通相较其他团队更多,导致解题思路不够多样性,方法趋同,在最终的排行榜中没有时间及时调整方案。
有经验也更有收获。所以在给新参赛的选手建议中,他们表示可以多参加天池的大赛,因为天池平台上大赛更有多样性,有图像识别的、流量预测的等,可以根据兴趣涉足。(意外的小广告,嘻嘻~)
获奖思路
Flamingo队伍的方案着重分析了训练集与测试集数据的分布规律,通过统计规律及高偏置模型残差,清洗了由于节假日及商家促销行为造成的销量异常波动。训练样本采用滑动窗口的方式延时间方向累积,构造包含了商家属性,历史销量,天气状况及节假日信息四类主要特征的输入信息。由于测试集中包含双11购物节,因而模型训练包含了常规销量预测及双11销量增量系数预测两部分。常规销量模型融合了多套不同参数的梯度下降决策树(GBDT)模型及历史相关性滑动平均模型;双11增量系数预测考察了历史上双11的增量增幅,基于商家属性对于双11当天的常规销量进行幅值调制。
答辩PPT
最具潜力奖&特别奖:VanillaTwilight
团队的两位同学都是第一次参加数据挖掘比赛,两人参加比赛时也都是中科院计算所研究生,研究方向是机器学习与数据挖掘。参赛过程当中,令他们印象深刻的事情是当时发现了这个题目其实可以用比较简单的方法来做,开始时模型运行地很快,并在很长一段时间里稳居排行榜第一名,但是其他团队似乎都在用比较复杂的方法做。但是到最后这个模型也成为了他们的弱点,因为在参加数据挖掘比赛当中必须做模型融合。
此团队在本次大赛同时获得特别奖。
获奖思路
拿到题目之后,我们首先发现这道题目是一个时间序列问题,而这个时间序列可以拆分成几个成分,预测未来序列的任务可以通过预测各成分来完成。我们没有采用常用的机器学习方法来做,反而是用我们自己的一套时间序列分解的模型,这个模型在我们的比赛当中表现一直非常不错。
答辩PPT
因PPT太多,本帖为大家放送的是参赛队伍的答辩思路与经典PPT内容回放。
需要全部PPT内容的同学请点击“阅读原文”下载哦~
点击阅读原文,下载顶赛IJCAI答辩PPT!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.