网易首页 > 网易号 > 正文 申请入驻

机器学习,什么时候学都不晚!

0
分享至

来自:Coggle

我只是按照自己的兴趣,尽可能多地专注于学习机器学习。年龄只是一个数字,何时开始以及可以实现多少没有上限。

Philip是Kaggle Competitions Grandmaster,他以17枚金牌名列第 47 位。

您在1979年读了新闻学本科,大约30年后在2012年选修了数据科学课程。什么促使您学习新技术并进入一个新领域?哪些资源/工具帮助您克服了这一差距?

Philip:虽然我在大学主修新闻学,但我一直对计算机着迷,并在十几岁时开始编程。我作为技术作家的早期职业是我的写作和技术兴趣的良好结合。在做了大约15年的技术作者之后,我在接下来的20年里成为了一名连续创业者。

我参与的几乎所有初创公司都是数据驱动的公司,所以即使我的角色是管理和战略层面,我也保持与编程和数据的联系。

我不记得我是如何登陆 Kaggle 网站的,但是当我意识到ML的能力时,我感觉好像我在旷野长途跋涉后终于回到了家。

我认为ML最吸引我的是它可以用来回答如此广泛的现实生活问题。我一直对解决实际问题比对理论研究更感兴趣。

由于我多年没有做过任何编程,而且我的统计知识很初级,所以一开始我的学习曲线非常陡峭。我参加了很多在线课程,并关注Kaggle论坛来获取技巧。Kaggle排行榜在激励我继续学习方面非常有用。

作为一个长期的技术作家,您在过渡到机器学习过程中遇到过什么困难吗?

Philip:从技术作家和企业家转变为机器学习从业者绝对是一个挑战。我很幸运在经济上有保障,所以我没有任何压力要以数据科学家的身份谋生。我只是按照自己的兴趣,尽可能多地专注于学习。

您在机器学习领域的自由职业者方面也有丰富的经验。初学者在该领域自由职业时应避免哪些陷阱?

Philip:我最喜欢自由职业者的一点是,每个数据集和数据问题都是独一无二的,需要定制的解决方案。我认为初学者的最大陷阱是假设每个新项目都与他们已经遇到的相似。我的经验是,这是个例外,该项目更有可能需要一个人来学习新技术。

您是如何想到创立 Cozio Publishing 的?您之前是否有过编码经验?

Philip:Cozio Publishing是在我的妻子想要购买一把“新”小提琴时成立的。有很多关于古董弦乐器的信息,但它们分散在不同的印刷出版物中——书籍、杂志、拍卖目录等。

当我帮助我的妻子收集信息时,我开始将数据输入自定义数据库,以便我们可以跟踪她正在考虑的不同仪器。在某个时候,我意识到其他音乐家可能会发现这些信息有用。

数据新闻——这是当今流行的流行词。你在这个领域有什么经验吗?它如何利用机器学习领域?

Philip:虽然我是学新闻学的,是个技术作家,但实际上我已经很多年没有写过任何文章了,所以我不能真正评论数据新闻学,但这听起来很有趣。

你是Kaggle比赛的大师,目前排名第47。您参加了80多项比赛。这真太了不起了!如果我们具体谈谈您的 Kaggle 之旅,那么您面临哪些挑战,您是如何克服这些挑战的?

Philip:我基本上是从零开始的,对机器学习、概率、统计或矩阵代数一无所知。我所拥有的只是一点数据库设计知识和一些非常生疏的 C 编程技能。

所以我必须一次学习所有东西R、Python、概率和统计,以及机器学习。我很幸运,正是在MOOC开始流行的时候开始了这段旅程。我的第一个在线课程之一,是著名的Andrew Ng ML课程,另一个很棒的课程是Tibshirani和Hastie的斯坦福统计学习课程。

我通过 Coursera、MIT、Stanford 等在线学习了许多其他课程。这些课程的整体质量非常高。

为了让初学者进入 Kaggle 比赛的前 1% 级别,您会给他们的五个提示是什么?

Philip:我想我的第一个建议是设定一个不同的目标。如果高Kaggle排名是您的主要目标,您可能会想寻找捷径,例如混合大量公共内核。这可能对特定的比赛有帮助,但从长远来看无济于事。

所以我建议设定学习尽可能多的实用ML技术的目标。将每次Kaggle比赛用作学习机会,即使它不会在该比赛中获得高排名。如果我必须指定5个提示,我想它们是:

  • 在查看论坛讨论和代码分享之前,可以尝试自己解决问题;

  • 尽早开始,比赛中后期很难赶上比赛;

  • 尝试与拥有更多知识/经验的人合作;

  • 关注论坛,包含重要的信息;

  • 如果排名下降,请耐心等待,不要沮丧。你学到的一切都会在未来的比赛中有所帮助;

迄今为止最具挑战性的两场比赛是哪一场,你是如何提出解决方案的?

Philip:因为每场比赛都有独特的挑战。例如,在最近的内核竞赛中,最大的挑战通常是在内存和 CPU/GPU 限制内拟合模型。我投入最多时间和精力的比赛是 100 万美元的 Zillow 挑战赛。这里的主要挑战是一个非常庞大而丰富的数据集和非常积极的竞争对手。

我的最终解决方案获得了第二名,是多个LGB模型的融合结果。我的大部分努力都致力于特色工程和避免过度拟合。

我们想知道您在构建机器学习模型时遵循了哪些步骤?

Philip:我真的没有系统的方法论,但我通常从一些非常基本的 EDA 和一个简单的模型开始来设置基线。对于许多比赛,一开始我花了很多时间来确保我有一个与训练/测试集拆分兼容的验证设置。一旦我对验证设置有信心,我将开始尝试逐步改进模型。

当我模型停止改进,或者如果我的验证分数与排行榜分数不同步,我将对数据进行更深入的分析以找出发生了什么。我通常避免查看任何公共内核,直到卡住为止。

你在讨论中也很活跃。您会向初学者推荐哪些讨论主题?

Philip:如果我以良好的排名完成比赛,我通常会发布我的解决方案摘要,偶尔我会发布一些关于比赛早期阶段的一般说明。

我强烈建议大家一定要所有解决方案。这些非常有价值,因为它们通常包含非常有创意的技术,可以在未来的项目中使用。

对于想要过渡到机器学习的人,您有什么建议?

Philip:我通常会避免这种类型的建议,因为人们是如此不同,对我有用的不一定对其他人有用。我的人生哲学一直是追随自己的兴趣,乐于学习新事物。

这在ML中是必不可少的,它发展如此之快。最能激励我学习新技能的是具体问题,无论是 Kaggle 挑战还是自由职业项目。我知道有些人可以为了学习而激励自己学习。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
31岁女子印尼游玩,穿长裙拍照掉入悬崖,朋友透露更多信息,够呛

31岁女子印尼游玩,穿长裙拍照掉入悬崖,朋友透露更多信息,够呛

子芫伴你成长
2024-04-22 22:32:15
具俊晔又给大S丢面子了,体面的大S还能忍受具俊晔多久?

具俊晔又给大S丢面子了,体面的大S还能忍受具俊晔多久?

七阿姨爱八卦
2024-04-22 21:30:10
在男女关系中,你一定要知道的“铁律”_618_103

在男女关系中,你一定要知道的“铁律”_618_103

王小花说情感
2024-04-23 08:26:54
邵逸夫离世后,4个儿女都拒绝为他送终,200多亿遗产谁都不想要

邵逸夫离世后,4个儿女都拒绝为他送终,200多亿遗产谁都不想要

让时间说真话
2024-03-18 16:28:41
《承欢记》大结局,乍看之下是个悲剧,实则却很圆满

《承欢记》大结局,乍看之下是个悲剧,实则却很圆满

白公子探剧
2024-04-23 23:10:19
时隔5年日本对华发信号,一旦美国政坛变天,希望中国拉日本一把

时隔5年日本对华发信号,一旦美国政坛变天,希望中国拉日本一把

老高风云
2024-04-23 09:36:35
布林肯访华究竟有多不受待见,四大细节表明,他真不该来找骂

布林肯访华究竟有多不受待见,四大细节表明,他真不该来找骂

说天说地说实事
2024-04-23 06:24:40
15岁弟弟输光姐姐17万彩礼气哭全家,寒门为何总养出败家子?

15岁弟弟输光姐姐17万彩礼气哭全家,寒门为何总养出败家子?

米粒妈爱分享
2024-04-22 15:46:46
5月财气冲天,运势越来越好,3生肖多吉多利,财运亨通,恭喜

5月财气冲天,运势越来越好,3生肖多吉多利,财运亨通,恭喜

人閒情事
2024-04-24 08:14:32
阿森纳vs切尔西球员评分:厄德高9.7分,恩佐-费尔南德斯6.1分

阿森纳vs切尔西球员评分:厄德高9.7分,恩佐-费尔南德斯6.1分

懂球帝
2024-04-24 05:11:40
章泽天参加第10届年度突破奖颁奖典礼,感觉模样变化太大

章泽天参加第10届年度突破奖颁奖典礼,感觉模样变化太大

娱乐圈酸柠檬
2024-04-24 08:35:35
什么情况?莫兰德连续两次技术犯规被驱逐出场,离场怒摔椅子

什么情况?莫兰德连续两次技术犯规被驱逐出场,离场怒摔椅子

懂球帝
2024-04-23 21:02:22
曝曼联将挂牌出售拉什福德,拉爵不满其高薪!对手都为其低迷吃惊

曝曼联将挂牌出售拉什福德,拉爵不满其高薪!对手都为其低迷吃惊

罗米的曼联博客
2024-04-24 08:10:58
54岁“武松”丁海峰曝光:在美国树林砍柴烤肉,美国豪宅尽显气派

54岁“武松”丁海峰曝光:在美国树林砍柴烤肉,美国豪宅尽显气派

黄律议法
2024-03-23 17:50:03
快船消息:哈登迎三大里程碑,小卡伤势严峻,G2出场更新

快船消息:哈登迎三大里程碑,小卡伤势严峻,G2出场更新

冷月小风风
2024-04-23 09:51:29
孙颖莎耍赖蹭分大反转!8倍慢镜揭开真相,王曼昱被疑隐瞒遭炮轰

孙颖莎耍赖蹭分大反转!8倍慢镜揭开真相,王曼昱被疑隐瞒遭炮轰

泰哥聊体育
2024-04-23 10:52:24
女性高潮有哪些表现方式,男人请你别再骗自己了

女性高潮有哪些表现方式,男人请你别再骗自己了

皮皮讲文
2024-01-03 10:27:49
美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

星辰故事屋
2024-04-14 15:56:15
一个人拖垮全剧,《哈尔滨一九四四》这位败笔演员,让人看着难受

一个人拖垮全剧,《哈尔滨一九四四》这位败笔演员,让人看着难受

娱乐圈笔娱君
2024-04-22 16:25:47
反转!8倍慢放还原擦边球,被骂的孙颖莎,和沉默的王曼昱都很冤

反转!8倍慢放还原擦边球,被骂的孙颖莎,和沉默的王曼昱都很冤

刘哥谈体育
2024-04-23 20:00:41
2024-04-24 09:40:49
机器学习与Python社区
机器学习与Python社区
机器学习算法与Python
2390文章数 10239关注度
往期回顾 全部

科技要闻

马斯克:就算外星人绑了我,也要搞定这事

头条要闻

神舟十八号瞄准4月25日20时59分发射 航天员乘组确定

头条要闻

神舟十八号瞄准4月25日20时59分发射 航天员乘组确定

体育要闻

老球痞们给年轻人上了课

娱乐要闻

赵丽颖晒照似初恋,拍照疑与儿子分享

财经要闻

AI风口吹不起科大讯飞

汽车要闻

广汽丰田2024赛那SIENNA正式上市

态度原创

本地
教育
数码
公开课
军事航空

本地新闻

我和我的家乡|潍坊人真是什么都敢往天上放啊

教育要闻

孩子给的忠告可以试一试

数码要闻

就在两周后!苹果将举行春季发布会 iPad或迎“艳丽”升级

公开课

睡前进食会让你发胖吗?

军事要闻

时隔5年土耳其或首部署俄制防空系统

无障碍浏览 进入关怀版