网易首页 > 网易号 > 正文 申请入驻

2021,什么数据分析技能最重要?

0
分享至

大数据文摘授权转载自数据派THU

作者:Emmett Boudreau

翻译:朱启轩

校对:和中华

业界最需要的是什么技能?新的一年里您应该从哪里开始学习?

导读

对于像数据科学这种飞速发展的领域,很容易理解为何在给定时间内难以掌握一些热门技能。成为一名数据科学家的关键是研究并且熟练掌握那些任意时刻出现的先进技术。您永远不知道什么时候可能需要一个以前从未使用过的工具、函数或模块,因而需要首先学习如何使用它们。这就是为什么我们大多数人喜欢阅读“走向数据科学”(Towards Data Science)可考虑加一句译者注,说明这是一个数据科学门户网站!

数据科学最大的障碍是过去几年来其突飞猛进般的演变。近年来,数据科学已经从一个相对鲜为人知的领域转变为后十年里最热门的工作方向。所以,其概念体系/生态体系也在快速发展。这也意味着:如果您停滞不前,则很容易在数据科学的大潮之中落后。

对于数据科学家而言,有一些关键属性是雇主所看重并且追寻的,但最重要的属性是您所熟悉的技术。就现在情况看来,熟悉从动画片摩登原始人(Flintstones)中模仿的脚车技术可能并不像熟悉TensorFlow这样有价值。

由于数据科学市场和其概念体系在不断发展,因此很难确定雇主实际想在自己的解决方案中使用的最新技术到底是什么。幸运的是,由于我们是数据科学家,因此我们可以通过浏览互联网以查找更多数据科学岗位所需的技能,例如编程语言,包,和软件。

要想找到一份完美的数据集,来回答该选择什么“数据科学技术”(体系)并不完全可行,因此以下概述来自于我的个人经验。虽然如此,这些概述也都来源于数据科学岗列出的工作要求,比较全面,并且与数据科学的内在联系很紧密。此外,数据科学领域也在迅速发展。这意味着尽管某些技术在第一季度可能很有用,但是在第三第四季度可能就不再被使用了。因此,我谨就此方面的技术提出自己的见解。

行业需求

任何有远大理想的数据科学家都一定会熟悉许多业界常用的技能。有这些技能的使用经验一直都是很多工作岗位要求的一部分,因为它们很可能是您入职以后所使用的那些技能。至少,熟悉这些技能的基本概念能够确保您在使用他们之时更容易上手。

Python

首先,如果您还不了解Python,建议您学习Python。尽管在数据分析中还会用到R,SAS甚至是Julia,大多数工作岗位寻求的还是精通Python的人。这并不是说其他语言是没用的,因为能够适用于不同目的的编程语言技能组合往往是最佳的。比如说,如果要建造花园,我想使用的不仅是铲子,尽管我可能要做更多的工作,我最终还是能够把花园建好的。

Python是当前科学计算领域的行业标准。这是有充分理由的,因为Python生态系统是其他任何语言都无法比拟的。另一个很棒的事情是,Python的设计使得它很容易使用。对于那些初学者,我会推荐Python,因为它会对您很有帮助!

分析

至于分析方面,通常都不直接列出技术。这仅是因为,取决于您想做什么,在进行具体的可视化时,任何软件包都可以胜任。因此,考虑到这一点,最好掌握多种库以进行数据可视化。此外,分析过程中的另一个重要的要素是统计学知识。

我要说的是,熟悉Python的SciPy会使您更容易被公司录用。在分析方面,雇主寻找的是真实的量化结果。统计测试是获得真实量化结果的最简单方法。此外,这些统计技能将逐步演化为您的机器学习技能。

数据

对于数据,重要的是无论使用什么编程语言,都能对数据有深刻的理解。就是说:虽然大多数语言都具有相似的数据类型,但是用您首选的语言可能最终会完全不同。拥有一定的处理数据能力将会使数据清洗和建立有效的处理管道更加容易。

对于Python来说,像NumPy和Pandas这样的软件包对于处理数据绝对是必不可少的。如果您想使用复杂的数据集并训练大型模型,那么先学好如何用自己喜欢的编程语言来操作/加工数据可能更为重要。尽管数据科学的重要组成部分是机器学习,但很多职位头衔一般不包含机器学习。原因是,首先,数据科学家会先预处理数据,然后用科学的方法进行实践。考虑到这一点,如果没有对数据操作的正确理解,甚至都很难建立模型并运行它。简单来说,处理数据是最重要的一步,也是精通机器学习前的第一步。

数据方面的另一重要事项是了解如何处理和存储数据。从数据湖,数据库和表的知识出发,您还应该知道如何查询数据并将其带入代码中以进行测试。能够对数据进行算术运算是非常棒的,但是当您没有数据时,它将变得毫无用处。

此外,数据聚合算法很重要,无论是来自日志数据,生成的数据还是最常用的数据。使用API服务并能够以许多非传统方式检索数据对于任何数据科学家来说无疑都是必不可少的。

机器学习

在机器学习方面,虽然一些更高级的概念(例如,构建神经网络)可能很酷,但在许多情况下,使用典型的黑盒模型可能是最佳选择。我认为这意味着数据科学家应该至少对两者都有一定的了解。尽管我认为这些技能没有什么价值,因为大多数时候这些知识框架都是由其他人(尤其是在行业中)预先构建好了的,(译者补充:大多数时候只要调包就行了)所以大多数工作要求Python开发人员至少具有类似使用Sklearn库的经验。

开发运维

开发运维是一个经常被忽视的数据科学技能。所有模型都有一个目的,通常该目的是为了部署各个模型。因此,虚拟环境管理通常会有一段时间成为数据科学团队的重要工作内容。这些至关重要的基础技能也可能有助于编程,但主要是在构建更复杂的数据解决方案时会有所帮助。

如果您不知道如何将开发运维组合在一起,那运用现行的开发运维技术是很困难的。至少,对于许多数据科学家而言,了解如何使用终端并熟悉命令行(CLI)绝对是必不可少的。一年多以前,我写了一篇关于为什么开发运维会如此重要的文章,实际上,您可以在这里查看:

The benefits of devlops skills in data science:

https://towardsdatascience.com/the-benefits-of-dev-ops-skills-in-data-science-fa0a30aade85

构建自己的生态系统

想吸引大批的数据科学家往往是很困难的,因为他们经常使用不同的语言。话虽这么说,对于您偏好的语言,可能还有一些软件包,可能在2021年还需要您去掌握。根据我在职位列表上看到的内容,我列出了几个热门语言中比较重要且值得学习的软件包。


Python

  • NumPy

  • Math

  • Scipy(Scipy.stats)

  • Pandas

  • TensorFlow

  • Sklearn

  • Matplotlib/Seaborn

  • Plot.ly

  • Keras

  • Pytorch

  • PySpark


Julia

  • Plots

  • Makie

  • DataFrames

  • GadFly

  • MLJ

  • Lathe

  • GLM

  • Flux

  • Knet


R

  • Shiny

  • ggplot2

  • data.table

  • dplyr

  • tidyr

  • knitr


C++

  • Xtensor

  • OpenCV

  • Shogun

  • Tensorflow


当然,不是说就一定要按照上面的列表来学习,而是给人们提供了不同生态圈的轮廓。例如,Seaborn和Matplotlib具有许多相同的功能,因此您可能不需要两者都知道,但是绝对需要了解如何绘制统计图表。

未来

数据科学领域发展迅速,预测其未来相当困难。但是,我们可以看到有关技术发展的趋势。对于TensorFlow,Python,Pandas等行业标准软件包,它们可能会存在很长时间。我怀疑对于整个生态系统而言,它的发展方向是不定的,但不会突变。

话虽如此,新的编程语言Julia拥有许多有趣的前景,可能暗示着数据科学的未来。需要明确的是,这对于Python的地位没有任何意义,但对于和Python一起的其他语言角色可能会有一些意义。

我认为,数据科学世界每天都有很多有趣的事情在发生。对于像我这样喜欢不断学习新事物的人来说,这是一件很棒的事情,但是这也会给人以警醒,因为很难知道在任何给定时间点您应该与什么样的技能打交道才能跟上行业发展。

https://towardsdatascience.com/which-data-science-skills-are-the-most-vital-in-2021-88ae9e76b560

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近期在与老公过性生活时,我察觉到他和过去这十几年有着不太一样

近期在与老公过性生活时,我察觉到他和过去这十几年有着不太一样

第7情感
2024-06-18 12:23:00
坎特第1,克罗斯第2,皇马队长第3!欧洲杯中后场球员排名出炉

坎特第1,克罗斯第2,皇马队长第3!欧洲杯中后场球员排名出炉

贝塔说体育
2024-06-19 13:22:51
科大讯飞合肥总部工程师猝死?知情人士:公司已报警

科大讯飞合肥总部工程师猝死?知情人士:公司已报警

南方都市报
2024-06-18 17:46:08
美国固态电池开始B测!391Wh/kg续航1000公里,奔驰已收到样品

美国固态电池开始B测!391Wh/kg续航1000公里,奔驰已收到样品

徐德文科学频道
2024-06-17 15:29:21
月之暗面们拒绝成为OpenAI

月之暗面们拒绝成为OpenAI

虎嗅APP
2024-06-19 07:59:03
字母的胆怯、柴桑的愤怒,透露出许敏与郭威田静要彻底决裂了

字母的胆怯、柴桑的愤怒,透露出许敏与郭威田静要彻底决裂了

爱吃番茄猪扒的使者
2024-06-19 01:24:46
F-16登场,留给侵略者耀武扬威的时间不多喽

F-16登场,留给侵略者耀武扬威的时间不多喽

临墨有余
2024-06-13 09:06:39
国际乒联公布奥运单打邀请名单:王曼昱自动入围,陈梦暂未上榜

国际乒联公布奥运单打邀请名单:王曼昱自动入围,陈梦暂未上榜

全言作品
2024-06-19 12:21:13
使馆女子汽车违停后续:身份彻底曝光,网友愤怒声讨,评论区炸锅

使馆女子汽车违停后续:身份彻底曝光,网友愤怒声讨,评论区炸锅

影像温度
2024-06-18 17:29:06
因为罩杯太大,结果被教练退课?!大尺度现场照流出……大家看看我有错吗?

因为罩杯太大,结果被教练退课?!大尺度现场照流出……大家看看我有错吗?

今日搞笑分享
2024-06-18 07:10:46
出差去浙江两天,说句不好听的话,浙江最大的特点不是经济

出差去浙江两天,说句不好听的话,浙江最大的特点不是经济

骑驴看牛找马
2024-06-19 09:13:44
大S今天终于发声了,直接怒怼张兰,说她爆料孙子被退学全是造谣

大S今天终于发声了,直接怒怼张兰,说她爆料孙子被退学全是造谣

一神娱乐
2024-05-23 16:53:22
再见了,探花!凯尔特人酝酿6换1交易,塔图姆组五巨头再争FMVP?

再见了,探花!凯尔特人酝酿6换1交易,塔图姆组五巨头再争FMVP?

林子说事
2024-06-19 03:46:48
塔图姆:不嫉妒布朗拿FMVP。不会学詹姆斯怕韦德拿FMVP,抢了风头

塔图姆:不嫉妒布朗拿FMVP。不会学詹姆斯怕韦德拿FMVP,抢了风头

好火子
2024-06-18 16:57:05
华为参与!全球首次,试验成功

华为参与!全球首次,试验成功

每日经济新闻
2024-06-19 08:01:06
网友建议:取消英语刻不容缓,英语毁了多少孩子的前程!

网友建议:取消英语刻不容缓,英语毁了多少孩子的前程!

李老师讲最真教育
2024-06-18 21:37:17
堪比冈比亚吊打五常的国际笑话——帕劳指责中国大规模网袭该岛国

堪比冈比亚吊打五常的国际笑话——帕劳指责中国大规模网袭该岛国

朗威游戏说
2024-06-16 23:51:22
捷克主帅称赞C罗:我向他致敬,他是足球史上最优秀的球员之一

捷克主帅称赞C罗:我向他致敬,他是足球史上最优秀的球员之一

直播吧
2024-06-19 06:53:20
捷克门将谈扑出C罗单刀:我只是尽力扩大防守面积,这奏效了

捷克门将谈扑出C罗单刀:我只是尽力扩大防守面积,这奏效了

直播吧
2024-06-19 06:53:20
董宇辉正在跌落神坛

董宇辉正在跌落神坛

电商报APP
2024-06-18 14:52:24
2024-06-19 13:50:44
大数据文摘
大数据文摘
专注大数据,每日有分享!
6280文章数 94271关注度
往期回顾 全部

科技要闻

英伟达超越苹果、微软登顶全球新股王

头条要闻

8名大龄女工坐冷藏车窒息身亡 车内有大量未包装干冰

头条要闻

8名大龄女工坐冷藏车窒息身亡 车内有大量未包装干冰

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

吴清:证监会将推出“科创板八条”

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

时尚
艺术
家居
本地
教育

40岁女人的穿搭法则,帮你找回“精致美”,穿衣其实很简单

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

自然开放 实现灵动可变空间

本地新闻

我和我的家乡|在鞍山的每一步都有新发现

教育要闻

敬请投稿!“年轻不可轻”第二届新民青少年社论大赛正式开启。邀你来这里挥斥方遒,浪遏飞舟!

无障碍浏览 进入关怀版