网易首页 > 网易号 > 正文 申请入驻

外行数据科学指南:如何成为(优秀的)数据科学家

0
分享至

数据科学有多简单?

有时,当你听到数据科学家在讨论他们的实验或详细介绍 Tensorflow 用法时,你可能会认为外行无法掌握数据科学。大数据看起来像是宇宙的另一个谜团,它将与少数当代的炼金术士和魔术师一起关在象牙塔中。与此同时,你会从任何地方听到数据驱动的迫切需要。

诀窍在于,我们过去只有有限且结构良好的数据。现在,借助全球互联网,我们在结构化、非结构化和半结构化数据的永无止境的流动中畅游。它让我们更有能力了解工业、商业或社会过程,但同时,它需要新的工具和技术。

数据科学只是 21 世纪数学的延伸,从本质上讲,它与使用可用信息获得洞察力和改进流程的技能相同。无论是小型 Excel 电子表格还是数据库中的 1 亿条记录,目标始终相同:找到价值。数据科学与传统统计学的不同之处在于,它不仅试图解释价值,还试图预测未来趋势。

换句话说,我们将数据科学用于:

数据科学是一门融合了机器学习算法、统计学、商业智能和编程的新学科。这种混合可以帮助我们从原始数据中揭示隐藏的模式,从而为业务和制造流程提供深刻的见解。

数据科学家应该知道什么?

要进入数据科学领域,你需要具备业务分析师、统计学家、程序员和机器学习开发人员的技能。幸运的是,第一次进入数据世界时,你不需要成为这些领域中的任何一个领域的专家。让我们看看你需要什么以及如何自学必要的最低限度。

商业智能

当我们第一次看到数据科学和商业智能时,我们看到了相似之处:它们都专注于“数据”以提供有利的结果,并且都提供可靠的决策支持系统。不同之处在于,虽然 BI 处理静态和结构化数据,但数据科学可以处理来自各种数据源的高速、复杂、多结构化数据。从实践的角度来看,BI 有助于解释过去的数据以进行报告或描述性分析,而数据科学分析过去的数据以在预测性分析或规范性分析中做出未来预测 。

撇开理论不谈,要开始一个简单的数据科学项目,你不需要成为专业的业务分析师。你需要的是对以下几点有清晰的认识:

• 有一个问题或你好奇的事情;

• 查找和收集你感兴趣的领域存在的相关数据,并回答你的问题;

• 使用选定的工具分析你的数据;

• 查看你的分析并尝试解释你的发现。

如您所见,在旅程的一开始,从 BI 的角度来看,你的好奇心和常识可能就足够了。在更复杂的生产环境中,可能会有单独的业务分析师进行有见地的解释。然而,重要的是至少对 BI 任务和策略有模糊的认识。

统计和概率

概率论和统计学是数据科学的基础。简而言之,统计学是使用数学对数据进行技术分析。在统计方法的帮助下,我们对进一步的分析进行估计。统计方法本身依赖于允许我们进行预测的概率理论。统计和概率都是独立且复杂的数学领域,但是,作为数据科学家的初学者,你可以从 5 个基本的统计概念开始:

统计特征 像偏差、方差、均值、中位数、百分位数和许多其他内容是你在探索数据集时首先要应用的统计技术。即使在新手级别,也很容易理解和在代码中实现它们。

概率分布 表示实验中所有可能值的概率。数据科学中最常见的是均匀分布,它涉及同样可能发生的事件,高斯分布或正态分布,其中大多数观测值聚集在中心峰值(平均值)周围,并且更远的值的概率逐渐减小在钟形曲线的两个方向上,以及类似于高斯分布的泊松分布,但增加了偏度因子。

• 有助于平衡数据集的 过采样 欠采样 。如果多数类别被过度表示,欠采样有助于从中选择一些数据以平衡它与少数类别所拥有的数据。当数据不足时,过采样会复制少数类以具有与多数类相同数量的示例。

降维 用于降维的最常用技术是 PCA,它本质上是创建特征的向量表示,显示特征对输出的重要性,即它们之间的相关性。

贝叶斯统计 是一种将概率应用于统计问题的方法。它为我们提供了数学工具,可以根据看到有关随机事件的新数据或证据来更新我们对随机事件的看法。

编程

数据科学是一个令人兴奋的工作领域,因为它将先进的统计和定量技能与现实世界的编程能力相结合。根据你的背景,你可以自由选择自己喜欢的编程语言。然而,数据科学社区中最受欢迎的是 R、Python 和 SQL。

R 是一种功能强大的语言,专为数据科学需求而设计。它擅长于各种各样的统计和数据可视化应用程序,并且作为开源有一个活跃的贡献者社区。事实上,43%的数据科学家正在使用 R 来解决统计问题。然而,它很难学习,特别是如果你已经掌握了一种编程语言。

Python 是数据科学中的另一种常用语言。由于其多功能性,你几乎可以将 Python 用于数据分析的所有步骤。它允许你创建数据集,你可以在谷歌上找到你需要的任何类型的数据集。Python 非常适合入门级且易于学习,对于数据科学和机器学习专家而言,Python 仍然令人兴奋,因为它拥有更复杂的库,例如 Google 的 Tensorflow。

SQL(结构化查询语言)作为数据处理语言比作为高级分析工具更有用。IT 可以帮助你执行诸如从数据库中添加、删除和提取数据以及执行分析功能和转换数据库结构等操作。尽管,NoSQL 和 Hadoop 已经成为数据科学的一个重要组成部分,但仍然期望数据科学家可以用 SQL 编写和执行复杂的查询。

机器学习和人工智能

尽管 AI 和数据科学通常齐头并进,但大量数据科学家并不精通机器学习领域和技术。然而,数据科学涉及处理大量需要掌握机器学习技术的数据集,例如监督机器学习、决策树、逻辑回归等。这些技能将帮助你解决基于预测的不同数据科学问题。

在入门级,机器学习不需要太多数学或编程知识,只需要兴趣和动力。你应该了解的关于 ML 的基本知识是,其核心是三大类算法之一:监督学习、无监督学习和强化学习。

监督学习 是机器学习的一个分支,它处理标记数据,换句话说,你提供给模型的信息有一个现成的答案。你的软件通过对输出进行预测,然后将其与实际答案进行比较来学习。

• 在 无监督学习 中,数据没有标记,模型的目标是从中创建一些结构。无监督学习可以进一步分为聚类和关联。它用于查找数据中的模式,这在商业智能中对分析客户行为特别有用。

强化学习 是最接近人类学习方式的,即通过反复试验。在这里,创建了一个性能函数来告诉模型它所做的是使它更接近其目标还是让它走另一条路。基于这个反馈,模型学习然后做出另一个猜测,这种情况持续发生,每一个新的猜测都是更好的。

考虑到这些广泛的方法,你就有了分析数据的支柱,可以探索最适合你的特定算法和技术。

数据科学家应该具备哪些技能?

现在了解了数据科学的主要先决条件,它会让你成为一名优秀的数据科学家吗?虽然没有确定答案,但有几件事需要考虑:

分析思维:这是对任何处理数据的人的普遍要求。你的分析思维应该得到统计背景以及数据结构和机器学习算法知识的进一步支持。

专注于解决问题:当你掌握一项新技术时,很容易在任何地方使用它,虽然了解最近的趋势和工具很重要,但数据科学的目标是通过从数据中提取知识来解决特定问题。一名优秀的数据科学家首先了解问题,然后定义问题解决方案的要求,然后才决定哪些工具和技术最适合该任务。不要忘记,利益相关者永远不会被你使用的令人印象深刻的工具所吸引,只会被你的解决方案的有效性所吸引。

领域知识:数据科学家需要了解业务问题并为之选择合适的模型。他们应该能够解释模型的结果并快速迭代以得出最终模型。他们需要关注细节。

沟通技巧:理解问题并以简单的语言向利益相关者提供持续的反馈,需要进行大量的沟通。但这只是沟通重要性的表面——其中一个更重要的因素是提出正确的问题。此外,数据科学家应该能够清楚地记录他们的方法,以便其他人可以轻松地在该工作的基础上进行开发,反之亦然,了解他们所在领域发表的研究工作。

正如你所看到的,正是各种技术和软技能的结合才构成了一名优秀的数据科学家。

作者:Max Ved

免责声明:凡未注明来源或者来源为网络的信息均转自其它平台,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。本网站只负责对文章进行整理、排版、编辑,不承担任何法律责任。若有侵权或异议请联系我们删除,谢谢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
胖东来“后遗症”现象:第1批从胖东来离职的员工,已无法上班了

胖东来“后遗症”现象:第1批从胖东来离职的员工,已无法上班了

阿柒的讯
2025-10-31 17:41:38
12月1日起,中国正式升级对荷兰的稀土管控!

12月1日起,中国正式升级对荷兰的稀土管控!

凌风的世界观
2025-11-01 16:41:52
钱赚够了不装了?退出春晚、被综艺开除,贾玲的下场怪不了别人

钱赚够了不装了?退出春晚、被综艺开除,贾玲的下场怪不了别人

阅识
2025-11-02 15:48:02
在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

窥史
2025-10-23 21:01:43
火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

火葬场烧尸人:见惯了生离死别,最喜欢年轻漂亮的女尸

吴学华看天下
2024-06-26 12:43:21
今年立冬“邪乎得很”,60年没见过,冬天要冻哭?

今年立冬“邪乎得很”,60年没见过,冬天要冻哭?

阿天爱旅行
2025-11-02 12:17:34
王艺迪4-3险胜温特,WTT蒙彼利埃冠军赛,逆转夺冠,恭喜王艺迪!

王艺迪4-3险胜温特,WTT蒙彼利埃冠军赛,逆转夺冠,恭喜王艺迪!

烟浔渺渺
2025-11-03 00:16:18
ASML卖设备,美国急眼了,欧洲悄悄留后门

ASML卖设备,美国急眼了,欧洲悄悄留后门

普陀动物世界
2025-11-03 03:11:39
塞琳娜慈善活动状态翻车?黑瘦显老+胶原蛋白流失疑是医美后遗症

塞琳娜慈善活动状态翻车?黑瘦显老+胶原蛋白流失疑是医美后遗症

述家娱记
2025-10-30 09:16:31
听了潘汉年的坦白,陈毅如同晴天霹雳,毛主席震怒:此人再不能信

听了潘汉年的坦白,陈毅如同晴天霹雳,毛主席震怒:此人再不能信

元哥说历史
2025-11-02 21:20:03
屠杀!火箭128-101凯尔特人,谁是本场比赛的功臣,数据不会说谎

屠杀!火箭128-101凯尔特人,谁是本场比赛的功臣,数据不会说谎

砚底沉香
2025-11-03 03:55:35
首日中国12胜6负收官业余选手2连胜,附3日赛程丁俊晖VS霍尔特

首日中国12胜6负收官业余选手2连胜,附3日赛程丁俊晖VS霍尔特

小彭美识
2025-11-03 03:43:26
玄学提醒:人过五十,多去这几个地方走动,福气多多,顺利多多

玄学提醒:人过五十,多去这几个地方走动,福气多多,顺利多多

诗词中国
2025-10-30 20:14:52
惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

我爱英超
2025-11-02 17:29:43
白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

白天陪玩晚上陪睡?明码标价8000一次!高端伴游沦为色情交易温床

阿纂看事
2025-08-29 15:46:57
惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

惨绝人寰!RSF屠杀震惊联合国,妇产医院460人被杀,土壤都被染红

霁寒飘雪
2025-11-02 09:25:37
上头有人!柬埔寨诈骗集团头脑陈志,被曝出更多内幕

上头有人!柬埔寨诈骗集团头脑陈志,被曝出更多内幕

王二哥老搞笑
2025-10-21 08:28:28
中央批准:王道席履新

中央批准:王道席履新

鲁中晨报
2025-11-02 20:03:03
退出德云社真相大白2年,官媒出手揭于谦真实现状,小沈阳说对了

退出德云社真相大白2年,官媒出手揭于谦真实现状,小沈阳说对了

豆哥记录
2025-10-31 18:37:32
全红婵复出就夺冠,好棒!

全红婵复出就夺冠,好棒!

科学发掘
2025-11-03 02:14:09
2025-11-03 04:43:00
九道门聊数据
九道门聊数据
用数据为企业解决问题
432文章数 30关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

数码
时尚
健康
手机
艺术

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

最近很火的发型,原来这么简单!

核磁VS肌骨超声,谁更胜一筹?

手机要闻

华为Mate80风扇版确认:五款机型同台竞技,18号见!

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

无障碍浏览 进入关怀版