网易首页 > 网易号 > 正文 申请入驻

作为数据科学家,你会怎样应对这五大挑战?

0
分享至

全文共2236字,预计学习时长6分钟

图源:unsplash

作为数据科学家,我在很多公司工作过,也遇到了很多问题和挑战。事实上,很多人都会经历这些挑战,就不同情况而言,也会有多种可行的解决方案。我将谈谈我曾面临的一些最常见或最困难的挑战。

业务问题描述不当

只要有一个工作人员出错,你就会面临这个挑战。数据科学专家的主要工作之一就是做业务问题描述——这也就是起初使用数据科学的原因。

实际上,多数情况下描述不是某个数据科学专家自己,而是整个团队。团队里通常包括利益相关者,比如产品经理。但是,团队内可能出现技术脱节,任一方都可能对业务问题描述不当。

产品经理可能会说:“我们要提更多建议,大家才能买的更多”,而数据科学专家可能会说:“向大家推荐产品的时候,超过80%的情况下我们要有95%的把握。”

这两种问题描述总体来讲都很好,但都不够细化,或者只是勾勒出了问题的轮廓。问题描述是要从中找出解决方案,但是本身并不是解决方案。

以下是一个更好的业务问题描述问题的例子:“顾客平均每个订单只买一件东西”。

就是这么简单。一开始双方都想方设法将描述复杂化,但现在这样更高效。虽然没有解决方案,但人人都能看懂这种直接、通俗易懂的描述。

示例描述说明一件东西不够,那么解决方案可能就是如何让顾客更可能买一件以上的东西。一种数据科学解决方案就是使用机器学习推荐系统。在工作中不要好高骛远,而要专注于眼下的实际问题,这很重要。

数据失衡

任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如,遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而,结果完全出乎预料。

如果试着将一种新动物归类为狗或者猫,就需要猫狗各1000列的训练数据。这样,模型才足够辨别二者的不同之处。如果训练数据中猫有1900只,狗只有100只,那么就可能产生误解,认为多数新动物都是猫,这是个很常见的问题。

可能的解决方案是使用其他补强少数部分的机器学习算法,或者创建新的综合数据。有一种技术叫不均衡学习(imbalanced-learn),可以采用下列具体方法进行过采样:

· ADASYN算法(Adaptive Synthetic,自适应综合过采样)

· BorderlineSMOTE算法

· KMeansSMOTE算法

· RandomOverSampler算法

· SMOTNC算法

· SVMSMOTE算法(Nominal andContinuous)

这些过采样方法都非常有效,而且能解决数据不均衡问题。还有很多方法,比如欠采样、二者相结合、组合法、Keras和TensorFlow的批量生成器。下面是过采样操作的示例:

· 画一幅二维视图

· 绘制已知数据点

· 选择一个已知点

· 找出最邻近点

· 在邻近点与原始数据点之间画一条线

· 然后随机将大头针丢在这些线上

· 这就是新合成的过采样数据

像RandomForest之类的一些机器算法函数库的参数要指定均衡数据也很简单。

过拟合

构建的数据科学模型将训练数据解析的太透彻就会出现过拟合问题。模型接收了训练数据中的详细信息,也包括数据中的噪音,所以过于具体,而这在预测新的真实数据时是无用的,结果模型就无法做出正确推断和归纳。模型的目的是处理好未见过的数据,所以要想办法找到能处理好新数据的解决办法并付诸使用。

· 交叉验证

· 移除重复或相似特点

· 及早停止

· 正则化

· 集成法

· 非参数机器学习算法

· 使用更多数据训练

特征不足

制定业务问题描述之后,通常还需要开始寻找数据,然后形成自己的特点,输入到数据科学模型中作为训练数据。对公司数据表了解的越多,就会发现还可以以其它纵列为新特征。不过,一开始特征有限的问题还有另一种解决办法。

构建当前度量的统计数据。例如,一般具有“每位用户点击量”特征,就会停止。但也可以从如下某一纵列中创建新的度量:

· 每位用户的平均点击量

· 每位用户的众数点击量

· 每位用户75%百分位数点击量

还有很多不同方式来描述该特征的范围。

版本控制

数据科学家非常习惯独自工作,喜欢对同一个重点项目创建20个不同版本的Jupyter Notebook。我们约定好了命名,但第二天就忘记了。然后,一切变得一团糟。但其实还有更好的方式——那就是Git和GitHub。

· Git

· GitHub

· 如果数量较少的话,还有其它自制办法,比如用特殊数字方法(例:Notebook1,Notebook2)创建新版本。

这些工具可以通过创建区别于主干/代码库的独立分支,帮你形成自己的代码变化。然后就可以创建一个拉取请求来比较代码变化,在获得他人认可后并入原件。如此一来,你就不仅是在创建代码评审,而且还允许大家注意到并更加了解你的特定代码。

图源:unsplash

如你所见,数据科学家会面临很多挑战,我所谈到的只是冰山一角。但这些问题是我经历最多的,我认为应该重点讨论的。希望我的方法能帮你顺利解决这些问题。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘烨儿子审美越来越偏,背帆布袋比妹妹黑,霓娜没了龅牙颜值逆袭

刘烨儿子审美越来越偏,背帆布袋比妹妹黑,霓娜没了龅牙颜值逆袭

云泽点评汇
2024-06-02 14:48:03
破案!蔡斌弃用朱婷真相反转,中国女排留一手,球迷冤枉小诸葛了

破案!蔡斌弃用朱婷真相反转,中国女排留一手,球迷冤枉小诸葛了

室内设计师阿喇
2024-06-03 11:54:27
犹太人布局百年的捞金大骗局,竟被河南人出手一招终结

犹太人布局百年的捞金大骗局,竟被河南人出手一招终结

爆角追踪
2024-06-01 17:03:00
唐山打人案:主犯被判24年,背后保护伞被揪出,在法庭上忏悔

唐山打人案:主犯被判24年,背后保护伞被揪出,在法庭上忏悔

古书记史
2024-05-29 14:20:06
医生呼吁:过了65岁的人,宁可在家里躺着,也不要出门做这2件事

医生呼吁:过了65岁的人,宁可在家里躺着,也不要出门做这2件事

今日养生之道
2024-06-01 20:15:52
你见过这么悲惨的家庭了吗?四年时间全家人说没就没了

你见过这么悲惨的家庭了吗?四年时间全家人说没就没了

很传统的美男
2024-06-03 03:02:32
两女共侍一夫,关系却情同姐妹,生前三人行,死后则3人葬同穴

两女共侍一夫,关系却情同姐妹,生前三人行,死后则3人葬同穴

汉江忆史
2024-06-01 16:19:26
给欧盟下最后“通牒”!最多10天,我方要把中企损失份额拿回来!

给欧盟下最后“通牒”!最多10天,我方要把中企损失份额拿回来!

说故事的阿袭
2024-06-02 17:38:17
瓮中捉鳖,赖清德听到了吗?丨湾区望海峡

瓮中捉鳖,赖清德听到了吗?丨湾区望海峡

直新闻
2024-06-02 21:59:39
广东人,又一次扛下了所有!养老的事,国家急了

广东人,又一次扛下了所有!养老的事,国家急了

智谷趋势
2024-06-02 19:20:42
上海某主任医生实发薪水曝光,网友:真是让我羡慕,这也太多啦

上海某主任医生实发薪水曝光,网友:真是让我羡慕,这也太多啦

原广工业
2024-06-03 08:25:23
日本顶级财阀的联姻:丰田家族第五代继承人,迎娶女星“小赫本”

日本顶级财阀的联姻:丰田家族第五代继承人,迎娶女星“小赫本”

回京历史梦
2024-05-28 12:48:59
安徽女子打扮惊艳坐地铁,大爷战术性回避躲闪,最终还是没忍住

安徽女子打扮惊艳坐地铁,大爷战术性回避躲闪,最终还是没忍住

云端书馆
2024-06-03 07:58:39
120年的日内瓦车展停办,欧美车企无法接受!美媒:都怪中国汽车

120年的日内瓦车展停办,欧美车企无法接受!美媒:都怪中国汽车

户外小阿隋
2024-06-03 01:44:08
谈到台海,俄高层的说法变了,美国或该考虑:1打2,扛得住吗?

谈到台海,俄高层的说法变了,美国或该考虑:1打2,扛得住吗?

千里持剑
2024-05-31 15:17:18
独行侠官推晒训练照:欧文非常投入 东契奇未出现在照片中

独行侠官推晒训练照:欧文非常投入 东契奇未出现在照片中

直播吧
2024-06-03 06:36:07
0-3,0-1!亚洲冠军轰然倒下,世预赛垫底,国足形势:胜泰国晋级

0-3,0-1!亚洲冠军轰然倒下,世预赛垫底,国足形势:胜泰国晋级

开心体育站
2024-06-03 08:32:20
这哪像47岁的人啊,简直就是30岁嘛!

这哪像47岁的人啊,简直就是30岁嘛!

小米虫侃人物
2024-06-03 09:07:40
女子自曝摔成粉碎性骨折!这种鞋最近很多人都爱穿

女子自曝摔成粉碎性骨折!这种鞋最近很多人都爱穿

都市快报橙柿互动
2024-06-02 22:08:12
大陆中止ECFA关税减让后,台公布民调,称76%民众不认同九二共识

大陆中止ECFA关税减让后,台公布民调,称76%民众不认同九二共识

坠入二次元的海洋
2024-06-03 01:45:19
2024-06-03 13:18:44
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

武汉一警察牺牲 身中15刀仍下25级台阶紧追歹徒20米

头条要闻

武汉一警察牺牲 身中15刀仍下25级台阶紧追歹徒20米

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

黄仁勋的计划:涉及新AI平台 HBM4 机器人

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

教育
艺术
本地
游戏
健康

教育要闻

中文之美,转给有娃的家长吧,国学文化,每天学习一点点

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

TOC8国际邀请赛:恭喜PasDeBol成功夺冠!

晚餐不吃or吃七分饱,哪种更减肥?

无障碍浏览 进入关怀版