大多数机器学习模型像个闭着嘴的算命先生——输入数据,吐出结果,中间发生了什么你别问。决策树不一样,它是个话痨,每个分叉都大声嚷嚷自己的判断标准。
训练时,算法会盯着你的数据发呆,然后挑一个最能把样本分开的特征开刀。比如判断一个人会不会违约,它先问"收入是否低于5万",再追问"信用卡有几张"。每个节点都是一道是非题,最终把人群切成越来越细的小块。
这种透明带来了意外的副作用:业务方终于能看懂模型在干嘛了。银行风控部门曾抱怨神经网络"黑得像煤球",换成决策树后,他们发现模型居然把"手机号归属地"当成了重要指标——这明显是数据泄露,当场抓包。
代价是准确率。单棵决策树容易过度自信,在训练数据上钻牛角尖,换个新数据就懵圈。解决办法很粗暴:种一片森林,让几百棵树投票。这就是随机森林,准确率上去了,但话痨又变回哑巴——没人看得懂几百棵树的集体决策。
Scikit-learn的开发者说过一句大实话:「决策树的价值不在预测,而在教你数据里藏着什么故事。」很多公司最后把它当探针用,先让决策树把数据摸一遍,找到关键特征,再喂给更复杂的模型。
有个细节挺有意思:决策树对缺失值的处理很敷衍,直接另开一路分支。某电商平台曾经因此翻车——用户没填年龄,模型默认他们"年龄未知",结果这批人的转化率预测完全失真。后来他们被迫把所有缺失年龄强制填成中位数,才算糊弄过去。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.