网易首页 > 网易号 > 正文 申请入驻

【机器学习】图解朴素贝叶斯

0
分享至

在众多机器学习分类算法中,本篇我们提到的朴素贝叶斯模型,和其他绝大多数分类算法都不同,也是很重要的模型之一。

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法,也就是直接学习出特征输出 和特征 之间的关系(决策函数 或者条件分布 )。但朴素贝叶斯是生成方法,它直接找出特征输出 和特征 的联合分布 ,进而通过 计算得出结果判定。

朴素贝叶斯是一个非常直观的模型,在很多领域有广泛的应用,比如早期的文本分类,很多时候会用它作为 baseline 模型,本篇内容我们对朴素贝叶斯算法原理做展开介绍。

1.朴素贝叶斯算法核心思想

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(Naive Bayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。

一般挑西瓜时通常要『敲一敲』,听听声音,是清脆声、浊响声、还是沉闷声。所以,我们先简单点考虑这个问题,只用敲击的声音来辨别西瓜的好坏。根据经验,敲击声『清脆』说明西瓜还不够熟,敲击声『沉闷』说明西瓜成熟度好,更甜更好吃。

所以,坏西瓜的敲击声是『清脆』的概率更大,好西瓜的敲击声是『沉闷』的概率更大。当然这并不绝对——我们千挑万选地『沉闷』瓜也可能并没熟,这就是噪声了。当然,在实际生活中,除了敲击声,我们还有其他可能特征来帮助判断,例如色泽、跟蒂、品类等。

朴素贝叶斯把类似『敲击声』这样的特征概率化,构成一个『西瓜的品质向量』以及对应的『好瓜/坏瓜标签』,训练出一个标准的『基于统计概率的好坏瓜模型』,这些模型都是各个特征概率构成的。

这样,在面对未知品质的西瓜时,我们迅速获取了特征,分别输入『好瓜模型』和『坏瓜模型』,得到两个概率值。如果『坏瓜模型』输出的概率值大一些,那这个瓜很有可能就是个坏瓜。

2.贝叶斯公式与条件独立假设

贝叶斯定理中很重要的概念是先验概率后验概率条件概率。(关于这部分依赖的数学知识,大家可以查看ShowMeAI的文章 图解AI数学基础 | 概率与统计,也可以下载我们的速查手册 AI知识技能速查 | 数学基础-概率统计知识)(链接见文末)。

1)先验概率与后验概率

先验概率事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率。

举个例子:如果我们对西瓜的色泽、根蒂和纹理等特征一无所知,按照常理来说,西瓜是好瓜的概率是60%。那么这个概率P(好瓜)就被称为先验概率。

后验概率事件发生后求的反向条件概率。或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。

举个例子:假如我们了解到判断西瓜是否好瓜的一个指标是纹理。一般来说,纹理清晰的西瓜是好瓜的概率大一些,大概是75%。如果把纹理清晰当作一种结果,然后去推测好瓜的概率,那么这个概率P(好瓜|纹理清晰)就被称为后验概率。

条件概率:一个事件发生后另一个事件发生的概率。一般的形式为 表示 发生的条件下 发生的概率。

简单来说,贝叶斯定理(Bayes Theorem,也称贝叶斯公式)是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法。在人工智能领域,有一些概率型模型会依托于贝叶斯定理,比如我们今天的主角『朴素贝叶斯模型』。

是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。

是先验概率,在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

是条件概率,又叫似然概率,一般是通过历史数据统计得到。

是后验概率,一般是我们求解的目标。

3)条件独立假设与朴素贝叶斯

基于贝叶斯定理的贝叶斯模型是一类简单常用的分类算法。在『假设待分类项的各个属性相互独立』的情况下,构造出来的分类算法就称为朴素的,即朴素贝叶斯算法。

所谓『朴素』,是假定所有输入事件之间是相互独立。进行这个假设是因为独立事件间的概率计算更简单。

朴素贝叶斯模型的基本思想是:对于给定的待分类项 ,求解在此项出现的条件下各个类别 出现的概率,哪个 最大,就把此待分类项归属于哪个类别。

朴素贝叶斯算法的定义为:设 为一个待分类项,每个 为x的一个特征属性,且特征属性之间相互独立。设 为一个类别集合,计算。

要求出第四项中的后验概率 ,就需要分别求出在第三项中的各个条件概率,其步骤是:


  • 找到一个已知分类的待分类项集合,这个集合叫做训练样本集

  • 统计得到在各类别下各个特征属性的条件概率估计。即




在朴素贝叶斯算法中,待分类项的每个特征属性都是条件独立的,由贝叶斯公式

因为分母相当于在数据库中 存在的概率,所以对于任何一个待分类项来说 都是常数固定的。再求后验概率 的时候只用考虑分子即可。

因为各特征值是独立的所以有:

可以推出:

对于 是指在训练样本中 出现的概率,可以近似的求解为:

对于先验概率 ,是指在类别 中,特征元素 出现的概率,可以求解为:

总结一下,朴素贝叶斯模型的分类过程如下流程图所示:

大家在一些资料中,会看到『多项式朴素贝叶斯』和『伯努利朴素贝叶斯』这样的细分名称,我们在这里基于文本分类来给大家解释一下:

在文本分类的场景下使用朴素贝叶斯,那对应的特征 就是单词,对应的类别标签就是 ,这里有一个问题:每个单词会出现很多次,我们对于频次有哪些处理方法呢?


  • 如果直接以单词的频次参与统计计算,那就是多项式朴素贝叶斯的形态。

  • 如果以是否出现(0和1)参与统计计算,就是伯努利朴素贝叶斯的形态。


(1)多项式朴素贝叶斯

以文本分类为例,多项式模型如下。在多项式模型中,设某文档 , 是该文档中出现过的单词,允许重复,则:

先验概率

类 下 单 词 总 数 整 个 训 练 样 本 的 单 词 总 数

类条件概率

  • 是训练样本的单词表(即抽取单词,单词出现多次,只算一个),则表示训练样本包含多少种单词。

  • 可以看作是单词在证明属于类上提供了多大的证据,而则可以认为是类别在整体上占多大比例(有多大可能性)。


(2)伯努利朴素贝叶斯

对应的,在伯努利朴素贝叶斯里,我们假设各个特征在各个类别下是服从n重伯努利分布(二项分布)的,因为伯努利试验仅有两个结果,因此,算法会首先对特征值进行二值化处理(假设二值化的结果为1与0)。

对应的 和 计算方式如下(注意到分子分母的变化):

类 下 文 件 总 数 整 个 训 练 样 本 的 文 件 总 数


2)朴素贝叶斯与连续值特征

我们发现在之前的概率统计方式,都是基于离散值的。如果遇到连续型变量特征,怎么办呢?

以人的身高,物体的长度为例。一种处理方式是:把它转换成离散型的值。比如:


  • 如果身高在160cm以下,特征值为1;

  • 在160cm和170cm之间,特征值为2;

  • 在170cm之上,特征值为3。


当然有不同的转换方法,比如还可以:


  • 将身高转换为3个特征,分别是f1、f2、f3;

  • 如果身高是160cm以下,这三个特征的值分别是1、0、0;

  • 若身高在170cm之上,这三个特征的值分别是0、0、1。


但是,以上的划分方式,都比较粗糙,划分的规则也是人为拟定的,且在同一区间内的样本(比如第1套变换规则下,身高150和155)难以区分,我们有高斯朴素贝叶斯模型可以解决这个问题。

如果特征 是连续变量,如何去估计似然度 呢?高斯模型是这样做的:我们假设在 的条件下, 服从高斯分布(正态分布)。根据正态分布的概率密度函数即可计算出 ,公式如下:

回到上述例子,如果身高是我们判定人性别(男/女)的特征之一,我们可以假设男性和女性的身高服从正态分布,通过样本计算出身高均值和方差,对应上图中公式就得到正态分布的密度函数。有了密度函数,遇到新的身高值就可以直接代入,算出密度函数的值。

4.平滑处理1)为什么需要平滑处理

使用朴素贝叶斯,有时候会面临零概率问题。零概率问题,指的是在计算实例的概率时,如果某个量 ,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。

在文本分类的问题中,当『一个词语没有在训练样本中出现』时,这个词基于公式统计计算得到的条件概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。

2)拉普拉斯平滑及依据

为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。

假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。

对应到文本分类的场景中,如果使用多项式朴素贝叶斯,假定特征 表示某个词在样本中出现的次数(当然用TF-IDF表示也可以)。拉普拉斯平滑处理后的条件概率计算公式为:

表示类的所有样本中特征的特征值之和。

  • 表示类的所有样本中全部特征的特征值之和。

  • 表示平滑值(,主要为了防止训练样本中某个特征没出现而导致,从而导致条件概率的情况,如果不加入平滑值,则计算联合概率时由于某一项为0导致后验概率为0的异常情况出现。

  • 表示特征总数。

  • 侵删,来源,http://www.showmeai.tech/article-detail/189

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    范冰冰大方公开:18亿是真,没打算复合。

    范冰冰大方公开:18亿是真,没打算复合。

    乔话
    2026-05-11 23:31:39
    4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

    4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

    通鉴史智
    2026-03-15 11:45:00
    澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

    澳洲放羊大叔引爆AI编程革命!Claude Code急推goal模式,不干完不许停

    新智元
    2026-05-13 18:31:06
    中方已做最坏准备,一旦中美爆发战争,中国三大底牌一个比一个狠

    中方已做最坏准备,一旦中美爆发战争,中国三大底牌一个比一个狠

    阿校谈史
    2026-05-14 00:12:02
    尼日利亚一女星用500个面包制成礼服 惊艳亮相电影奖 现场撕下一块大快朵颐

    尼日利亚一女星用500个面包制成礼服 惊艳亮相电影奖 现场撕下一块大快朵颐

    快科技
    2026-05-12 15:00:24
    缅怀!前NBA球员科林斯去世!年仅47岁!

    缅怀!前NBA球员科林斯去世!年仅47岁!

    柚子说球
    2026-05-13 08:53:16
    山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

    山东25岁女子征婚被网友群嘲,奇葩要求让人无语至极

    映射生活的身影
    2026-05-12 10:44:30
    方腊仅有8员大将,为何却让梁山损失了70名好汉?原因很简单

    方腊仅有8员大将,为何却让梁山损失了70名好汉?原因很简单

    掠影后有感
    2026-05-11 11:28:59
    美股芯片股高开后快速跳水!黄仁勋再访中国,英伟达股价创历史新高!中概股大涨,阿里低开高走涨近7%|美股开盘

    美股芯片股高开后快速跳水!黄仁勋再访中国,英伟达股价创历史新高!中概股大涨,阿里低开高走涨近7%|美股开盘

    每日经济新闻
    2026-05-13 22:43:16
    跌破4万/㎡大关!宝安新房价格创新低,23个新盘扎堆抢客!

    跌破4万/㎡大关!宝安新房价格创新低,23个新盘扎堆抢客!

    深圳买房计划
    2026-05-13 20:46:51
    日本真急眼了!刚到上海 宇树就放王炸,日网友:这本该是我们的

    日本真急眼了!刚到上海 宇树就放王炸,日网友:这本该是我们的

    普览
    2026-05-14 06:22:23
    U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

    U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

    我爱英超
    2026-05-14 07:01:39
    伊朗给全球上了一课,世界军事排名,将更新!

    伊朗给全球上了一课,世界军事排名,将更新!

    深度报
    2026-04-30 22:47:56
    孙铭徽时隔93天复出:3中0献0+3+2+2 无得分仍是晋级功臣

    孙铭徽时隔93天复出:3中0献0+3+2+2 无得分仍是晋级功臣

    醉卧浮生
    2026-05-13 21:36:55
    大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

    大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

    凡知
    2026-05-13 12:49:01
    瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

    瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

    运动健身号
    2026-05-13 07:20:06
    黄圣依离婚真选对了,杨子妈妈太会演戏,对杨子新女友满脸宠溺

    黄圣依离婚真选对了,杨子妈妈太会演戏,对杨子新女友满脸宠溺

    观鱼听雨
    2026-05-13 23:19:31
    黄金一夜惊魂140美元!发生了什么?

    黄金一夜惊魂140美元!发生了什么?

    口袋贵金属官方
    2026-05-13 17:41:32
    深度长文:按照进化论,植物为什么不进化得很难吃以防被吃?

    深度长文:按照进化论,植物为什么不进化得很难吃以防被吃?

    宇宙时空
    2026-05-11 20:15:04
    宇树发布GD01载人变形机甲 定价390万元起

    宇树发布GD01载人变形机甲 定价390万元起

    财联社
    2026-05-12 12:27:07
    2026-05-14 08:16:49
    Ai学习的老章 incentive-icons
    Ai学习的老章
    Ai学习的老章
    3400文章数 11150关注度
    往期回顾 全部

    科技要闻

    阿里年营收首破万亿,AI终于不再是画大饼

    头条要闻

    中东战火烧痛印度 莫迪六天访五国要外交“救国”

    头条要闻

    中东战火烧痛印度 莫迪六天访五国要外交“救国”

    体育要闻

    14年半,74万,何冰娇没选那条更安稳的路

    娱乐要闻

    白鹿掉20万粉,网友为李晨鸣不平

    财经要闻

    美国总统特朗普抵达北京

    汽车要闻

    C级纯电轿跑 吉利银河"TT"申报图来了

    态度原创

    艺术
    房产
    数码
    本地
    公开课

    艺术要闻

    这才是真正的“史上最强毕业证”,书法堪比字帖!

    房产要闻

    卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

    数码要闻

    联想上架“YOGA Air 14 Ultra”笔记本,提供FIFA世界杯限定版本

    本地新闻

    用苏绣的方式,打开江西婺源

    公开课

    李玫瑾:为什么性格比能力更重要?

    无障碍浏览 进入关怀版