网易首页 > 网易号 > 正文 申请入驻

贝叶斯网络

0
分享至

  
贝叶斯网络

  马尔科夫链描述的是状态序列,很多时候事物之间的相互关系并不能用一条链串起来,比如研究心血管疾病和成因之间的关系便是如此错综复杂的。这个时候就要用到贝叶斯网络:每个状态只跟与之直接相连的状态有关,而跟与它间接相连的状态没直接关系。但是只要在这个有向图上,有通路连接两个状态,就说明这两个状态是有关的,可能是间接相关。状态之间弧用转移概率来表示,构成了信念网络(Belief Network)。

  贝叶斯网络的拓扑结构比马尔可夫链灵活,不受马尔科夫链的链状结构的约束,更准确的描述事件之间的相关性。马尔科夫链是贝叶斯网络的一个特例,而贝叶斯网络是马尔科夫链的推广。

  拓扑结构和状态之间的相关概率,对应结构训练和参数训练。贝叶斯网络的训练比较复杂,从理论上讲是一个NP完备问题,对于现在计算机是不可计算的,但对于某些具体应用可以进行简化并在计算机上实现。

对于贝叶斯学派,首先想到的就是后验概率公式和先验分布,认为所有的变量都是随机的,有各自的先验分布。我想贝叶斯网络是可以帮助医生进行诊断决策的,前段时间研究过的compressive tracking就是采用的朴素贝叶斯分类器,我对与贝叶斯相关内容的应用就是从此开始有所了解的。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这里讨论的就是贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络(又称贝叶斯信念网络或信念网络)。

  一个贝叶斯网络定义包括一个有向无环图(DAG)和一个条件概率表集合。DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖;条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。

  贝叶斯网络有一条极为重要的性质,就是我们断言每一个节点在其直接前驱节点的值制定后,这个节点条件独立于其所有非直接前驱前辈节点。

  这个性质很类似Markov过程。其实,贝叶斯网络可以看做是Markov链的非线性扩展。这条特性的重要意义在于明确了贝叶斯网络可以方便计算联合概率分布。一般情况先,多变量非独立联合条件概率分布有如下求取公式:

  
而在贝叶斯网络中,由于存在前述性质,任意随机变量组合的联合条件概率分布被化简成

  其中Parents表示xi的直接前驱节点的联合,概率值可以从相应条件概率表中查到。

如果没有前驱结点,就用先验概率带入。就这样能够计算出所有的相关或者间接相关的变量的联合概率密度,知道了联合概率密度,对于边缘概率密度的计算就非常简单了,通过这个能够形成一些有意义的推理,等效于生成了知识。

  贝叶斯网络比朴素贝叶斯更复杂,而想构造和训练出一个好的贝叶斯网络更是异常艰难。但是贝叶斯网络是模拟人的认知思维推理模式,用一组条件概率函数以及有向无环图对不确定性的因果推理关系建模,因此其具有更高的实用价值。

  贝叶斯网络在词分类中的应用

  使用贝叶斯网络建立一个文章、关键词和概念之间的联系。
2002年google工程师们利用贝叶斯网络建立了文章、关键词和概念之间的联系,将上百万关键词聚合成若干概念的聚类,称之为phil cluster。最早的应用是广告的拓展匹配。

实际上我觉得这个应用他讲的并不清楚,我是理解不好。

  不如借用《算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)》中的例子说明一下。

  SNS社区中不真实账号的检测

在那个朴素贝叶斯分类器的解决方案中,我做了如下假设: i、真实账号比非真实账号平均具有更大的日志密度、更大的好友密度以及更多的使用真实头像。 ii、日志密度、好友密度和是否使用真实头像在账号真实性给定的条件下是独立的。 但是,上述第二条假设很可能并不成立。一般来说,好友密度除了与账号是否真实有关,还与是否有真实头像有关,因为真实的头像会吸引更多人加其为好友。因此,我们为了获取更准确的分类,可以将假设修改如下: i、真实账号比非真实账号平均具有更大的日志密度、更大的好友密度以及更多的使用真实头像。 ii、日志密度与好友密度、日志密度与是否使用真实头像在账号真实性给定的条件下是独立的。 iii、使用真实头像的用户比使用非真实头像的用户平均有更大的好友密度。 上述假设更接近实际情况,但问题随之也来了,由于特征属性间存在依赖关系,使得朴素贝叶斯分类不适用了。既然这样,我去寻找另外的解决方案。 下图表示特征属性之间的关联: 上图是一个有向无环图,其中每个节点代表一个随机变量,而弧则表示两个随机变量之间的联系,表示指向结点影响被指向结点。不过仅有这个图的话,只能定性给出随机变量间的关系,如果要定量,还需要一些数据,这些数据就是每个节点对其直接前驱节点的条件概率,而没有前驱节点的节点则使用先验概率表示。 例如,通过对训练数据集的统计,得到下表(R表示账号真实性,H表示头像真实性): 纵向表头表示条件变量,横向表头表示随机变量。上表为真实账号和非真实账号的概率,而下表为头像真实性对于账号真实性的概率。这两张表分别为“账号是否真实”和“头像是否真实”的条件概率表。有了这些数据,不但能顺向推断,还能通过贝叶斯定理进行逆向推断。例如,现随机抽取一个账户,已知其头像为假,求其账号也为假的概率: 也就是说,在仅知道头像为假的情况下,有大约35.7%的概率此账户也为假。如果觉得阅读上述推导有困难,请复习概率论中的条件概率、贝叶斯定理及全概率公式。如果给出所有节点的条件概率表,则可以在观察值不完备的情况下对任意随机变量进行统计推断。上述方法就是使用了贝叶斯网络。

  SNS社区中不真实账号检测模型中存在四个随机变量:账号真实性R,头像真实性H,日志密度L,好友密度F。其中H,L,F是可以观察到的值,而我们最关心的R是无法直接观察的。这个问题就划归为通过H,L,F的观察值对R进行概率推理。推理过程可以如下表示:

  使用观察值实例化H,L和F,把随机值赋给R。

  计算 P(R|H,L,F)=P(H|R)P(L|R)P(F|R,H)。其中相应概率值可以查条件概率表。

  由于上述例子只有一个未知随机变量,所以不用迭代。更一般的,使用贝叶斯网络进行推理的步骤可如下描述:

  对所有可观察随机变量节点用观察值实例化;对不可观察节点实例化为随机值。

  P(y|wi)=αP(y|Parents(y))∏jP(sj|Parents(sj))

  对DAG进行遍历,对每一个不可观察节点y,计算,其中 wi表示除 y以外的其它所有节点, α为正规化因子, sj表示 y的第 j个子节点。

  使用第三步计算出的各个y作为未知节点的新值进行实例化,重复第二步,直到结果充分收敛。

  将收敛结果作为推断值。
以上只是贝叶斯网络推理的算法之一,另外还有其它算法,这里不再详述。

  贝叶斯网络的构造、学习训练

  构造与训练贝叶斯网络分为以下两步:
1、确定随机变量间的拓扑关系,形成DAG。这一步通常需要领域专家完成,而想要建立一个好的拓扑结构,通常需要不断迭代和改进才可以,需要用到机器学习得到。
2、训练贝叶斯网络。这一步也就是要完成条件概率表的构造,如果每个随机变量的值都是可以直接观察的,像我们上面的例子,那么这一步的训练是直观的,方法类似于朴素贝叶斯分类。但是通常贝叶斯网络的中存在隐藏变量节点,那么训练方法就是比较复杂,例如使用梯度下降法。

  优化的贝叶斯网络结构要保证它产生的序列从头到尾的可能性最大,如果用概率做度量,就是后验概率最大。当然可以搜索所有可能的路径,但是会是一个NP-Hard问题。一般采用贪心算法,在每一步时沿着箭头方向寻找有限步,贪心容易陷入局部最优。为防止局部最优,采用蒙特卡洛方法,用许多随机数在贝叶斯网络中试试,看看是否陷入局部最优,但计算量较大。最近,新的方法是利用互信息,只保留互信息较大的节点的直接连接,然后再对简化的网络进行完备的搜索,找到全局优化的结构。

  而节点之间弧的权重确定可以通过最大后验估计来得到,使用EM(expectation-maximization process)过程来解决。

  一般的,参数和结构的交替训练的,先优化结构,再优化参数,然后再优化结构...直至得到收敛或者误差足够小的模型。

  —THE END—

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场3:1让申花喜获大发现,昔日废柴已成中场猛人,伊万没看错人

一场3:1让申花喜获大发现,昔日废柴已成中场猛人,伊万没看错人

零度眼看球
2026-04-19 07:03:44
建议中老年人:若不差钱,少吃馒头和米饭,多吃4种主食,身体棒

建议中老年人:若不差钱,少吃馒头和米饭,多吃4种主食,身体棒

马蹄烫嘴说美食
2026-04-20 03:33:58
亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

新浪财经
2026-04-17 15:19:51
重大转折!巴萨叫停2600万买断,拉什福德今夏有望登陆阿森纳?

重大转折!巴萨叫停2600万买断,拉什福德今夏有望登陆阿森纳?

夜白侃球
2026-04-19 19:48:23
中国股市:为何股票封板了,但资金却显示净流出?不懂你就输了

中国股市:为何股票封板了,但资金却显示净流出?不懂你就输了

股经纵横谈
2026-03-16 20:17:12
蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

洲洲影视娱评
2026-04-14 13:58:26
狂胜52分!2比0领先,三连冠还差1场!

狂胜52分!2比0领先,三连冠还差1场!

左右为篮
2026-04-19 21:46:48
平安,可能是王石最后的体面了

平安,可能是王石最后的体面了

波哥看楼市
2026-04-18 21:58:19
“中年返贫三件套”,正在吞掉一代人的存款

“中年返贫三件套”,正在吞掉一代人的存款

十点读书
2026-04-18 18:36:15
净利润超45亿元!又一光伏龙头业绩出炉

净利润超45亿元!又一光伏龙头业绩出炉

新浪财经
2026-04-19 21:14:10
英国小妹歧视中国人后续:身份曝光社死,学校回应下场大快人心

英国小妹歧视中国人后续:身份曝光社死,学校回应下场大快人心

王誙自驾
2026-04-19 15:07:40
崩了!澳洲物价要疯涨 通胀要破5%!澳洲油价开始暴跌!

崩了!澳洲物价要疯涨 通胀要破5%!澳洲油价开始暴跌!

澳洲财经见闻
2026-04-20 04:32:06
英超疯狂一夜:绝杀频现,保级队惊天逆转

英超疯狂一夜:绝杀频现,保级队惊天逆转

余憁搞笑段子
2026-04-20 00:20:16
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
1955 年饶漱石遭开除党籍,历多年关押服刑,晚年于农场度余生

1955 年饶漱石遭开除党籍,历多年关押服刑,晚年于农场度余生

唠叨说历史
2026-03-24 11:17:11
逃亡沙特不久,马步芳取亲侄女为妻,蒋介石:他让我颜面尽失

逃亡沙特不久,马步芳取亲侄女为妻,蒋介石:他让我颜面尽失

史笔似尘钩
2026-04-19 19:48:56
男女从暧昧到越界,大多是从这4个互动,渐渐发展起来的

男女从暧昧到越界,大多是从这4个互动,渐渐发展起来的

叶飞飞情感屋
2026-04-19 22:13:44
巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

巴基斯坦空军进驻沙特,真实目的曝光,不是防伊朗,是怕有人搞鬼

爱吃醋的猫咪
2026-04-15 21:20:06
要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

懂球帝
2026-04-17 14:04:19
强闯台海后,高市再惹大祸,中朝联合亮剑,解放军现身日本家门口

强闯台海后,高市再惹大祸,中朝联合亮剑,解放军现身日本家门口

离开地球a
2026-04-20 00:15:57
2026-04-20 06:07:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5482文章数 64624关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

特朗普:美舰武力拦截伊朗货船 在机舱炸出一个洞

头条要闻

特朗普:美舰武力拦截伊朗货船 在机舱炸出一个洞

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

旅游
房产
手机
本地
公开课

旅游要闻

北京投入2.2亿元建成和田“三馆一院”

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版