网易首页 > 网易号 > 正文 申请入驻

非参数估计的根基,核密度估计大陈述

0
分享至


核概率密度估计

本文分为三个部分:第一部分是直方图,讨论了如何创建它以及它的属性是什么样的。

第二部分是核密度估计,介绍了它对比直方图有哪些改进和更一般性的特点。

最后一部分是,为了从数据中抽取所有重要的特征,怎么样选择最合适,漂亮的核函数。

直方图

直方图是最简单,并且也是最常见的一种的非参数概率密度估计方法

为了构造直方图,我们需要把数据取值所覆盖的区间分成相等的小区间,可以叫做“箱子”,每次一个数据值将会掉落在一个特定的小区间中,一个“箱子”宽度的盒子就会垒在数据点的上方。当我们构造直方图的时候,需要考虑两件事情: 第一,“箱子”的宽度,第二,箱子的结束位置。

这里用的数据是1956年到1984年的飞机的机翼的跨度(完整的数据可以在Bowman & Azzalini(1997)Applied Smoothing Techniques for Data Analysis 找到)。我们只用到其中的一部分数据,也就是2, 22, 42, 62, 82, 102, 122, 142,162, 182, 202 and 222。为了在图上显示的方便我们只使用了部分的数据,否则一些点就会变得稠密看不清。数据点在x轴上用十字叉表示。

如果我们选择在0 和 0.5作为分界点 并且带宽为0.5,直方图看起来就像下面左边的图形,相对直方图的左边它的概率密度看起来是单峰形状并且滑向右边,右边的直方图选择分界点在0.25和0.75之间,并且选择了相同的“箱子”宽度,现在我们得到了一个完全不同的概率密度估计,它看起来是一个双峰模型。

我们已经用了上面的两个例子讲解了直方图的特性,他们是

  • 不平滑

  • 依赖“箱子”的结束点

  • 依赖箱子的宽度

我们可以通过使用核密度估计方法消除前面两个问题,为了去掉对“箱子”结束点的依赖,我们把需要累加到数据点上的箱子安装数据点的位置为中心对齐而不是按照“箱子”的结束点对齐。

在上面这个新的直方图中,我们把“箱子”换成宽1/2 高 1/6 (如虚线框标注的箱子),一共有12个数据点,然后把他们加在一起(以数据点为中心,重叠的部分往上累加)。

这个概率密度估计(图中实线部分)比前面提到的直方图少了很多矩形块状,因为我们抽取出了更好的结构,概率密度估计看起来是双峰的结构。

我们把它叫做盒子核密度估计。 这个密度估计仍然不是连续的因为我们用了一个不连续的核做为我们构建的基础块。如果我们使用一个平滑的核做为构建的基础块,那么我们会得到一个平滑的核密度估计,因此我们可以消除直方图问题中的第一个(不平滑问题),但不幸运的是,我们仍然不能消除对带宽(“盒子宽度”)的依赖

选择一个合适的带宽值是非常重要的,太大或者太小的值都没有多大的用处。

如果我们选择一个高斯核,带宽(标准差)为0.1(每一个高斯核曲线下方的面积为1/12,因为有12个高斯曲线,为了保证所有的概率密度曲线的面积为1),那么这个核密度估计是欠平滑的因为带宽太小的原因。看下面的图中左边图中,这有4个峰值在该密度估计中,其中一些是因为数据的问题(some of these are surely artifices of the data,不知道如何翻译)。我们可以通过增加高斯核的带宽到0.5来设法消除这些影响,我们获得了一个更平滑的单峰的估计模型。这种情况就是过平滑,因为我们选择了一个比较大的带宽,忽略了比较多的数据本身的结构特征。

那么我们怎么选择一个最优的带宽呢?一个通用的办法是使用最小化最优误差(该误差是一个最优带宽的函数)AMISE(Asymptotic Mean Integrated Squared Error)的带宽.因此最优带宽就是 argmin AMISE 也就是选择使得AMISE最小的参数作为带宽。

一般来说,AMISE 任然要依赖于隐藏在背后的真实的概率分布(显然我们得不到这个分布)。因此我们需要从观测的数据中去估计AMISE,这意味着带宽的选择是一个渐进近似的估计。这听起来好像远离了真实的最优值,但是事实证明这种特殊的带宽选择方式覆盖了几乎所有重要的特征同时保持了估计的平滑性。

在我们的数据集中,最优的带宽值设置为0.25。从最优化的平滑和密度估计中可以看出有两个峰。因为这些是飞行器机翼跨度的数据记录,这表示有一组小型轻量级的飞机的制造。这些聚类在2.5附近(大概是12米)。然而从1960年起,大型的装配了喷气式引擎的商业用途的飞机的聚类在3.5附近(33米)

核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。

(1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较 近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中 的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某 些数反之,则可以取加权平均。

与直方图比较,核密度估计的属性列表如下:

  • 平滑性

  • 不依赖核的尾部位置

  • 依赖带宽的选择

这是一个对核密度估计的入门介绍问题,当前的研究状态是,一维下的很多问题已经被解决了,下一阶段需要扩展这些思想到多维的情况,这些情况还少有研究成果这是由于多维核的方向对概率密度的估计有很大的影响(which has no counter part inone-dimensionalkernels这种情况下找不到一维概率密度相对应的核函数)作者当前正在为对维核寻找可靠的带宽选择方法。当前取得的进展是plug-in 方法可以在这里找到,但是这篇文章更多的技术性并且用到了更多的方程。

原文地址:http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/

把非参数估计的方法讲的很浅显易懂,主要是原理上的处理,对缺少先验知识的情况下,估计概率密度函数很有用,同样对高斯混合模型,有的地方可以看到,说一个分部可以通过多个高斯分布混合来拟合出来,看起来好像没有什么区别,混合高斯模型与核密度估计,都是从数据估计概率分布的情况,

但是混合高斯模型的应用场景是几乎可以判定数据是从高斯模型生成的,或者是近似高斯分布的,利用了先验知识,得到的结果可能更好一些,用于分类的场景比较多,核密度估计方法主要是用于概率密度估计,完全没有先验知识。目前的理解只能到这里,后面如果有更多的理解会继续添加新的理解。

注:来源于http://www.cnblogs.com/wt869054461/p/5935992.html。

《END》

写在后面:各位圈友,一个等待数日的好消息,是计量经济圈应圈友提议,09月04日创建了“计量经济圈的圈子”知识分享社群,如果你对计量感兴趣,并且考虑加入咱们这个计量圈子来受益彼此,那看看这篇介绍文章和操作步骤哦(戳这里)。进去之后一定要看“群公告”,不然接收不了群信息。若需要获得计量经济学视频资料,那可以(戳这里)。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰缅边境又炸了!妙瓦底倒了,更血腥的“KK园区2.0”正在崛起

泰缅边境又炸了!妙瓦底倒了,更血腥的“KK园区2.0”正在崛起

小小科普员
2026-06-25 16:06:40
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

美媒曝出重磅交易方案:湖人送出四名核心球员,报价伦纳德!

夜白侃球
2026-06-26 10:39:04
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

曹莽看世界
2026-06-25 15:37:37
价格大涨!有网友晒单:去年不到7000,今年12000了

价格大涨!有网友晒单:去年不到7000,今年12000了

南方都市报
2026-06-26 09:53:31
外交官撤离、总理辞职总统逼宫!比美还嚣张的国家,如今苦果来了

外交官撤离、总理辞职总统逼宫!比美还嚣张的国家,如今苦果来了

触摸史迹
2026-06-25 09:50:02
王永珀:想让我回国自首?除非国足进世界杯!

王永珀:想让我回国自首?除非国足进世界杯!

刘哥谈体育
2026-06-26 10:10:10
这名带着气胸引流管高考的同学有望上清华,他说考试那天比任何时候都平静

这名带着气胸引流管高考的同学有望上清华,他说考试那天比任何时候都平静

澎湃新闻
2026-06-25 21:08:28
社评:四国合伙给“台独”撑腰?门儿都没有

社评:四国合伙给“台独”撑腰?门儿都没有

环球网资讯
2026-06-26 01:06:15
世界杯32强淘汰赛:巴西vs日本 日本球员发话:不管对手是谁 目标夺冠

世界杯32强淘汰赛:巴西vs日本 日本球员发话:不管对手是谁 目标夺冠

新英体育
2026-06-26 11:04:45
3-1!1-1!世界杯死亡之组大结局:3队携手出线 日本vs巴西

3-1!1-1!世界杯死亡之组大结局:3队携手出线 日本vs巴西

叶青足球世界
2026-06-26 09:00:18
日本瑞典1-1平局:5个事实证明结果早已注定

日本瑞典1-1平局:5个事实证明结果早已注定

赵或是个热血青年
2026-06-26 09:11:46
许世友打完对越反击战就被免职了。很多人说是伤亡太大背了锅

许世友打完对越反击战就被免职了。很多人说是伤亡太大背了锅

汪茫的创业之路
2026-06-24 14:49:35
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
污蔑中国抽走“梯子”,美媒翻车了!

污蔑中国抽走“梯子”,美媒翻车了!

环球时报国际
2026-06-26 08:02:14
C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

C罗正式宣布乔治娜是妻子!世界杯结束后办婚礼

喜欢历史的阿繁
2026-06-25 17:35:55
金价,持续下跌!工行、建行公告:即将关闭,尽快卖出或平仓

金价,持续下跌!工行、建行公告:即将关闭,尽快卖出或平仓

鲁中晨报
2026-06-25 21:55:03
华为余承东:我们的理念和特斯拉不一样,尊界S800Grand Design典藏大观面向L3+自动驾驶设计

华为余承东:我们的理念和特斯拉不一样,尊界S800Grand Design典藏大观面向L3+自动驾驶设计

金融界
2026-06-25 22:41:11
比国足出线还复杂!韩国队想晋级有多难?得看几位亚洲兄弟脸色

比国足出线还复杂!韩国队想晋级有多难?得看几位亚洲兄弟脸色

足球大腕
2026-06-25 23:55:54
超巴西独享第1!萨内处子球 德国1-2厄瓜多尔时隔12年重返淘汰赛

超巴西独享第1!萨内处子球 德国1-2厄瓜多尔时隔12年重返淘汰赛

钉钉陌上花开
2026-06-26 05:58:42
2026-06-26 12:20:49
计量经济圈
计量经济圈
经济、金融等相关问题
338文章数 155关注度
往期回顾 全部

头条要闻

德国输球"隔空"报了8年前的仇 韩国晋级希望又变小

头条要闻

德国输球"隔空"报了8年前的仇 韩国晋级希望又变小

体育要闻

三球换里德:森林狼和黄蜂谁更癫?!

娱乐要闻

刘嘉玲想放弃梁朝伟,没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

房产
教育
数码
家居
公开课

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

教育要闻

大模型高考放榜:为什么最能考试的是讯飞星火?

数码要闻

曝苹果新款Mac Studio测试768GB内存

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版