网易首页 > 网易号 > 正文 申请入驻

R-sq越高代表模型拟合越好?

0
分享至

在统计建模中,究竟R-sq应该取多大? 我们经常听到这个疑问。以前,我们分享过如何解释R-Sq,我们还纠正了一个统计上的误区,即较低的R-sq不一定差,较高的R-sq不一定好。显然,“R-sq应该多高”的答案就是:视情况而定。

盲目追求高R-sq的模型很容易掉入过度拟合的陷阱,这一点在大数据建模中经常发现。

什么是好的模型?

我们在建模的时候最不愿意看到两种情况:过度拟合和欠拟合。使用与拟合模型相同的数据来评估模型,经常会导致过度拟合,如下图:

而这种过度拟合的模型如果用来预测的话,效果往往不好。

那么什么才算一个好的模型呢?一个好的模型需要在高方差(过度拟合)和高偏差(欠拟合)之间找到一种权衡。

上图就是由于模型太简单导致存在高的偏差。

上图就是由于模型过度拟合导致存在高的方差。

过度拟合与欠拟合之间的权衡

那么如何去找到“高偏差”与“高方差”之间的权衡呢?这就需要用到“验证”法了。

大数据建模把数据分为两大类:训练集和测试集。训练集用来创建模型,而测试集来评估模型的性能,这样我们就可以来权衡过度拟合和欠拟合的模型。

举个例子,对于同一组数据我们可以下面三个不同的模型,看起来立方模型是最好的。

但当我们常用验证法,从下图中我们可知,用训练集来建模时,模型越复杂模型误差确实越小,但再来看看测试集你会发现当模型复杂到一定程度,它的误差会随着模型复杂度的增加而增大。也就是说,太简单和太复杂的模型都不能很好的用来预测。看来找到这个权衡点很重要,这是如何做到的呢?这就要来说说所谓的“验证”法了。

三种验证方法

在Minitab 21版本的回归(拟合回归模型、拟合二值Logistic模型、拟合Poisson模型)和预测分析模块中包含三种用于验证的方法:

对这三种验证方法做一个简单介绍:

1. 留一验证法

这种方法正如其名,留一留一,就是留下一行yi,再用其他所有数据来建模,得到模型后再把留下来这一行代入得到的模型就会得到对应的拟合者,其过程如下所示:

接下来,我们计算预测的残差平方和(Predicted Residual Sum of Squares)

有了PRESS就可以来计算R-sq(预测)了,到这里是不是很熟悉了。

2. 测试集验证法

随机保留一定比例(Minitab 21默认保留30%)的数据(测试集),用剩余的数据来拟合模型(训练集)。

3. K折交叉验证法

将数据拆分个K个子集,以其中一份为测试数据,其它K-1份用于训练数据来拟合模型。使用测试数据计算误差,重复k次,每次忽略一份,基于测试数据误差统计汇总信息选择模型。

小结

当你询问R-sq应该取多大时,可能是因为你想确定当前模型是否能够满足要求。我希望你有更好的方法来解决这这个问题而不是只通过R-sq,尤其当你的数据量和数据维度比较大的时候。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
文明社会的六大特征

文明社会的六大特征

尚曦读史
2024-06-01 21:12:18
跌落神坛的4个品牌,曾红极一时,现仍有千万人使用

跌落神坛的4个品牌,曾红极一时,现仍有千万人使用

探秘历史
2024-06-02 12:35:02
钱到账了!工龄30年,个人账户81213元,河南某职工退休金到账

钱到账了!工龄30年,个人账户81213元,河南某职工退休金到账

双色球的方向舵
2024-06-02 06:31:35
穆里尼奥点兵,希望引进3人:1200万买迪巴拉,挖C罗队友

穆里尼奥点兵,希望引进3人:1200万买迪巴拉,挖C罗队友

叶青足球世界
2024-06-03 10:28:37
7级大风+小冰雹!昌平发布雷电黄色预警

7级大风+小冰雹!昌平发布雷电黄色预警

北京昌平
2024-06-03 13:54:28
姚明观战!中国女篮逆转澳大利亚获首胜 杨舒予23+6三分爆发

姚明观战!中国女篮逆转澳大利亚获首胜 杨舒予23+6三分爆发

醉卧浮生
2024-06-02 21:19:12
伊万深感欣慰!面对央视,国足大将很敢说,球迷:战泰国,他首发

伊万深感欣慰!面对央视,国足大将很敢说,球迷:战泰国,他首发

话体坛
2024-06-03 02:34:24
近2亿独生子女的困境,已经来临

近2亿独生子女的困境,已经来临

深度知局
2024-05-29 19:01:27
广州一商场内攀岩项目发生坠落事故,商场:孩子已送医治疗,项目暂停营业

广州一商场内攀岩项目发生坠落事故,商场:孩子已送医治疗,项目暂停营业

极目新闻
2024-06-02 21:54:31
《庆余年2》大结局范闲赌赢了!他根本不知,叶流云不杀他的真相

《庆余年2》大结局范闲赌赢了!他根本不知,叶流云不杀他的真相

凉子聊剧
2024-06-02 21:07:53
把跌停进行到底!10只连续跌停一个月的股票,又开启6月连续跌停

把跌停进行到底!10只连续跌停一个月的股票,又开启6月连续跌停

惜别的海岸
2024-06-03 11:11:16
老板都是怎么把自己生意搞黄的?网友:一句咸了直接倒闭

老板都是怎么把自己生意搞黄的?网友:一句咸了直接倒闭

兰妮搞笑分享
2024-06-03 14:46:47
6.3午评|扎心!又跳水了!

6.3午评|扎心!又跳水了!

龙行天下虎
2024-06-03 11:38:20
中国五级政府体制规模庞大,机构数量及人员规模详解

中国五级政府体制规模庞大,机构数量及人员规模详解

窝在家里做文化
2024-05-27 10:32:28
俄防长:过去五个月,俄军已夺占880平方公里土地

俄防长:过去五个月,俄军已夺占880平方公里土地

观察者网
2024-06-01 10:43:06
俄罗斯对我国开放远东,表面上看是中国赚了,实际却是一石三鸟!

俄罗斯对我国开放远东,表面上看是中国赚了,实际却是一石三鸟!

史小纪
2024-06-03 14:59:45
福建福州市7名女干部,美丽福州、文化传承!

福建福州市7名女干部,美丽福州、文化传承!

小影的娱乐
2024-06-03 12:41:02
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

磊子讲史
2024-03-25 14:45:46
朱珠携女儿拍写真 朱珠生了一个自己吧,女儿完美继承了妈妈的美貌

朱珠携女儿拍写真 朱珠生了一个自己吧,女儿完美继承了妈妈的美貌

圈里的甜橙子
2024-06-02 16:15:53
2024-06-03 15:48:49
MinitabUG
MinitabUG
学习更多Minitab相关
271文章数 25关注度
往期回顾 全部

头条要闻

白宫:拜登明白允许乌军使用美国武器打击俄领土的后果

头条要闻

白宫:拜登明白允许乌军使用美国武器打击俄领土的后果

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

游戏
家居
教育
房产
公开课

暴雪宣布魔兽世界进入云时代!玩家表示非常爽,能用主机和手柄玩

家居要闻

静谧极简 让空间回归本质

教育要闻

我家小孩7岁能开汽车!家长发圈炫耀,该给玩心大的家长立法了!

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版