网易首页 > 网易号 > 正文 申请入驻

K-Means用了50年才发现:硬分簇把20%边界数据逼成了"二

0
分享至


聚类算法有个老问题被忽视了半个世纪。K-Means把每个数据点钉死在唯一簇里,像计划经济时代的粮票分配——非红即蓝,没有中间态。但真实数据里,约20%的点天然游走在簇边界,硬分簇逼它们"选边站",信息就这么丢了。

30行代码暴露的暴力美学

Lloyd算法1957年诞生,核心就三步:随机撒种子、就近贴标签、重心再校准。代码极简,效果惊人,至今仍是工业界默认起手式。

但注意Step 2的argmin——这就是暴力的源头。它把距离矩阵压成独热向量,0.51 vs 0.49的差距被放大成1 vs 0。一个点哪怕距两个 centroid 几乎等距,也必须"宣誓效忠"其中一个。

这种非黑即白的分配,在数据有重叠、噪声或模糊边界时,会系统性地低估不确定性。

原文给出的合成数据很典型:三个高斯分布有轻微交叠。K-Means跑出来的边界是一条条直线(Voronoi 图),但真实概率过渡应该是渐变的。强迫边界点"站队",相当于用直尺量曲率。

EM算法:同一套数学,不同的世界观


K-Means其实是EM算法(期望最大化算法)的硬极限版本。把EM的软分配概率退化成0-1,把协方差矩阵锁死成单位阵,它就坍缩成K-Means。

这个"退化"过程值得细品。EM的E步算的是后验概率——"这个点有73%像A簇,27%像B簇";M步用加权平均更新参数。K-Means把权重砍成1或0,加权平均变成简单平均,计算是省了,表达能力也腰斩。

高斯混合模型(GMM)保留完整版EM。每个簇不再是一个点,而是一个带形状(协方差)的概率云。点落在云重叠区?概率自然拆分,无需强行归边。

从优化视角看,K-Means最小化的是到 centroid 的平方距离之和;GMM最大化的是对数似然。前者是几何直觉,后者是概率推断——后者能回答"这个分配有多靠谱",前者不能。

软分簇何时值回票价

计算成本上,GMM每轮要算矩阵求逆和行列式,K-Means只是向量运算。数据量过百万时,这个差距会被放大。但有三类场景,软分簇的收益覆盖成本:

第一类,簇本身有重叠。客户分群里,"高消费低频"和"低消费高频"之间真有清晰边界?硬切一刀会制造伪类别。第二类,下游任务需要置信度。推荐系统里,"60%像A、40%像B"的用户,策略可以是融合两簇特征,而非押注单一标签。第三类,数据含噪声或异常点。K-Means的硬分配会把离群点强行吞进某个簇,GMM的低概率权重天然降低其影响。


原文作者埋了个细节:K-Means的 distortion(畸变值)单调下降,但GMM的对数似然可能局部震荡。这不是bug,是软分配在探索概率空间的正常表现。硬分簇的"稳定"有时是信息损失换来的幻觉。

一个被复现了无数次的认知陷阱

很多工程师把K-Means当基线,跑完看silhouette score(轮廓系数)不错就交差。但轮廓系数本身假设硬标签,用K-Means的尺子量GMM,相当于让鱼爬树。

更隐蔽的问题是初始化。K-Means对初始 centroid 敏感,k-means++缓解但未根除。GMM同样敏感,且多了协方差矩阵初值的问题。原文代码用固定seed,生产环境得跑多次取最优,或改用贝叶斯GMM做自动模型选择。

还有个实现细节:GMM的协方差矩阵可能奇异(行列式为零),导致概率密度爆炸。工程上要加正则化项或约束协方差结构(球形、对角、全矩阵三选一),这是K-Means无需操心的脏活。

50年来,K-Means的统治地位与其说来自优越性,不如说来自"足够好且足够简单"。但数据复杂度在涨,业务对不确定性的容忍度在降,软分簇的工具链(PyTorch、JAX里的可微分GMM)也在成熟。那个非黑即白的默认值,或许该松动了。

你上次跑聚类时,有没有检查过边界点的概率分布?还是看着漂亮的 Voronoi 图,就默认分类已经"完成"了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连续7场被弃用!拿600万带薪看球,球迷:中国最成功的打工人

连续7场被弃用!拿600万带薪看球,球迷:中国最成功的打工人

弄月公子
2026-04-01 23:36:20
被网友家的9个小设计惊艳到了,不花啥钱,让家颜值高,更好住

被网友家的9个小设计惊艳到了,不花啥钱,让家颜值高,更好住

室内设计师有料儿
2026-04-01 10:32:54
一问到底 | 四问“资中小孩放鞭炮沼气燃爆”事件:违停车辆需担责?车主直播为引流?

一问到底 | 四问“资中小孩放鞭炮沼气燃爆”事件:违停车辆需担责?车主直播为引流?

上游新闻
2025-02-02 14:00:14
黄金跌价!2026年4月1日中国黄金及人民币金价最新明细

黄金跌价!2026年4月1日中国黄金及人民币金价最新明细

王二哥老搞笑
2026-04-01 12:38:39
从顶级玉女沦为阶下囚,如今她和小14岁圈外人官宣结婚?

从顶级玉女沦为阶下囚,如今她和小14岁圈外人官宣结婚?

奇怪的鲨鱼们
2026-02-19 07:32:48
老干部想扶正小情人!少女妈被馒头导演封杀!

老干部想扶正小情人!少女妈被馒头导演封杀!

八卦疯叔
2026-04-01 11:47:13
为什么宁换总理也不革命?亿万人的困局!

为什么宁换总理也不革命?亿万人的困局!

红色少女主播
2026-04-02 00:01:19
上海交大校庆宣传片踩雷 宝妈性别对比文案翻车 校方一夜删片

上海交大校庆宣传片踩雷 宝妈性别对比文案翻车 校方一夜删片

快科技
2026-04-01 07:26:09
四男子扒在行驶的宝马车外“招摇过市”?信阳交警:已接到举报,正调查处理

四男子扒在行驶的宝马车外“招摇过市”?信阳交警:已接到举报,正调查处理

极目新闻
2026-04-01 19:23:00
送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

趣知史馆
2026-03-10 20:20:03
紫光股份:公司自研光模块与已推出的800G交换机适配测试完成,测试结果符合设计指标

紫光股份:公司自研光模块与已推出的800G交换机适配测试完成,测试结果符合设计指标

每日经济新闻
2026-04-01 18:58:11
黄金价格大涨突破4700美元 国内金饰每克大涨50元 金店人流锐减 专家:短期震荡将持续

黄金价格大涨突破4700美元 国内金饰每克大涨50元 金店人流锐减 专家:短期震荡将持续

红星新闻
2026-04-01 19:01:42
AI妓馆爆了,成人行业彻底变天

AI妓馆爆了,成人行业彻底变天

李东阳朋友圈
2026-03-31 11:08:15
周杰伦被老婆拍小视频!蔡依林吃瓜单依纯!

周杰伦被老婆拍小视频!蔡依林吃瓜单依纯!

八卦疯叔
2026-04-01 11:47:33
伊朗用血泪换的教训:一旦中美开战,中国必须第一时间锁定这一点

伊朗用血泪换的教训:一旦中美开战,中国必须第一时间锁定这一点

Ck的蜜糖
2026-04-02 00:15:08
离婚聊天记录曝光,张婉婷伤心欲绝,宋宁峰给Q女士借三百还网贷

离婚聊天记录曝光,张婉婷伤心欲绝,宋宁峰给Q女士借三百还网贷

话娱论影
2026-04-01 15:03:01
硒含量超洋葱50倍,中老年隔天食,腿脚有力肝脏好

硒含量超洋葱50倍,中老年隔天食,腿脚有力肝脏好

吃青菜长高
2026-02-25 11:07:54
去了一趟伊朗才发现:原来在伊朗人眼里,中国人是这样的

去了一趟伊朗才发现:原来在伊朗人眼里,中国人是这样的

千秋文化
2026-03-24 21:40:40
中国可能在等,把三大主要问题解决了,再彻底解决台湾问题

中国可能在等,把三大主要问题解决了,再彻底解决台湾问题

论事的老枢
2026-03-21 17:28:10
沦为共享单车的女色虎

沦为共享单车的女色虎

深度报
2026-03-05 22:39:27
2026-04-02 03:00:49
固件更新中
固件更新中
有态度网友ytd
990文章数 5关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

小伙扫共享单车上的码亏一套房首付 一夜白头自扇巴掌

头条要闻

小伙扫共享单车上的码亏一套房首付 一夜白头自扇巴掌

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

教育
时尚
艺术
旅游
房产

教育要闻

省政府:对就业质量不好的专业,落实红黄牌提示制度

衬衫当外套,好时髦

艺术要闻

太壕了!为了一场演唱会,BIG给拉丁天后夏奇拉建5万人临时场馆

旅游要闻

瞰中国|河北徐水:春色满园 踏青赏花

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

无障碍浏览 进入关怀版