核心集与草图：大数据时代的降维艺术|算法|子集

核心集与草图：大数据时代的降维艺术

分享至

当你面对十亿条用户行为数据，却必须在几毫秒内完成聚类分析——算力不够时，算法来凑。

正方：压缩是智能的本质

核心集（Coreset）与草图（Sketch）技术，正是应对这一困境的利器。核心集从海量数据中提取一个极小的加权子集，使得在该子集上求解优化问题的结果，与在全量数据上求解几乎一致。草图则通过线性投影，将高维数据压缩到低维空间，保留关键统计特性。

谷歌研究院2023年的实验表明，在十亿级点云的k-means聚类中，使用核心集可将计算时间从数小时压缩至分钟级，而精度损失不足1%。这种"以空间换时间"的策略，本质上是将数据冗余转化为计算效率。

反方：有损压缩的边界风险

批评者指出，降维并非免费午餐。2019年Netflix推荐算法的一次故障，正是源于草图技术对长尾用户特征的过度压缩，导致小众内容推荐偏差。更深层的问题在于：当原始数据被丢弃，算法的可解释性与审计能力同步丧失。

欧盟《人工智能法案》已将"数据最小化"列为高风险AI系统的合规要件，核心集的选择过程本身是否引入偏见，成为新的监管焦点。

合题：精度与效率的动态平衡

前沿方案正在融合两者优势。自适应核心集算法根据查询需求动态调整采样粒度：对高频热点数据采用激进压缩，对稀疏长尾区域保留完整信息。MIT团队2024年提出的"可验证草图"框架，更通过密码学承诺技术，允许第三方审计压缩过程的完整性。

大数据的终极智慧，或许不在于存储一切，而在于知道什么值得保留——这正是降维艺术的精髓。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

核心集与草图：大数据时代的降维艺术

Anthropic刚拿亚马逊250亿美元，又拿谷歌400亿

房屋烧毁3年居民安置落空：原地块已被规划为商业用地

房屋烧毁3年居民安置落空：原地块已被规划为商业用地

火箭0-3触发百分百出局定律：本季加时赛9战8败

邓超最大的幸运，就是遇见孙俪

别高估英伟达，别低估DeepSeek

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

华为WATCH Buds 2开售 手表耳机二合一 3488元起

云游中国｜逛世界风筝都 留学生探秘中国传统文化

沪六合作：一片茶叶 撑起上海人的“后花园”

干细胞如何让烧烫伤皮肤"再生"？

2026款乐道L90亮相北京车展乐道L80正式官宣

华为WATCH Buds 2开售手表耳机二合一 3488元起

云游中国｜逛世界风筝都留学生探秘中国传统文化

沪六合作：一片茶叶撑起上海人的“后花园”