我用数据科学预测爱情，结果模型先崩溃了|维度

我用数据科学预测爱情，结果模型先崩溃了

2026-04-14 12:08:25　来源: 野生运营

北京举报

分享至

87对荧幕情侣，14个特征维度，0个能用的预测公式。一位数据科学家试图用线性回归破解"化学反应"，最终收获的只有一堆无法收敛的变量和对自己专业的怀疑。

一、为什么选电视剧情侣当数据集

Caroline Barra 在动笔前就卡住了第一道关卡：她没有 Hinge 或 Match.com 的后台权限。真实世界的恋爱数据被锁在约会软件的保险库里，而"成功恋爱"的定义本身就像一团浆糊——是三个月没分手？还是走进婚姻？

她换了个思路。我们 collectively 花了数千小时盯着屏幕，为 Ross 和 Rachel 的分合揪心，为 Jim 和 Pam 的慢热鼓掌。这些关系有明确的起点、终点，以及数百万观众投票认证的"结局满意度"。

TV Tropes、IMDb、Reddit 讨论帖、编剧访谈——这些公开素材构成了她的原始数据库。87对情侣，从《老友记》到《我们这一天》，每对都被拆解成可量化的字段。

问题从这里才开始显现。

二、"化学反应"怎么变成 float 值

Caroline 列了14个候选特征：相识场景、年龄差、职业重叠度、共同朋友数量、冲突频率、表白时机、外部阻碍强度……看起来都很合理，直到她开始标注数据。

《傲慢与偏见》里 Darcy 第一次求婚被拒，算"冲突频率高"还是"表白时机错"？《疯狂前女友》的 Rebecca 和 Josh，观众知道他们不合适，但角色本人沉迷了四季——这标签该按主观感受打，还是按剧情走向打？

她尝试引入"观众评分"作为代理变量，发现 IMDB 评分和关系持久度呈负相关：观众最爱看的往往是虐恋，而稳定关系被嫌"无聊"。换句话说，数据在鼓励她预测悲剧。

更麻烦的是时间维度。有些情侣第一季甜蜜，第五季崩盘；有些慢热到第三季才牵手。该用哪个时间切片做标签？滑动窗口？还是全剧终局？每个选择都引入新的偏差。

三、模型输出的荒谬结论

线性回归跑出来了。R² 低得可怜，但系数解读却意外地"像那么回事"：共同朋友数量呈正相关，年龄差呈负相关，外部阻碍在中等强度时最促进感情——压力太小没故事，太大直接压垮。

Caroline 把模型套到几对新剧情侣上验证。预测《心跳源计划》的两位主角"高兼容"，结果第二季编剧让他们因为"职业规划分歧"分手——这个变量根本没进她的特征列表。

《性教育》的 Otis 和 Maeve 被模型判定"低匹配"，但观众追了三季就想看他们在一起。她检查特征发现，两人的"沟通频率"标注为低（确实很少好好说话），但剧情魅力恰恰来自那种笨拙的试探。

她漏掉了"叙事张力"这个维度，而它对观众投入度的解释力可能超过所有客观指标。

四、数据科学教不了的

这次实验最干净的产出，是一份"无法量化"的清单：时机感、身体语言的微差、共同经历创伤后的修复能力、对彼此脆弱面的接纳节奏。这些在编剧室里被反复调试的元素，在数据表里是空白列。

Caroline 在复盘里写：「客户流失预测可以靠点击流和付费行为，因为"不续费"是个硬事件。但"相爱"没有等价物。你可以测量约会频率、回复速度、礼物支出，然后发现这些指标和关系质量的相关性弱得可笑。」

她最后把项目代码开源了，附带一份长长的 LIMITATIONS 文档。GitHub 上有人 fork 去跑自己的剧集库，有人在 issue 区争论《绝命毒师》的 Walt 和 Skyler 该不该算"情侣样本"。

没有人在复现她的模型——大家都在往特征工程里加自己的私货：有人试过多模态分析（把对视镜头时长算进去），有人爬了 AO3 的同人标签做情感极性。项目变成了一个小型众包实验，关于"什么东西值得被测量"的持续辩论。

Caroline 现在回到广告点击预测的老本行。她说那里的噪声至少不会半夜给她发消息，问她"你到底爱不爱我"。

如果你手上有 500 对真实情侣的纵向追踪数据，你会把"睡前是否各自刷手机"这个变量放进去吗？还是承认有些黑暗里发生的事，本来就不该被照亮？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

我用数据科学预测爱情，结果模型先崩溃了

一、为什么选电视剧情侣当数据集

二、"化学反应"怎么变成 float 值

三、模型输出的荒谬结论

四、数据科学教不了的

DeepSeek V4发布！黄仁勋预言的"灾难"降临

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

2万海员在霍尔木兹海峡成"活靶子":或随时被炸成灰烬

那一刻开始，两支球队的命运悄然改变了

《我们的爸爸2》第一季完美爸爸翻车了

90%订单消失，中东旺季没了

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

OPPO手表6月推送新功能：身心状态提醒、日照时长监测一应俱全

学校管理：“管”出规范，“理”出活力

云游中国｜逛世界风筝都 留学生探秘中国传统文化

自然肌理 温润美学

2026款乐道L90亮相北京车展乐道L80正式官宣

云游中国｜逛世界风筝都留学生探秘中国传统文化

自然肌理温润美学