![]()
87对荧幕情侣,14个特征维度,0个能用的预测公式。一位数据科学家试图用线性回归破解"化学反应",最终收获的只有一堆无法收敛的变量和对自己专业的怀疑。
一、为什么选电视剧情侣当数据集
Caroline Barra 在动笔前就卡住了第一道关卡:她没有 Hinge 或 Match.com 的后台权限。真实世界的恋爱数据被锁在约会软件的保险库里,而"成功恋爱"的定义本身就像一团浆糊——是三个月没分手?还是走进婚姻?
她换了个思路。我们 collectively 花了数千小时盯着屏幕,为 Ross 和 Rachel 的分合揪心,为 Jim 和 Pam 的慢热鼓掌。这些关系有明确的起点、终点,以及数百万观众投票认证的"结局满意度"。
TV Tropes、IMDb、Reddit 讨论帖、编剧访谈——这些公开素材构成了她的原始数据库。87对情侣,从《老友记》到《我们这一天》,每对都被拆解成可量化的字段。
问题从这里才开始显现。
二、"化学反应"怎么变成 float 值
Caroline 列了14个候选特征:相识场景、年龄差、职业重叠度、共同朋友数量、冲突频率、表白时机、外部阻碍强度……看起来都很合理,直到她开始标注数据。
《傲慢与偏见》里 Darcy 第一次求婚被拒,算"冲突频率高"还是"表白时机错"?《疯狂前女友》的 Rebecca 和 Josh,观众知道他们不合适,但角色本人沉迷了四季——这标签该按主观感受打,还是按剧情走向打?
她尝试引入"观众评分"作为代理变量,发现 IMDB 评分和关系持久度呈负相关:观众最爱看的往往是虐恋,而稳定关系被嫌"无聊"。换句话说,数据在鼓励她预测悲剧。
更麻烦的是时间维度。有些情侣第一季甜蜜,第五季崩盘;有些慢热到第三季才牵手。该用哪个时间切片做标签?滑动窗口?还是全剧终局?每个选择都引入新的偏差。
三、模型输出的荒谬结论
线性回归跑出来了。R² 低得可怜,但系数解读却意外地"像那么回事":共同朋友数量呈正相关,年龄差呈负相关,外部阻碍在中等强度时最促进感情——压力太小没故事,太大直接压垮。
Caroline 把模型套到几对新剧情侣上验证。预测《心跳源计划》的两位主角"高兼容",结果第二季编剧让他们因为"职业规划分歧"分手——这个变量根本没进她的特征列表。
《性教育》的 Otis 和 Maeve 被模型判定"低匹配",但观众追了三季就想看他们在一起。她检查特征发现,两人的"沟通频率"标注为低(确实很少好好说话),但剧情魅力恰恰来自那种笨拙的试探。
她漏掉了"叙事张力"这个维度,而它对观众投入度的解释力可能超过所有客观指标。
四、数据科学教不了的
这次实验最干净的产出,是一份"无法量化"的清单:时机感、身体语言的微差、共同经历创伤后的修复能力、对彼此脆弱面的接纳节奏。这些在编剧室里被反复调试的元素,在数据表里是空白列。
Caroline 在复盘里写:「客户流失预测可以靠点击流和付费行为,因为"不续费"是个硬事件。但"相爱"没有等价物。你可以测量约会频率、回复速度、礼物支出,然后发现这些指标和关系质量的相关性弱得可笑。」
她最后把项目代码开源了,附带一份长长的 LIMITATIONS 文档。GitHub 上有人 fork 去跑自己的剧集库,有人在 issue 区争论《绝命毒师》的 Walt 和 Skyler 该不该算"情侣样本"。
没有人在复现她的模型——大家都在往特征工程里加自己的私货:有人试过多模态分析(把对视镜头时长算进去),有人爬了 AO3 的同人标签做情感极性。项目变成了一个小型众包实验,关于"什么东西值得被测量"的持续辩论。
Caroline 现在回到广告点击预测的老本行。她说那里的噪声至少不会半夜给她发消息,问她"你到底爱不爱我"。
如果你手上有 500 对真实情侣的纵向追踪数据,你会把"睡前是否各自刷手机"这个变量放进去吗?还是承认有些黑暗里发生的事,本来就不该被照亮?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.