作者手记｜词海浮沉，结构之间|语料|词表|维度

作者手记｜词海浮沉，结构之间

分享至

陈茁

词海浮沉，结构之间

作者 |陈茁

作者单位 |南京大学社会学院

原文 |

论文《社会结构的文本大数据测量——以中国社会职业地位变迁为例(1940—2015)》有幸发表于《社会学研究》2025年第2期。衷心感谢导师、匿名评审专家、编辑部和众多师友的帮助和启发。正文如果是穿“正装”，手记则可以摆“素颜”。感谢编辑部提供撰写手记的机会，允许我说点题外话，交代那些学术语言里不曾展现的思考，犹疑、执念、失败。

我开始入门社会计算研究方法是从文本分析开始的。词向量、情感分析、主题挖掘。初入计算法门的我拿着这文本分析的三板斧做了很多尝试：影视电影梗概、马克思恩格斯全集、耽美小说、以及微博知乎等关于各种话题的讨论。由于三板斧太通用了，通用到什么语料都可以用它们来比划比划，时间长了难免产生一些单调重复的感觉，隐约总感觉少了些研究问题上的“切问”。举例来说，词向量的常规用法，是以一个词为中心，寻找与其语义最接近的邻居，比如询问与“科学家”最相近的词，可能会得到“物理学家”或“专家”。这种方法往往用于通过数据驱动启发性地测量词语的具体含义，但常常产生大量无意义的相似词，难以更深入地解释具体的学术问题。

对词向量分析方法认识的转折来源于我的同门马文跟我分享的一篇研究，Kozlowski等人在ASR上发表的文化几何学（The geometry of culture）。由于我们一起合作完成了一些文本分析的前期成果，当见到Kozlowski等人将各种运动类型投射到Poor-Rich的半球状的语义之轴时，都深感惊艳并印象深刻。组会上，导师陈云松教授一针见血的指出用文本大数据测量社会结构的巨大潜力，带着我们兴奋的讨论了很多个可行的方向，从职业、阶层、性别到区域文化差异，每一个都是有趣的文化测量切口，引燃了我们脑中无数尚未成形的设想。

让我心生憧憬兴致勃勃的开展这项研究的动力，还有方法和数据两个方面对我的触动。首先是词向量的应用方法。不是去问谁和“科学家”最接近，而是去问，科学家更靠近“富有”还是“贫穷”？更靠近“权势”还是更靠近“屈从”？这依然是基于词向量的距离计算，但词与词之间的距离被嵌入在研究者所关心的财富或权力高低的社会语义坐标中，被赋予了方向性和价值判断。把特定的分析对象投射在特定的维度坐标轴中，是一种理论先行的思路，研究者也不再是语义空间的旁观者，而是围绕研究问题制定游戏规则的建构者。这种思维方式的巧妙转变恰恰是我文本分析的长期困惑下想要获得的抓手，我仿佛可以用对象+维度的坐标参照系，去回应我长期想追寻的研究问题上的“切问”。

其二是研究数据。好的文本语料库也是我长期以来颇为头疼的难题。自媒体文本最好收集，但内容琐碎且时间回溯不足；新闻报刊获取容易且时间可追溯性较长，但反映官方或媒体话语，并不一定代表普遍观念；书籍数据时间长且代表普遍观念，但大规模长时段的数字化书籍非常难以收集。谷歌图书的N-gram数据曾被我视作“只能用来做词频统计”的资源，但斯坦福大学的“HistWords历史文本词嵌入项目”又刷新了我的认知：仅仅利用5-gram的词组数据，也足够搭建起词语之间庞大的语义关系网络，捕捉词语之间的语义联系。这意味着利用谷歌图书中文图书5-gram这套略显碎片但具有超大体量和时间跨度的词组数据，也许能拼出中国百年来文化观念的长河。

我心中升起一种朦胧却强烈的愿望，想好好完成这个庞大的研究工程。这种感觉最神奇之处在于，曾经熟悉的数据和方法，仿佛换了一件马甲重新站在你面前，油然产生一种犹抱琵琶半遮面的新鲜感。福柯的话语理论在我脑海中不断回响：话语不仅是语言的集合，更是知识、权力与社会结构的交织之所。凭借语义关系之间的向量计算，也许可以去实证地接近福柯所说的“话语秩序”。过去我们总是试图通过问卷、访谈了解社会，现在，是否可以通过词与词之间的向量关系，从文本中“读出”那些潜藏的结构性认知？

数据下载和模型训练的过程并不顺利。我把三块10T的硬盘外接在服务器上，以处理每次清洗完又重新写入的TB级大数据。即便使用了256G内存和高性能并行处理器，面对庞大的5-gram语料和高频数据密度，每一步都像在给模型喂“大象”——必须小心翼翼地切块、喂食、迭代，并依赖多核并行才能勉强消化。还有突如其来的停电、服务器无预警重启、内存计算过载导致任务崩溃……十几个模型像接力赛一样不间断运行在电脑上，持续了三个多月，像是一场漫长的拉锯战。

模型训练的过程虽长，但是步骤是明晰且可控的。在整个研究过程中，最让我反复迟疑、不断推翻又重新建立的，是在操作化职业地位的过程中，对分析对象和分析维度两大词表的选择。选得过少，测量不稳健；选得过多，反而引入了噪音。首先是职业对象的选词，大量正式职业名称在语料中几乎未曾出现，取而代之的是各种非正式、口语化的表达。为了尽可能不遗漏，我最终选择了笨拙但有效的方式：将所有模型中出现的所有四万多个不重复词语逐条筛查，人工判断是否为职业名称，并对部分相似的称呼进行合并。维度词表的构建则更为棘手。代表财富、权力等维度资源高低的多为语义边界模糊的形容词。以“富裕”为例，除了“富有”“殷实”这样的直接表达，还有“体面”“讲究”等更为间接的表述。一开始，我依赖近反义词词典和模型的词表资源，为每个维度挑选了几十到上百个词汇，试图通过数量来提高模型的稳健性。但分析结果却显示，词过多，模型反而与真实数据的相关性下降。这让我意识到，词表的关键并不在多，而在准，词语一旦带入微弱的歧义或语义漂移，可能对测量结果产生不可预期的偏移。

我对如何选词来对社会地位进行操作化做了非常多的尝试。但无论我再怎么尝试，书籍中的职业地位得分和真实的职业地位得分的相关性都无法进一步突破0.8的上限。正如外审专家所说，“既可以说两者相当一致，也可以说两者存在难以忽视的差异。”我反思过很多可能的原因：文化数据的测量策略，只能实现对一类职业地位的模糊测量，无法区分同一职业称呼在不同部门、不同级别的差异；测量结果反映的是书籍中的话语结构和职业地位，在书籍中的观念可能与真实社会存在一定张力；书籍测量的四维度地位的均值，其测量意涵也跟调查数据的测量对象不甚一致……尽管曾经PNAS和ASR类似研究文章得到的有效性也都在这个范围内，但指标操作化的效度问题还是让有些完美主义倾向的我颇感纠结，研究甚至一度陷入停滞。我不断怀疑，到底能不能用词语之间的相似度，去度量社会结构？到底什么是测量的标准，达到多少方法才算是有意义的？

导师陈云松教授给了我极大的点拨：从话语结构到社会结构的逻辑里有一个十分关键的步骤：书籍中词与词之间的关系实际上反映的是人们关于社会结构的主观认知，而从主观认知结构到客观社会结构的测量，是一种间接的折射。间接折射虽然不如直接调查那么精准，却可以穿越历史，在没有社会调查或者调查问卷不涉及相关问题时，为社会结构的测量提供极为重要的补充参照。也正是在这一点上，我开始走出怀疑与内耗以更辩证的方式看待测量本身，既不盲目自信，也不轻易否定，而是明确方法的定位、优势和局限。当然，陈老师对这篇文章的帮助远不止于此，从选题立意到结构谋划，从文本措辞到图表配色，他都悉心指导，毫无保留。他是这篇文章的幕后英雄。

这篇文章的形成还离不开众多师友的帮助和指导。文章曾在北大社会研究中心“量化社会科学工作坊”报告过，得到了谢宇老师、董浩老师和一众师友的指导和鼓励，这也是这篇文章快速成稿的一大动力。初稿曾与胡安宁老师、田丰老师、李雪老师以及各位师兄弟妹们交流和讨论，获得非常多有益的建议。还有两位匿审专家，非常专业、严谨又包容地给出建设性意见，为这篇文章的方法、逻辑和论述，增色良多。同时，衷心感谢编辑刘保中老师和社研编辑部从投稿到发表期间事无巨细提供的所有指导和帮助。

社会结构不裸露于表层，它藏匿于我们每日使用的语言、集体共享的观念、沉积于历史的文本之中。如果语言有记忆，文本就能说出历史，若语义可量化，社会就可以被描述。回到最初的问题：我们究竟能否通过词语之间的语义距离，去度量社会结构？这个问题，我曾无数次地怀疑、推翻、重建，也很多次向师友请益、接受批评。现在我的答案是：未必精准，但一定很有意义。文本中的词语关系、社会观念和社会结构之间，有张力，有缝隙，但更重要的是它们在一起产生的神奇脉动。它接纳模糊与主观，却又蕴含着稳定的秩序与可证性。浮沉词海之间，社会结构隐现其形，文章多有不足，敬请各位师友同仁多多批评指正。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.