作者手记 | 深入政策文本的尝试与测量政策内容再生产|向量|实证

分享至

深入政策文本的尝试与测量政策内容再生产

刘河庆 | 文

图片来源：towardsdatascience.com

基于我的博士论文核心章节的《政策内容再生产的影响机制——基于涉农政策文本的研究》发表于《社会学研究》2021年第1期，感谢编辑部提供平台让我们有机会继续与大家分享和交流文章写作“后台”的故事以及限于篇幅未能在原文中呈现的其他内容。

一、从一个研究困惑开始

本文的研究缘起始于2014年中国劳动力动态调查（CLDS），在调查设计中，梁玉成教授提出，CLDS在村庄、家庭以及个体层次的结构性问卷调查，只能获得“我们知道我想知道”的内容，而无法获得“我们应该知道的、但是我们却不知道”的内容。基于这一观点，CLDS学习人类学多点民族志的方法，设计和收集了对全国农村具有抽样代表性的村民访谈文本。我们和郝令昕教授一起设计了采用半结构的方法来收集这一文本数据的方案，一方面对相关主题有所设定和侧重，另一方面也给访谈员以及被访者足够的自由度，以村民小组座谈的形式收集村民们对于农村经济变迁、农村基础设施、生活消费收入、家庭与地方文化等问题的看法。

考虑到我的本科是人类学，两位教授建议我负责这个访谈文本的数据收集的初始设计工作。两位教授建议我首先在东部地区、中部地区以及西部地区各挑几个省份，整理各省近些年发布的主要农村政策，以更好地差异化设计各省的半结构访谈大纲。当时还没有学习网络爬虫技术，我们在各政府网站手动搜索关于农村的主要政策文本，在政策文本收集和整理过程中，我第一次非常直观地感觉到各地政策文本的差异，这种差异体现在发布时间和发布速度方面，同样也体现在政策文本的具体内容中。

这带给我最初的研究困惑，与其说是一个困惑，不如说是一连串困惑。首先，政策文本在各级政府间传递的整体图景是什么样的；其次，为什么各地面对同样的国家政策原型，在应对模式上会有较大的差异，背后的影响机制是什么；再次，各地是否存在横向的政策学习，各地农村政策内容的差异会给农村发展带来怎样的影响；最后，如果想实证考察“文件传递链”的基本模式和影响机制，基于质性阅读的、相对主观的不同层级政府间政策文本的差异该如何相对准确地测量。这些问题，成为我博士论文的起点。

二、实证的目的是发现（Discovery）

许成钢老师在最近的访谈中提到理论与实证的关系，他强调实证在科学研究中非常重要，但同时实证必须要由理论来指导，才能够推动科学的发展。在博士论文的研究中，梁玉成老师一直督促我“提出新理论问题，并使用新研究方法回答”。最终我的研究尽力向提出新问题、使用新数据和新方法对齐，研究过程中，理论对话点、数据和方法三者间的不断碰撞、调整，最终形成了自己的研究。

带着研究开始阶段最初的困惑，我重点梳理了政府间关系和政策扩散两个领域的文献，其中政府间关系文献提出了“中国特色的财政联邦制”“竞争锦标赛机制”“行政发包制”“控制权”等理论框架来解释中国国家和地方之间复杂而多变的互动关系，同时也有较多研究关注基层政府对国家政策的执行行为。相对而言，该领域的文献对非制度层面的政府行为方式和特征给予的关注要远远超过对正式制度内部运作逻辑的关注。

与政府间关系领域相比，政策扩散领域更侧重基于实证资料来分析中间政府（特别是省级政府）对各类国家政策的采纳行为，分析诸如地方特征、政策类型等要素如何影响地方政府对国家政策的采纳。但就像我们在文中提到的，政策扩散文献相对忽略了政策传递系统中“浅层”采纳和“深层”采纳的区别，即同一时间段采纳了某项上级政策的地方政府，其对政策文本的细化和更新程度可能存在较大的差异，而在传统维度下，只是充当文件“二传手”的地方政府和对国家政策原型进行较高程度细化和更新的地方政府是没有差异的，这无疑会影响政府行为测量的准确性和深入性。

从这一角度而言，政策采纳是测量政府行为的“浅层”维度，政策内容变化能更深入地测量政府行为。因此我们的研究聚焦于扩展传统政策扩散研究的维度，尝试将政策采纳后的政策内容变化的基本模式及背后的影响机制纳入研究视野，通过实证考察政策“浅层”采纳与“深层”内容变化间的影响机制差异来深化对我国正式制度运作过程的理解。

三、从政策内容垂直变异到政策内容再生产

当我将研究内容聚焦为关注地方政府采纳上级政策后的政策内容变化时，如何使用一个核心概念来准确描述这种地方政府行为成为文章推进的关键。阅读相关文献会发现，部分学者注意到政策传递过程中政策并非一成不变并开始重点关注同级政府之间的政策借用和扩展。但这些文献均以美国同级州政府间横向的政策借用和扩展为研究对象，直接以政策借用来描述我国纵向的、以国家政策原型为文件传递起点的政策内容变化显然不够准确。但直到博士论文预答辩前，我都没想到一个相对满意的、能准确描述地方政府对上级政策文本进行更新这一行为的理想概念，只能先硬着头皮用政策内容垂直变异，但内心始终觉得这一概念缺乏社会学色彩且过于直白。

在博士论文预答辩时，蔡禾教授、王宁教授、黎熙元教授等参与答辩的老师不约而同地批评了政策内容垂直变异这个词过于技术化且缺乏社会学的想象力。之后我与梁老师连续几天密集讨论了论文的核心概念问题，最终觉得还是应该回到我国政策文件传递的具体实践中来提炼概念。在文件传递链中，作为起点的国家政策文件，其内容往往是方向性、原则性和指导性的，省级政府因为掌握更为精确的本地分散化知识，同时也更为了解地方具体需求及资源状况，因此其作为政策传递者，并非只能被动接受政策原型，而是需要以其作为知识起点，根据本地实际情况对政策原型进行内容上的修改和创新。基于此，我们最终决定将省级政府主动对上级政府发布的政策文件内容进行的更新和细化概念化为政策内容再生产，以求更准确深入地概括我国正式文件运作过程中的地方政府行为。

四、非结构化数据收集

大数据时代的到来使大量关于人们所做、所知、所想以及所感觉的信息保存于数字化文本之中，这些数字化文本类型丰富，不仅包括网站和社交媒体的信息，同样包括数字化书籍、政府或公司政策文件、访谈资料等文本数据。这些数据无疑为社会科学研究带来更多可能性，但也为如何基于特定研究目的选择合适的文本数据带来新的需求与挑战。记得刚学网络爬虫的时候，我跟周文师兄像是掌握了挖宝藏的秘密工具，经常没日没夜地找数据、抓数据。有一段时间我对贴吧数据非常痴迷，认为基于贴吧数据能完成很好的研究设计，着了魔似的想以贴吧数据来写博士论文。当时临近博士论文开题，为了说服梁老师让我临阵换题目，我阅读了大量相关文献并进行了前期数据收集和分析。当徘徊了很久终于鼓起勇气拿着十几页纸的研究计划和初步分析结果去找梁老师时，梁老师说：“博士论文应尽量回应时代重大问题，要谨慎做时髦学问，你感兴趣这个现在很火很时髦，但可能过几年不火了。等你博士毕业了，到时候如果对这个还很感兴趣，那时候完全可以再捡起来。”这段话对我影响很大，并成为之后选择研究数据的重要参考标准。在2018年集智腾讯计算社会科学研读营上，我与吴令飞老师和王成军老师聊起过政府政策数据，大家都一致认为政府政策数据是文本大数据的“富矿”，是运载各级政府决策的重要工具，值得不断深挖。

为了实证考察政策内容变化的基本模式及影响机制，我收集了国家和各省自2008年至2018年的涉农政策数据、历年政府工作报告以及各省不同年份的统计年鉴数据，并花费大量时间对前期的数据进行搜集和整理。在政策文本数据收集中，我发现各地的政府网站建设以及政策文本公开存在巨大差异，比如部分省份的政府网站政策文本公开非常规范但采用了各种反爬虫技术，且反爬虫技术也在不断更新；而部分省份的政府网站则存在政策文本公开滞后、不全、未公布政策文本内容或以附件形式公布政策文本内容、或者不同时间节点政策数据公开不同等情况。为提高数据的完整性，我将研究对象聚焦为涉农政策文本，同时在使用爬虫技术爬取政策文本的基础上，对政策文本数据进行了大量的人工核对、检索和补充工作，以保证数据完整性和准确性。

非结构化文本的数据处理同样是不断试错的过程。我最早采用按照引用关系匹配的策略来生成数据库，也即根据各省政策文本中是否提及某个中央政策文件来生成政策文本数据库，但在实际数据处理过程中，我们发现这种方法存在特定一个省份政策引用多个中央政策以及虽引用但主题不符等问题，会出现诸多错配现象。后来我尝试采用政策标题关键词匹配的策略来生成研究的政策文本数据库，实践中这种匹配策略会大大提高文件匹配的准确度。但即使按照标题关键词匹配，对于部分省份也需要加以调整。如部分省份针对部分国家政策会发布两份标题类似的对应文件，其中第一份文件相当于转发，发布速度很快但政策内容与国家政策内容几乎相同；第二份文件发布时间较晚，但往往会对国家政策原型进行较高程度的更新和细化。这都是在数据处理中需要加以人工判断和调整的地方。这也说明虽然自然语言处理技术大大提高了收集和处理数据的效率和便利度，但在此基础上的人工数据核查对于保证数据处理的准确性也非常重要。

五、如何测量政策内容再生产

在学习计算社会科学相关方法时，梁老师经常说要带着研究问题或理论对话点去关注新技术、新方法，不要被层出不穷、迭代速度极快的机器学习和自然语言处理技术“带乱节奏”。对本文来说，一个难点就是如何在众多自然语言处理技术中选择合适的方法来相对准确地测量政策内容再生产程度。之所以存在难度，一方面在于自然语言处理技术迭代速度极快，要想在研究中“先见森林”，需要花费大量时间来了解其发展现状和前沿进展，同时了解各个方法的基本技术细节；另一方面是计算机技术在社会科学中的适用性问题，我们初期学习的很多方法都是基于商业用途，在网上学习的例子也通常是实现某个商业目的，这些方法在面对社会科学中具体研究目的时的适用性和具体应用场景需要不断去探索和思考。

最早对词向量方法产生深刻印象是在第四届全国社会媒体处理大会(SMP 2015)会议，当时游走于大会各个分论坛来看有没有感兴趣以及听得懂的自然语言处理方法。很多研究都在讲词向量模型，但多以调整模型参数或技术细节为主，唯一印象深刻的应用是因为基于词汇的向量表示，可以直接测量模型中的单词或短语之间的类比或关联，有学者使用词向量方法以类似滚雪球的方式来生成中文粗俗用语数据库。当时虽然对该方法有初步了解，但完全没有思考清楚其在社会科学中的应用场景，也没有想到该方法会用在我的研究中。

在我的博士阶段，梁老师举办了多届计算社会科学讲习班，先后邀请了詹姆斯·基茨（James Kitts）、陈华珊、詹姆斯·埃文斯（James Evans）、施永仁、陈云松、周旅军等学者来讲授计算社会科学课程，这为我了解社会科学如何与计算机学科的最新进展相结合带来诸多启发。同时随着文献阅读的深入，我逐渐认识到，先生成政策文本词汇的低维向量分布，进而测量政策文本间差异的可能性与必要性。

具体来说，词向量模型的发展使我们可以生成文本词汇的低维向量分布，继而生成词汇的语义空间和语义网络，在此基础上对文本间的量化比较和相似度计算成为可能。除了在文章中展示的政策文本词汇向量的二维空间分布，在研究中，我们还将本研究所训练的政策文本中词汇的100维实数向量表示展示在三维空间中，并同样挑选了代表政策发布主体、政策目标、政策手段等方面的词汇显示其在三维空间中的具体位置。由图1可见，即使是在压缩的三维空间中，语义相近的词汇在向量空间中的位置也更近，本研究所训练的词向量模型可以较好地保留与呈现词汇间的语义关系。从图1中我们也可以初步探索向量空间的维度意义，如X轴两端的词汇分别是“考核”“具体”等代表政策落实的词汇和“创新”“转化”等代表政策创新的词汇，体现了政策文本内容中政策手段维度的差异。

（三维空间）

在得到政策文本中词汇的向量表示之后，我参照库斯内尔等研究者（Kusner et al., 2015）的方法，基于文档中词汇的向量表示来计算文档间的相似度。文本相似度的计算借用词汇移动距离（Word Moving Distance ,WMD）算法，该算法将文档看成词的一个分布，根据之前得出的文档中词汇的向量表示，可以计算两个词之间的语义距离，将词之间的语义距离视为词匹配的移动代价。同时任意两个文档都可以根据词之间的移动代价计算一个总的移动代价，文档中词汇之间的移动代价即为文档的相似程度，移动代价越小，文档越相似。基于此算法，我们将词之间的语义距离视为词匹配的移动代价来对不同文档的相似度进行计算。

上面我按照理论对话点、核心概念确定、数据收集以及研究方法介绍的顺序对文章进行了介绍，但实际研究远非一蹴而就的线性过程，无论是文章初稿写作还是《社会学研究》审稿和修改等环节，理论对话点、数据和方法都在不断碰撞和调整。在文章审稿时，编辑老师和匿审专家都肯定了文章的选题和论证过程，但也一针见血地指出文章初稿中理论对话点不够聚焦、对政策内容再生产的影响机制解释不够清晰、可视化不足等问题，正是在对编辑老师以及匿审专家多轮详细且直击要害的修改意见的回应中，我们进一步聚焦了研究问题，在文中呈现了政策文本词汇的二维空间分布，并尝试结合实证分析结果厘清政策内容再生产的影响机制。

综上，我简单回顾了从最初研究困惑到尝试回答研究困惑的整个过程，但回答困惑的过程往往会带来更多困惑，有很多研究问题仍需要不断去探索和分析，期待日后研究上取得进一步进展，也希望能跟大家有更多机会交流。

作者单位：华中科技大学社会学院

责任编辑：徐宗阳

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.