社会科学研究与中等水平AI“陷阱”|学术|教学|社科|教育|科研成果

社会科学研究与中等水平AI“陷阱”

分享至

带有推理能力的生成式大语言模型的出现，验证了测试阶段运算扩展（Test-Time Compute Scaling）的潜力，显著提升了模型在特定领域的表现。同时，DeepSeek-R1的推出，则让更多中国人接触并开始使用大语言模型。

大语言模型独特的交互方式和内容生成模式，与社会科学和外部世界的互动方式颇为相似。而技术竞争中的地缘政治压力与焦虑，又引发了一系列相关政策的调整和舆论讨论。在此背景下，社会科学（以下简称“社科”）部门的压缩似乎波及世界范围内的顶尖大学和研究机构，出现了短时间大幅度的“休克式压缩”。

本文想强调另外一种可能性：即使在短期内没有出现基于生成式模型的超级智能，现有“中等水平”AI模型缺乏反思的大规模应用也会给社会带来大量冲击。这些冲击本身是社科可以也需要介入的。与此同时，社科领域同样会受到中等水平AI的冲击，原有的发展空间被压缩，削弱了它建设性介入AI应用的能力。单纯的休克式压缩无法解决社科与AI冲击的适配问题，我们迫切需要启动变革科研评价体系和教育模式的深入讨论。

什么是中等水平AI

一些观点认为，现有的模型在训练扩展法则上已经碰壁，单纯地扩大模型的规模没有办法很快地导向超级智能。比如，法国计算机科学家杨立昆（Yann LeCun）坚持认为，现有的“下一个词元预测”（next-token-prediction）训练出来的模型并没有真正具备推理能力，需要转换模型的构建范式。OpenAI前首席科学家伊尔亚·苏茨克维（Ilya Sutskever）在最近的一次演讲中则认为，预训练范式迄今为止已经几乎穷尽了互联网上的所有公开数据，模型很难实现像GPT2到GPT3那样的性能飞跃。事实上，OpenAI最新的模型GPT4.5相对于GPT4而言，在很多评测中水平的提升有限，这也是为什么研究者开始把注意力转向了诸如GPT-o1和DeepSeek-R1这样在“测试阶段运算扩展”的推理模型。但这些模型距离通用人工智能尚有距离，更不用说全面超越人类并且拥有自己的目标和意志的超级人工智能了。

一方面，在新的模型训练范式出现之前，我们可以将现有的这种人工智能系统称为中等水平人工智能。它指的是，在传统的判别式的机器学习模型之外，具有以下特点的机器学习模型系统：在某些能力上已经达到甚至超过了普通人的水平，但还没有成为通用人工智能；具有一定的泛化能力，但在具体的专业知识上还需要进行大量的调适；对于因果关系只有机械的理解，在一些简单的问题上还是会出现幻觉。现有的很多AI系统，几乎都达到了中等水平AI的下限。

另一方面，不需要等到一个超级AI的降临，在缺少反思的情况下，仅仅是广泛应用中等水平AI，就足以对人类社会造成一系列的巨大冲击，并使得中等水平AI停留在这些层次上。

中等水平AI的社会冲击

同生成式AI可以带来信息平权的设想不同，对于中等水平AI的使用更有可能会造成进一步的信息过载。这是我们在当下的日常经验中就能感受到的：我们已经开始见证互联网内容质量的大规模下降。生成式模型已经开始被用于生成垃圾内容，甚至开始被用于制作虚假信息。这些信息又有很大的机会进入之后的模型训练过程。有效信息的获取可能会变得越来越困难。

中等水平AI会带来新形式的数字不公平。接入模型机会的不同，会影响用户可能的社会经济机会。模型的能力越强，要求的算力越高，这样的数字不平等可能越显著。同时，中等水平AI也会带来新形式的算法歧视。在传统的判别式AI中，算法歧视往往可以追溯到训练数据的不均衡或者预测目标设置的不合理。但生成式模型的训练涉及庞大的训练数据和模型参数，使得这种追溯变得不再可能。此外，在普遍接入生成式AI的情况下，我们可能会遇到一些意料之外的后果。在某些方面过度地依赖AI，可能会导致人类在某些方面的主动性下降，从而反过来影响人对于生成式AI的输出进行验证（Validation）。

中等水平AI对于现有人类劳动力市场的冲击并不会是一种简单的替代关系。专注数据挖掘的公众号“城市数据团”在《大模型正改变劳动力市场，以未曾设想的方式》一文中指出，特定岗位的技能AI暴露程度越高，市场对于这些岗位的需求反而有所增多。同时，这些岗位的职责也变得更加多样。比如，在模型代码能力急剧增强的情况下，程序员和产品经理的职责会更加混合。中等水平AI对于通用技能的要求变得更多，而不是更少。但相比于产业变化的灵活性来说，人力资本是相对刚性的，就业市场难免会经历一场阵痛。

“幻觉”问题在中等水平AI系统中并没有得到根本性解决，大量使用AI替代人工，改造现有的信息系统，并将中等水平AI加入其中，会带来一系列相关风险。比如，最近兴起的机器编程和氛围编程（vibe coding），在没有进行代码审查和充分测试的情况下，可能会在系统中遗留大量的缺陷（bug）和技术债务。

简而言之，中等水平AI系统的应用和构建并非一个单纯的工程问题，而是一个系列的社会—技术问题（sociotechnical issue）。这些问题本就涉及社科研究和教育可以也应该介入的诸多维度。

中等水平AI冲击下的社会科学

社科研究本身也无法免于上述冲击。同一般的信息过载类似，生成式AI模型的大规模应用会进一步冲击同行评议等既有的科研评价方式。在现有指标导向的学科建设驱使下，中等水平AI不一定会增加社科学者的创造力，但一定会增加他们整体的产文数量和投稿数量，从而给被认为是学术质量黄金标准的同行评议造成系统性的压力。这个问题在世界范围内已经初见端倪：重要的国际科学文献出版公司爱思唯尔（Elsevier）旗下期刊中，已多次发现残留有生成式语言模型的提示词，《自然》（Nature）杂志更是在近日专文讨论了相关的议题。

同样，在社科内部，对于不同技术水平的生成式AI的获取和接入，也会造成学科内部的不平等。目前处于金字塔顶端的院校会有更多资源，接入对于算力和工程技能要求更多的生成式AI系统，甚至训练他们自己的专有模型，从而进一步地扩大院校之间的不平等。

依赖生成式AI完成各种工作，将最基础的阅读、程序编写、写作，甚至核心的发现环节都交予生成式AI，同样会使得社科研究者的基础能力下降，反过来影响他们对于生成式AI输出的合理判别。

对于社科的具体研究来说，虽然中等水平AI还没有能力取代严肃的社科研究者，但这些研究者面临的“贬值”却是真切的。因为生成式模型同大众的交流方式与社科的产出有形式上的类似，出现了不少贬低社科和其他文科的舆论。同这种舆论相呼应的是，世界范围内出现了社科和相关人文学科的收缩。

在这种情况下，“AI+”的模式被普遍认为是解决社科困境的方式。但当下“AI+社科”，还仅仅停留在一个应用外来技术的单向模式上。大规模地转向是否会导向诸如将计算机学科不合格的研究者改头换面转向社会科学的情况？本来应该提供基准知识的社科研究和教育，很可能出于以上种种原因，反而遭遇研究和教育水平的进一步下降，影响对于相关议题的介入和影响能力。

寻找新的实践模式

面对中等水平AI对于社会和社科的挑战，我们需要探索社科新的实践和教育模式。现在社科的很多问题并不完全是技术冲击所引起的，但技术的冲击依然是真切的。我们需要寻找一种不再“唯发表”，但又保持严肃的学术实践形态。从最理想的情况来说，不必要的发表不应该再成为压力，研究者不再需要把自己的思考拆散成最小发表单元，而是专心在教学和少量能够真正推进严肃学术对话的代表作上。与之相应的是，大量的研究和教学活动应该采取课堂教学以外的新的组织形式，比如项目式学习、服务学习，甚至工作坊和编程马拉松（hackathon）等形态。为学生提供新的技能和视野，保留和提升他们提出问题的能力，也让他们能够同中等水平的人工智能相匹配。

无论如何，休克式的压缩没有办法实现这种社会科学实践的新模式，因为这种压缩大概率也会遵循现有的指标导向的学术评估的逻辑。我们需要一场有不同意见的公共讨论，也需要在不同院校结合各自情况进行具体的试验。要摸着石头过河，而不是将“AI+社科”视作一发万能的银弹。

作者系浙江大学社会学系“新百人计划”研究员

来源：中国社会科学报

责任编辑：余朋翰王亮

新媒体编辑：宗敏

如需交流可联系我们

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.