![]()
随着生成式人工智能(GenAI)技术加速迭代与广泛渗透,其应用场景已从技术探索阶段延伸至日常商业运营与个人生产生活领域,并被用于重构整个政府和行业的工作流程,这一颠覆性技术正如同历史上其他具有变革意义的技术一样,在带来机遇的同时,也可能引发诸多负面影响。因此,系统评估GenAI在社会与个人层面的实际影响显得尤为必要,这有助于识别亟需应对的负面后果,并制定基于实证的有效政策。2025年1月,卡内基国际和平基金会发布了报告《衡量生成式人工智能引起的变化:奠定基础》(Measuring Changes Caused by Generative Artificial Intelligence: Setting the Foundations),提出了一套用于评估GenAI对信息生态与舆论环境实际影响的方法框架。
一、填补量化研究的知识空白
在探讨这一议题时,一个关键问题在于公众对人工智能的认知尚不清晰。不同群体对人工智能的理解存在差异,导致讨论对象常常被混淆。广义上,人工智能是一系列使计算机能够执行复杂功能的工具集合。GenAI作为其子集,依托深度学习系统,通过训练数据生成高质量的文本、图像等内容。鉴于GenAI在内容生成中的作用,其已知滥用行为往往与既有技术(如社交媒体)结合出现。据参与研讨的研究人员介绍,GenAI已被用于创建虚假账号、虚拟头像和网站等,还有报道称其被用于冒充他人、制造诽谤内容,或实施金融诈骗和网络情感骗局。这些应用显示,GenAI常与其他通信工具协同使用。信息生态的碎片化特性,加之对人工智能活动报道的不足,限制了我们对GenAI单独或与其他技术结合时所发挥作用的理解。
尽管关于GenAI滥用威胁的研究论文不断涌现,但对其社会影响的量化研究仍较为缺乏。由于GenAI发展时间尚短,现有文献多聚焦于潜在风险的预测,而非实际观察到的结果,且大多基于实验环境。然而,实验所能提供的认知有限,现实情况往往更为复杂。显然,尽管GenAI使用引发的担忧已引起社会广泛关注,但对其影响的系统衡量在学术研究中仍属空白。对于如何量化由特定GenAI应用引发的可观测变化,研究团队最终总结了七类主要关切:
1.医疗领域(包括将人工智能用于诊断、自我诊断及医疗记录);
2.法律体系(包括人工智能辅助案件准备以及可能出现的人工智能生成证据);
3.各类诈骗行为;
4.人工智能生成的儿童性剥削材料(CSAM);
5.自然灾害期间的信息流(包括快速传播的准确信息与错误信息);
6.选举过程(包括准确或误导性信息的传播);
7.生成未经同意的私密媒体。
虽然讨论主题和衡量方法差异显著,但最终参与者的意见聚焦于四个基础性问题。回答这些问题将对设计实验与方法至关重要,以便衡量在特定领域中因使用GenAI而引发的变化。
二、四个基础性问题
(一)哪些检测方法可靠可用?
研究人员普遍认为,首要问题是能否检测出某一内容是否由GenAI生成。目前虽存在多种潜在检测方法,但其在大规模应用中的可靠性仍需进一步验证。现有方法主要分为三类,前两类作用于内容生成后,第三类则嵌入生成过程之中。
1.感知检测法依赖人工判断内容真实性,例如识别人工智能生成人脸的面部不对称、眼睛异常,或察觉视频与音频不同步。但这种方法实际上把检测负担转嫁给用户和调查人员,且随着生成内容质量提高,检测难度会进一步加大。
2.计算检测法借助技术手段进行识别,例如使用机器学习分类器或虚假内容数据库,但两类方法在可靠性与扩展性上均存在差异。
3.第三类方法侧重于追溯内容来源,试图将输出关联至生成源头。一种常见提议是对内容添加标签或水印,以标识其为人工智能生成。该方法将来源验证机制嵌入合成内容生成流程,通过数字水印使内容可追溯至特定生成引擎。另一种方法是开发来源验证技术,以证明某一媒体非人工智能生成且与声称内容一致。非人工智能生成内容的来源验证可参考“内容真实性倡议”,该计划制定了端到端技术规范,用于验证内容真实性,并推动采集设备与应用程序支持“内容凭证”。
然而,这两类方法均存在局限。水印易被伪造、移除或忽略,而对开源模型等非主流GenAI服务,来源验证机制也难以有效实施。此外,若将来源验证作为可信度标准,可能强化主流GenAI提供商的主导地位,导致模型单一化与权力进一步集中。这些挑战都将为衡量GenAI引发的变化增加难度。
(二)应以何种基准衡量变化?
从本质上讲,变化是指事物状态与以往相比产生了差异。要衡量变化,就必须观察到可察觉的改变,这需要以之前的状态为基准,评估后续状态是否发生变化及其程度。然而,若过去未对相关信息进行系统整理,或需衡量如公众情绪等难以量化的因素,基准数据的收集就会变得困难。有时还需多个基准,使研究更为复杂。
在某些领域,基准对比相对容易。例如,诈骗案例与经济损失在GenAI出现前就已有追踪,可通过对比当前诈骗成功数量与已报告损失,衡量是否出现增长。尽管在钓鱼邮件等场景中全面识别GenAI的应用存在挑战,但仍可单独分析伪造图像、音频或视频诈骗。而在其他领域,设定基准则更为困难。例如,尽管多项研究指出GenAI可能扩大虚假信息或影响力操作的规模,但要衡量其加剧程度,仍需以该技术出现前的活动规模为基准。目前相关案例研究仍零散片面,亟需综合分析确立基准。因此,回答这一问题可能需要设定多个基准而非单一指标。
(三)所研究的系统是复杂的还是相对可控的?
在探索衡量方法时,需明确信息系统是相对可控(输入与变量较少)还是复杂庞大(变量与子系统多且相互影响)。相对可控的系统更便于衡量,尤其是在有常规记录GenAI使用的情况下。例如,法院系统是典型相对可控的系统,因其通常具备长期记录,有利于设定基准进行比较。可通过记录研究人工智能生成或篡改证据是否增加冤错案,监测GenAI应用后使用媒体信息作为证据的案件,识别GenAI使用痕迹并对比案件结果变化;还可对比GenAI出现前后因证据伪造获无罪判决的比例,评估使用GenAI准备文书对案件结果的影响,例如要求相关方说明GenAI使用情况再对比案件结果。相反,复杂系统变量更多,各技术与子系统相互作用、共同影响整体,且数据所有权与研究途径高度分散。例如,分析社会或民主制度等复杂系统的变化时,研究人员无法像在法院系统研究中那样依赖单一渠道,而必须评估多个甚至相互矛盾的信息来源。因此,研究GenAI在复杂系统中引发的变化挑战更大,在设计实验或研究方案时必须充分考虑这些因素。
(四)系统的复杂程度如何,该如何考量其复杂性?
系统的复杂程度取决于其中影响结果的关联因素数量。这种复杂性既体现在技术层面,也反映在人文层面。技术上,GenAI与社交媒体等其他技术交互作用,使其影响难以单独剥离;人文上,多种因素交织作用,导致无法明确GenAI与其他社会政治因素在人类决策中各自的作用。引发变化的可能不仅是GenAI本身,而是它与多种技术结合的结果,而许多技术在信息环境变化中的作用也尚未得到充分认识。除技术因素外,人们对GenAI的诸多关切还涉及人类决策,无论是在危机情境还是政治活动中。因此,回答这一问题需跨专业团队协作。此类研究可能带来极高价值,但我们绝不能低估其复杂性。
三、结论
即使在理想条件下,衡量信息环境中某一因素的影响也非易事,但我们仍需务实推进并明确目标。GenAI应用越直接、所引发的变化越具体,就越容易有效衡量其影响。若GenAI在复杂系统中仅是众多流程之一,尤其当该系统还影响其他复杂系统时,衡量其变化将更为困难。封闭系统中的GenAI应用较易衡量,而复杂系统则因变量众多,难以明确其具体影响。要开展可信且有价值的研究,需回答四个基础问题:如何可靠检测GenAI生成内容、如何确定衡量变化的基准、所研究系统是复杂还是可控、如何评估并降低系统复杂性的影响。随着GenAI技术发展和更多服务商进入该领域,深入了解其在信息生态系统中的作用变得尤为关键。这四个基础问题为后续研究指明了方向,有助于解决GenAI社会影响的识别与衡量难题。本文所提出的研究路径也可供研究人员参考,并为政策制定者评估相关衡量工作的质量提供依据。
免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
转自丨启元洞见
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.