作者:
Cathleen O’Grady
来源 | Science
人工智能(AI)聊天机器人正变得越来越擅长模仿人类。它们可以撰写论文、创作诗歌,甚至通过图灵测试。现在,社会科学家警告说,它们可能被用来大规模地伪造研究数据。
在最近的一篇预印本论文中,研究人员展示了像 OpenAI 的 ChatGPT 这样的聊天机器人如何能够被指示代表虚构的个体填写在线调查问卷。这些机器人可以生成看似合理的人口统计信息、个人观点,甚至开放式文本回复。研究人员表示,这种能力可能被恶意行为者利用,向在线研究平台(如 Amazon Mechanical Turk 或 Prolific)大量提交虚假数据,从而污染数据集并破坏研究结果。
![]()
“这非常令人担忧,”该预印本论文的共同作者、德国曼海姆大学的社会学家弗洛里安·凯泽(Florian Keusch)说。“如果人们开始使用人工智能来填写调查问卷,那将对依赖这些数据的科学研究产生巨大影响。”
在线调查和实验已成为社会科学研究的支柱,为研究人员提供了一种快速、廉价地收集大量多样化参与者数据的方式。这些研究被用于探索从政治态度到消费者行为再到心理健康等各种主题。
但这种方法也面临挑战,包括参与者注意力不集中、欺诈性回复以及“机器人”程序(bots)——旨在自动填写调查问卷的简单脚本。研究人员已经开发出技术来检测和过滤掉这些低质量的回复。
然而,凯泽和他的同事们认为,像 ChatGPT 这样的大型语言模型(LLM)代表了一种新的、更阴险的威胁。这些模型经过海量文本数据的训练,可以生成连贯、语法正确且通常与上下文相关的文本。在预印本论文中,研究人员展示了他们如何能够指示 ChatGPT 生成特定人口特征(如年龄、性别、教育水平)的虚构人物档案,然后让模型代表这些虚构人物回答调查问题。
例如,在一项关于 COVID-19 疫苗接种态度的调查中,ChatGPT 能够生成反映对疫苗犹豫或接受态度的回复,具体取决于研究人员的指示。该模型甚至能够对开放式问题(如“您对 COVID-19 疫苗的看法是什么?”)生成细致入微且看似真实的回答。
“这些回复的质量非常高,”凯泽说。“很难将它们与真实人类的回复区分开来。”
研究人员表示,恶意行为者可以轻松地自动化这个过程,创建大量虚假的个人资料和调查回复,然后将其提交到在线研究平台。这可能会使数据集充斥虚假数据,扭曲研究结果并削弱科学发现的可靠性。
“这可能会破坏整个研究领域,”美国西北大学的社会科学家大卫·托马斯(David Thomas)说,他没有参与这项研究。“如果我们不能相信数据,我们就无法相信研究结果。”
研究人员表示,这个问题可能特别影响那些依赖在线样本的敏感或争议性话题的研究,例如政治观点或健康行为。虚假回复可能会夸大某些观点或使某些群体看起来比实际情况更普遍或更不普遍。
那么,研究人员可以做些什么呢?凯泽和他的同事们建议采取多种策略来检测和防止人工智能生成的回复。这些包括:
- 使用验证码(CAPTCHAs):
这些测试旨在区分人类和机器,但凯泽指出,人工智能模型正变得越来越擅长解决它们。 - 分析回复模式:
人工智能生成的文本可能表现出某些模式,例如特定的词汇选择、缺乏拼写错误或异常一致的响应风格。研究人员可以开发算法来检测这些模式。 - 纳入陷阱问题:
在调查中设置一些旨在检测注意力不集中或欺诈性回复的问题(例如,“请选择‘非常同意’”)。然而,人工智能模型可以被指示留意并正确回答这些问题。 - 使用基于视频的验证:
要求参与者录制简短的视频回复或进行实时视频访谈。虽然这增加了复杂性和成本,但人工智能目前还难以可靠地生成逼真的实时视频互动。 - 转向其他方法:
研究人员可能需要更多地依赖传统方法,如面对面访谈或电话调查,尽管这些方法成本更高且速度更慢。
凯泽强调,目前还没有万无一失的解决方案。“这是一个猫捉老鼠的游戏,”他说。“随着人工智能的进步,检测技术也需要不断进步。”
托马斯对此表示同意,并补充说研究社区需要认真对待这一威胁。“这不仅仅是一个小麻烦,”他说。“这对社会科学的诚信构成了真正的风险。”
研究人员呼吁平台提供商、资助机构和期刊编辑共同努力,制定标准和最佳实践,以应对人工智能带来的挑战。这可能包括要求研究人员报告他们用于检测虚假回复的方法,或者开发共享工具来识别人工智能生成的数据。
“我们需要现在就采取行动,”凯泽说,“以免为时过晚。”
原文链接:https://www.science.org/content/article/ai-may-upend-online-studies-critical-social-science
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.