网易首页 > 网易号 > 正文 申请入驻

假如AI欺骗了你

0
分享至

【编者按】

AI汹涌而来,第一次与人类产生大规模的真实接触。人们惊讶于技术的快速迭代,憧憬未来,也忌惮可能的威胁。

而在当下,我们更关心的是,当AI进入普通人的生活,人与AI深度互动,直至卷入其中,将引发怎样的激荡。

在与AI相处中,人类也照见自身。我们将陆续推出“AI世代”系列深度报道,讲述AI时代人的故事。

设计 白浪

我对DeepSeek还一知半解时,同事奕君已经在用它找新闻选题了。它能归纳热点、计划采访周期及预算,甚至告诉她:AI法官已应用于辅助量刑。她逐一检索其中的参考链接、向在法院工作的朋友求证后确认了一点:至少目前,人所受的惩罚不由AI法官决定。

她试图用DeepSeek取代搜索引擎,但在反复验证信源中发现虚实掺杂,又不免困惑,“它到底是节省了时间,还是增加了信息负担?”

DeepSeek做的采访策划 受访者供图

但AI“幻觉”,即那些缜密回答背后的漏洞,并未减少她对DeepSeek的依赖。从修热水器,到如何3个月减肥十斤,“万事问DeepSeek”。她说如果读研时借此一键提炼论文要点,或许能实现睡眠自由,但,“会不会让我失去信息处理的能力?”

无论如何,DeepSeek、Chat-GPT等生成式AI正渗透进日常。伴随技术迭代,AI幻觉、“已读乱回”变得更难察觉。OpenAI首席执行官萨姆·奥尔特曼2023年4月接受ABC(美国广播公司)访谈称,“特别担心模型被用于大规模的虚假信息传播。”

那么,如果出于欺骗、商业等目的,操控AI的回答可行么?复旦大学计算机科学技术学院教授张奇不假思索地告诉我,可以,方法远比想象中简单,且同样隐蔽。

“它倾向服从用户”

幻觉难免,非诉律师张俊斌仍视DeepSeek为“第二个脑子”。他做跨境合规业务,协助企业出海时习惯先让DeepSeek动脑,如对比海外不同城市的政策红利、生产规范。以往梳理美国OSHA标准(职业安全与健康标准)就需要至少半天,现在只要半小时,“80%-90%的结果都是比较准确的”。

此外,案例检索、文件起草、研读动辄几十页的行业白皮书,都能交给DeepSeek。他2023年入行时,如果要用AI辅助,只能悄悄用,否则会被老板认为不靠谱,“DeepSeek出现之后,你用AI工作,老板会觉得你很聪明”。不过法条引用、案件核心仍靠他兜底核证。

因在法律文件中采用AI生成的虚假信息,过去两年间,美国至少有七起案件中的律师受到法院警告或处分。据BBC(英国广播公司)往期报道,纽约律师史蒂文·施瓦茨提交的一份民事诉讼材料中,有6个引述案例涉及虚构及虚假判决。他辩称这是他从业三十多年以来首次使用Chat-GPT,“不知道它的内容可能是虚假的”。

张俊斌说,他使用至今,DeepSeek出现“幻觉”的原因主要集中在两方面,一是案例检索,有些数据无法直接获取,得人工倒回去查“北大法宝”等专业工具;二是法条解读,像“阴阳合同”、“抽屉协议”,很难剖析清楚。

张奇解释说,语言不像数学有明确推导和标准答案,词汇的“特异性”也会影响AI幻觉。“行业黑话”AI就难以准确辨识。此外,华为的总裁和联想的总裁,AI更难记住前者,因为“联想”并非一个专有名词。

面对幻觉,张俊斌会喂更多材料、或调整提示词追问DeepSeek,有时确实答对了,以致他推测它能“自我修复错误”。

事实上,DeepSeek并不懂“对”和“错”。复旦大学计算机科学技术学院教授张奇解释说,生成式AI的回答只是一个“概率”问题,也就是说,重新提问它可能还会出错,且它倾向服从用户,即便答对了,你也可以“误导”它出错。

AI之所以会出现幻觉,即学术界普遍定义的“事实性错误”,主要源于模型并不能记住训练数据中的所有信息。特别是互联网上出现次数很少的专业知识以及冷门知识,模型都很容易出现错误。

张奇补充说,DeepSeek的联网搜索一定程度减少了幻觉,同步抓取相关网页信息后,它就从依赖自身记忆的“闭卷考试”变成了“开卷考试”,回答“中国第九长河”这种冷门问题时,正确率也会提高不少。

他表示,要想减少AI幻觉,“要从数据和算法上寻找解决方案,需要使用更多高质量和多样性的数据以及更好的训练方法”。

“我不会问AI要数据,我是投喂给它数据。”民族学专业的韦悦说。研三时,她为论文焦虑,还得兼顾博士复试,寄望Chat-GPT帮她挤点时间,反复给它纠错后,她的提问很快被气成了质问,“文献综述出来都是错误的,就根本没有这些文献”。

如今升到博二的她会为Chat-GPT、DeepSeek限定学习资料,亲自从官方渠道搜集原始数据精准投喂;表格看得眼花,也丢给它们提炼,再一点点磨合明确回答字数和要点,“这类基础的、繁琐的工作完全能让AI替代”。但她无法完全信任AI,最后还是会复核一遍。

“我们老师比我们更信任AI。”她的导师热衷分享如何驯化DeepSeek,教程包含视频、公号推文、PDF手册。之前元宵节导师想请她吃饭,还未返校的她问DeepSeek如何婉拒,“人有时候就是感觉嘴巴很笨,想借助一下AI来提升我的情商”。

当然,AI更多改变了她与导师的学术互动。有时导师晚上突然发来研究项目,不想熬夜的她就把问题丢给AI,隔天借鉴回答与导师讨论。聊到具体研究方向和方案,导师也会打开手机说,“那我们来问一下AI”。

Aha moment(顿悟时刻)

我也让DeepSeek参考“澎湃人物”栏目风格找了选题,其中一个勾起了我的兴趣——“候鸟老人”的跨境养老实验:中越边境银发群体的制度性流浪。它说在中越边境的广西某市,有些老人白天刷医保买药,晚上去越南住廉价养老院。甚至提到退休教师周某某为治肺癌开启“流浪”之路。

但请注意,这个选题纯属DeepSeek虚构。我在核对参考链接后发现,它将北方老人南迁过冬、广西某市医保调整、以及中越边境贸易等信息混杂后,编了个有血有肉的故事。

当我指出它的错误,它回应说,未来将明确标注假设性内容,如“据现象推测可能存在……”,避免混淆事实与逻辑推演;并优化信息整合流程,采取“事实-证据-推论”三步法。

那么,DeepSeek在回答中标明事实和虚构可行吗?

“黑箱尚未被打开,所以理论上不清楚。”张奇将DeepSeek“已读乱回”界定为模型推理的逻辑错误,因为大模型本身就是一个巨大的“黑箱”,没人能够解释清楚它为什么会出现某个字,也无法准确预测。

因此,模型的推理也会造成幻觉。AI公司Vectara专注于人工智能领域高精度任务,据其发布的大模型幻觉排行榜,截至今年3月,“推理型”的DeepSeek R1幻觉率为14.3%,而偏向传统模型的DeepSeek-V2.5、DeepSeek-V3幻觉率分别为2.4%和3.9%。

张奇表示,AI的实事求是与发散思维难以兼顾,“推理是希望它发散,一旦发散就可能带来很多错误”,联网理论上能改善幻觉,但“很多问题来源于网页”,这又回到了数据质量的老问题——“垃圾进,垃圾出”。

国外已有类似案例爆出,据英国《卫报》此前报道,新西兰连锁超市PAK’nSAVE开发了一款制定食谱的AI,顾客对它输入更广泛的家庭购物清单后,它推荐了含漂白剂的“清新口气”鸡尾酒、“甲醇”吐司,包括会产生氯气的冰镇饮料。显然,AI忽略了这些菜单对碳基生物是致命的。

这也是我对生成式AI的另一个疑问:给出答案前,它能否发现逻辑链条的漏洞,从而重新进行推理?

在DeepSeek官方论文中,研究人员训练DeepSeek-R1-Zero做数学方程时,它突然出现了一句“Wait,wait.Wait.That's an aha moment I can flag here(等等、等等,这是一个我可以在这里标记的顿悟时刻)”。

DeepSeek的“aha moment”

社交平台上,不乏网友对这个“Aha moment(顿悟时刻)”的溢美之词,认为AI像人一样反思到自身错误并重新思考。

“在原始推理过程中,正常情况下它不应该出现反思逻辑。”张奇说,这得回到模型预训练和数据中寻找原因。他并不认为DeepSeek拥有反思能力,其逻辑仍是由数据驱动的“概率”。

之前测试DeepSeek时,他一口气输入了80个1相加,中间夹了个11,结果它算了550秒也没算对。“这种问题不难,但(研究人员)通常不会(专门)去构造训练数据。”他又举例道,9.9和9.11谁大?strawberry这个单词有几个“r”,这种提问有时就能难倒AI。

因此,在他看来,比起让AI拥有通用的反思能力,让它专注于一个具体的应用场景以减少幻觉更容易些。但这也很“烧钱”,此前他和团队为一家企业做过一个模型,智能识图提取其中日程、车票信息,费用数百万元,“如果想让用户体验达到95分,就需要定制化训练”。

为了开发一款定位于临床研究和科研的医疗AI,开发人员唐敏和同事专门建立了数据库。她解释说,医学讲究“循证”,因此不能“扒”各种网页。她问过ChatGPT“欧兰宁”是什么药,它联网后将这款抗精神病药分析为肠胃药,“它搜索的内容质量都相对较低”。

此外,他们不断调整模型架构,让AI的回答更贴近参考文献,校验后仍存在的错误则直接屏蔽,“就是不输出给用户看到”。她表示,幻觉明显好转,其实是研发人员提前把它们“消化”了。

尽管应用已调教到无需依赖专业的提示词,唐敏首要建议的仍是医疗人员使用AI,“他们有判断能力,我们提高的是他们的效率,并不是替他们做决策”。

“技术和技术之间是有对抗的”

“DeepSeek达不到人的那种灵活。”在一家中级人民法院担任法官助理的陈思文说,它难以“意会”现实因素。

去年9月陈思文考入这家法院后,对AI的依赖日渐加深。起初是业务问题,她怕问多了招人烦,AI就不会,它始终在线且富有耐心;过了新手期调到业务庭,她每天至少得处理一两个案子,且案情复杂了不少,她便让DeepSeek梳理基本案由信息以及法条参考,从效果来看,她觉得“瑕不掩瑜”。

“最重要的一个技巧就是,尽可能地精简问题,”她表示,像类案检索,案情千变万化,但其中蕴含的法律关系相对稳定,从中提炼关键词一步步追问,才可能得到想要的答案,但要精准捕捉关键词,案件经验不可或缺。

这也是非诉律师邬乐担忧的,她入行8年,职业起步于上千份相似的文件,身边不少新人直接略过了这一步,向DeepSeek提问。但她认为,“提问”离不开前期枯燥却必要的积累,“这是环环相扣的。知识储备不够的话,你去问 AI其实也得不到很好的回答”。

无论提问者的水平如何,显见的是,越来越多的人已开始将AI当作搜索引擎。

DeepSeek不仅是韦悦的论文助手,当她考虑毕业后回南宁老家,它能分析哪款电车的续航可以满足她的上班通勤需求;还有南宁未来房价走势、甚至细化到不同城区的新房和二手房。我同事奕君会让它根据冰箱剩余的食材制定食谱。对于张奇70岁的父母,它会更多地提出保健方案。

是的,DeepSeek的回答正在渗入我们日常,但有没有可能,它的回答是可操纵的?

张奇表示,它依赖联网搜索,因此只要能影响搜索结果,就可以改变答案了。“这取决于商业化的逻辑”,如同各大搜索、社交平台手握流量入口,决定着用户能看到什么,DeepSeek如何回答,也与流量息息相关。但它说的话更有人味,更加专业,且目前还不会像一些平台推送那样,至少在边角处标个小小的“广告”。

据Fox News(美国福克斯新闻)此前报道,2023年4月,其新闻台前主持人塔克·卡尔森获悉埃隆·马斯克将开发TruthGPT后,表示该AI极有可能改变以往信息获取渠道,进而影响民主选举。“它会控制我们对现实的理解,用一种非常不诚实的方式……它可能会因政治目的被操纵,对我们撒谎。”

当时埃隆·马斯克对此回应称,比起选举,AI对人类文明的威胁或许更大。他“鼓励对人工智能进行监管”。

全球事实核查平台“澎湃明查”的同事郑淑婧告诉我,AI在降低使用成本的同时,正让虚假信息变得“更快、更多、更强”,这给人工核查带来了前所未有的挑战。

好在她也会“技术反制”。之前网传过一张《时代周刊》封面照,联合国秘书长古特雷斯站在血泊当中。她通过反向搜索发现,原图为古特雷斯站在及膝的水中呼吁关注全球变暖。此外,也有平台可以专门辨别图片是否被PS过,或视频中是否包含AI生成内容。

图左为虚假P图,图右为原图,《时代周刊》用古特雷斯站在水中的照片作为封面

“技术和技术之间是有一种对抗的。”仅是上传一张照片,AI也能快速为她推测图中地理位置。她说AI造假能力越强,识假技术也会不断更新,“所以我总体上是一个技术乐观主义者”。

张奇表示,目前国内大模型厂商重心仍在追赶性能上,对安全伦理部分的审查相对较弱。但网上已充斥着大量AI生成的错误信息,被AI联网抓取后进一步污染着信息生态,这个隐患“未来可能会放大非常多倍”。

为了提高大语言模型教材编写效率,张奇习惯理出素材、标明论点后交给AI串联,有时它润色得太有文采,以致他得人工“反向优化”,去掉一些精美词汇。

总体来说,AI至少给他省了一半的写作时间,但“中文写作能力的退化也是同步的”,他说。

(文中奕君、张俊斌、韦悦、唐敏、陈思文、邬乐为化名)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

古史青云啊
2026-03-26 10:14:37
社保基金持股市值居前的重仓股一览

社保基金持股市值居前的重仓股一览

证券时报
2026-03-26 07:34:15
观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

澎湃新闻
2026-03-25 14:56:27
攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

万物知识圈
2026-03-26 15:06:53
缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

凡人侃史
2026-03-26 09:42:15
油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

眼界纵横
2026-03-23 15:48:07
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

遁走的两轮
2026-03-26 14:59:28
“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

妍妍教育日记
2026-03-20 21:33:36
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

新智元
2026-03-25 08:36:09
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

万物知识圈
2026-03-26 15:00:50
为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

TVB的四小花
2026-03-26 13:38:07
2026-03-26 16:44:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
885117文章数 5089135关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
艺术
本地
公开课
军事航空

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版