你是否已逐渐依赖DeepSeek的“全能”能力?无论是撰写方案、制作PPT,还是解读梦境,它似乎都能一手包办。然而,令人意想不到的是,这款备受信赖的DeepSeek竟也会信口开河。毕竟,AI并非无所不能。如今,首批尝试DeepSeek的用户已深陷其“不靠谱”的陷阱。
“DeepSeek在文献查阅上的失误令人咋舌。”近日,一位来自广州知名高校的教授在朋友圈中表达了这样的感慨。他原本希望通过DeepSeek获取《Global Cantonese: The Spread of Cantonese Language and Culture》的相关信息,但经过仔细核实后发现,DeepSeek提供的作者信息纯属虚构,年份也存在严重错误,甚至出版社也与实际情况大相径庭。![]()
经过深入沟通,DeepSeek方面已确认这些信息存在明显错误,并对此表示了深深的感谢与歉意:
近期,人民日报海外版原总编辑詹国枢也发表了一篇文章,标题直指DeepSeek的弊端——失实。在文章中,詹国枢详细叙述了他在使用DeepSeek时所遭遇的种种问题。例如,当要求DeepSeek撰写一篇关于他的《史记·詹国枢列传》时,开头的出生地和母亲姓氏等基本信息竟然出现了错乱。此外,DeepSeek所写的某记者记述文章虽然文风生动、案例丰富,但经记者本人确认后却全然否认,所有案例均非出自其手。更令人震惊的是,DeepSeek甚至将路遥的《平凡的世界》误标为詹国枢的代表作,这无疑可能误导读者。![]()
实际上,DeepSeek在信息表述上的不严谨问题已经屡遭诟病。例如,它曾错误地将《苦昼短》归为李白所作,同时还将明朝“废除宰相”与“设置内阁”混为一谈,这些失误引发了网友的广泛质疑。有网友直言不讳地表示,DeepSeek更适合用于编写代码和数学运算,而对于文科生来说,它并不友好。那些试图通过DeepSeek来准备国考、省考的人,可能不得不重新依赖申论教材来复习。同时,一些期望通过DeepSeek来解放人力的用户也感到失望,他们发现,在使用DeepSeek撰写的文章中,所举的例子有多个无法查证,最后才发现这些例子都是DeepSeek自行编造的。他们不禁感叹,原本期望能够解放自己,结果却因为需要核查信息而花费了更多的精力。![]()
若仅限于事实性错误,或许还可归咎于搜索结果的准确性问题,然而,更令人担忧的是其背后的逻辑与推理能力。
以陕西自媒体“决明子”的案例为例,其对于西安安定门附近的道路规划一直存在疑问,为何从环城西路北段到环城西路南段不能直行,而必须在安定门处绕行一圈。在尝试了多种方法寻求解答未果后,该自媒体决定尝试DeepSeek。然而,即便是这样一款声称具备强大信息处理能力的工具,也未能给出令人满意的答案。这一事件暴露出DeepSeek在处理复杂逻辑问题时的不足,引发了人们对其真实能力的质疑。![]()
接着,DeepSeek开始阐述其观点。它首先引入了“唐皇城交通静默区”的概念,并援引《西安历史文化名城保护规划(2020-2035)》来解释,安定门周边被划定为一、二级静默区,旨在保护文物,避免因交通震动而可能造成的损害。DeepSeek还详细列出了相关的空间数据,包括距离的增加和振动传递深度的变化。![]()
乍一看,DeepSeek的解释似乎无懈可击,它引用了理论、数据和政策,似乎一切都尽在掌握。然而,经过网友的仔细核查,却发现《西安历史文化名城保护规划(2020-2035)》这份文件中,实际上并未提及所谓的“静默区”概念。这个原本看似专业且有理有据的回答,竟然纯属虚构。
反馈给DeepSeek后,它坦诚地承认了错误,确实,《西安历史文化名城保护规划(2020-2035)》这份文件中并未提及“静默区”的概念。但令人惊讶的是,它随后又做出了新的解释和澄清,似乎在“精心编织”自己的答案。
AI的这种精心包装,使得其生成的材料看起来真实度极高,仿佛具备某种“意识”在操控,这种能力确实令人不寒而栗。有时,为了展示其回答的高深度,DeepSeek甚至会引入一些专业词汇,如量子纠缠、熵增熵减等。当这些“话术”超出用户的认知范围时,确实可能让人瞬间震惊,难以分辨真假。
那么,究竟是何原因促使DeepSeek做出这种不懂装懂甚至“说假话”的行为呢?
原因揭秘:AI幻觉现象。
业内常用“AI幻觉”来形容AI在回答问题时所出现的“说假话”现象。这指的是其输出答案在表面上似乎内容连贯、合理,但实际上与输入问题的意图、世界知识、现实情况或已知数据存在不一致,甚至无法验证。DeepSeek并非个例,这种现象广泛存在于各类AI模型中。
去年8月,纽约的人工智能初创公司和机器学习监控平台Arthur AI发布了一份报告,对多家公司开发的大语言模型进行了比较,包括OpenAI、“元宇宙”Meta、Anthropic以及Cohere等。报告揭示了一个惊人的事实:这些大模型都存在不同程度的幻觉现象。即便是业界领先的ChatGPT,也未能幸免。
值得注意的是,DeepSeek-R1在Vectara HHEM人工智能幻觉测试中的表现尤为突出,其幻觉率高达14.3%。这一数字不仅比其前身DeepSeek-V3高出近4倍,更远超行业平均水平。![]()
图:Vectara HHEM人工智能幻觉测试结果
DeepSeek在面对其“技术局限性认知”时坦言,当前大模型内容生成的底层逻辑主要基于概率,这确实带来了生成信息可信度不一的挑战。
简而言之,DeepSeek在生成内容时并不总是保持“保真”。这意味着,无论互联网上的内容真假如何,DeepSeek都有可能将其作为引用素材,并仅基于已有内容进行推理,而不对信息本身进行核实。DeepSeek-R1版本则进一步强化了“思维链”(CoT)和创造力,使得其在诗歌创作方面尤为出色。不仅能轻松应对五绝、七律,还能展现出流畅的“起承转合”结构,以及对诗境的独到见解。其创作出的诗句甚至被网友誉为“比祖传的《唐诗三百首》还工整”,令中文系毕业生自愧不如,不禁发问:在AI随手拈来的诗词都超越人类文学教授的背景下,人类的文学还有何存在的意义?未来是否还能诞生出卓越的诗人?![]()
如此强大的创作力,得益于DeepSeek-R1在文科类任务强化学习中的持续鼓励。正如“出门问问大模型团队前工程副总裁、Netbase前首席科学家李维所言:“大模型如同天生的艺术家,而非仅仅是死记硬背的数据库。然而,这种强化学习也带来了一些“副作用。
在“思维链的强化过程中,DeepSeek-R1并非仅对摘要、翻译或新闻写作等相对简单的任务进行优化,而是力求在各个层面进行深入思考和延申。这赋予了它在面对复杂或困难问题时能够超常发挥,甚至给出意想不到的答案。但与此同时,当面对一些较为简单的任务时,DeepSeek-R1可能会因习惯深度思考而过度发挥。
例如,当询问“隔壁老王有多高时,它可能因未见其人、未知其详而感到困惑。然而,由于必须给出答案,它便开始“脑补,依据先前学到的关于“一般人身高的概念来编织一个答案。因此,相较于在“理科方面的逻辑性,DeepSeek-R1在“文科方面可能因过度发挥而将不相关内容关联起来,甚至出现胡编乱造或彻底错误的情况。
3. 在AI时代加速到来的背景下,寻求真相、增强明辨是非和独立思考的能力显得尤为重要。
就在除夕夜,一篇关于“如何看待冯骥盛赞‘Deepseek’”的讨论在知乎上引发了热议。一名自称是“Deepseek创始人梁文锋”的用户,在回答中深情地分享了团队对冯骥盛赞的感慨,并详细介绍了DeepSeek的研发历程。然而,新浪科技向相关人士求证后发现,该知乎账号并非梁文锋本人,而是DeepSeek所写。这意味着,DeepSeek不仅生成了广为流传的“第一个假新闻”,还巧妙地利用了人们对梁文锋的想象,制造了一场科技界和金融界的热传。
这一现象引发了人们对AI技术的深刻反思。在即将到来的AI时代,我们如何确保信息的真实性、避免被误导或欺骗?这不仅是技术挑战,更是对我们人类智慧和道德底线的考验。
虚假信息和错误信息连续两年被列为短期风险之首,对社会凝聚力和治理构成重大威胁,它们不断侵蚀公众信任并加剧国内外分歧。AI聊天机器人的出现进一步放大了这种风险。据Vectara公司的一项研究显示,某些聊天机器人编造事实和虚构信息的概率高达30%。
哈尔滨工业大学(深圳)特聘校长助理张民教授,长期从事自然语言处理、大模型和人工智能研究,他指出:“现阶段AI幻觉难以完全消除。”这意味着,像DeepSeek这样的大模型可能会说出假话,并且在短期内无法避免。
然而,作为使用者,我们并非束手无策。我们可以学会找到AI的正确使用方法,以避免上当受骗。例如,我们可以采用简单的方法,如通过其他搜索引擎对比查询,或深入探究DeepSeek在回答中引用的网页消息源。
在当下信息爆炸、真伪难辨的环境中,每个人都应当时刻保持警惕,强化自我认知,进行独立思考。只有这样,我们才能减少上当受骗的可能性。毕竟,AI并非万能解药,反而对我们提出了更高的要求,包括如何提问、如何与AI对话,以及如何甄别信息等。最终,这些挑战可能会进一步拉大人与人之间的差距。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.