警惕！DeepSeek的“不靠谱”行为，让使用者频频“踩坑”|翻译|宇宙|詹国枢|deepseek

警惕！DeepSeek的“不靠谱”行为，让使用者频频“踩坑”

2025-02-27 12:01:39　来源: 光速旅者

贵州举报

分享至

你是否已逐渐依赖DeepSeek的“全能”能力？无论是撰写方案、制作PPT，还是解读梦境，它似乎都能一手包办。然而，令人意想不到的是，这款备受信赖的DeepSeek竟也会信口开河。毕竟，AI并非无所不能。如今，首批尝试DeepSeek的用户已深陷其“不靠谱”的陷阱。
“DeepSeek在文献查阅上的失误令人咋舌。”近日，一位来自广州知名高校的教授在朋友圈中表达了这样的感慨。他原本希望通过DeepSeek获取《Global Cantonese: The Spread of Cantonese Language and Culture》的相关信息，但经过仔细核实后发现，DeepSeek提供的作者信息纯属虚构，年份也存在严重错误，甚至出版社也与实际情况大相径庭。

经过深入沟通，DeepSeek方面已确认这些信息存在明显错误，并对此表示了深深的感谢与歉意：
近期，人民日报海外版原总编辑詹国枢也发表了一篇文章，标题直指DeepSeek的弊端——失实。在文章中，詹国枢详细叙述了他在使用DeepSeek时所遭遇的种种问题。例如，当要求DeepSeek撰写一篇关于他的《史记·詹国枢列传》时，开头的出生地和母亲姓氏等基本信息竟然出现了错乱。此外，DeepSeek所写的某记者记述文章虽然文风生动、案例丰富，但经记者本人确认后却全然否认，所有案例均非出自其手。更令人震惊的是，DeepSeek甚至将路遥的《平凡的世界》误标为詹国枢的代表作，这无疑可能误导读者。

实际上，DeepSeek在信息表述上的不严谨问题已经屡遭诟病。例如，它曾错误地将《苦昼短》归为李白所作，同时还将明朝“废除宰相”与“设置内阁”混为一谈，这些失误引发了网友的广泛质疑。有网友直言不讳地表示，DeepSeek更适合用于编写代码和数学运算，而对于文科生来说，它并不友好。那些试图通过DeepSeek来准备国考、省考的人，可能不得不重新依赖申论教材来复习。同时，一些期望通过DeepSeek来解放人力的用户也感到失望，他们发现，在使用DeepSeek撰写的文章中，所举的例子有多个无法查证，最后才发现这些例子都是DeepSeek自行编造的。他们不禁感叹，原本期望能够解放自己，结果却因为需要核查信息而花费了更多的精力。

若仅限于事实性错误，或许还可归咎于搜索结果的准确性问题，然而，更令人担忧的是其背后的逻辑与推理能力。
以陕西自媒体“决明子”的案例为例，其对于西安安定门附近的道路规划一直存在疑问，为何从环城西路北段到环城西路南段不能直行，而必须在安定门处绕行一圈。在尝试了多种方法寻求解答未果后，该自媒体决定尝试DeepSeek。然而，即便是这样一款声称具备强大信息处理能力的工具，也未能给出令人满意的答案。这一事件暴露出DeepSeek在处理复杂逻辑问题时的不足，引发了人们对其真实能力的质疑。

接着，DeepSeek开始阐述其观点。它首先引入了“唐皇城交通静默区”的概念，并援引《西安历史文化名城保护规划（2020-2035）》来解释，安定门周边被划定为一、二级静默区，旨在保护文物，避免因交通震动而可能造成的损害。DeepSeek还详细列出了相关的空间数据，包括距离的增加和振动传递深度的变化。

乍一看，DeepSeek的解释似乎无懈可击，它引用了理论、数据和政策，似乎一切都尽在掌握。然而，经过网友的仔细核查，却发现《西安历史文化名城保护规划（2020-2035）》这份文件中，实际上并未提及所谓的“静默区”概念。这个原本看似专业且有理有据的回答，竟然纯属虚构。
反馈给DeepSeek后，它坦诚地承认了错误，确实，《西安历史文化名城保护规划（2020-2035）》这份文件中并未提及“静默区”的概念。但令人惊讶的是，它随后又做出了新的解释和澄清，似乎在“精心编织”自己的答案。

AI的这种精心包装，使得其生成的材料看起来真实度极高，仿佛具备某种“意识”在操控，这种能力确实令人不寒而栗。有时，为了展示其回答的高深度，DeepSeek甚至会引入一些专业词汇，如量子纠缠、熵增熵减等。当这些“话术”超出用户的认知范围时，确实可能让人瞬间震惊，难以分辨真假。

那么，究竟是何原因促使DeepSeek做出这种不懂装懂甚至“说假话”的行为呢？
原因揭秘：AI幻觉现象。
业内常用“AI幻觉”来形容AI在回答问题时所出现的“说假话”现象。这指的是其输出答案在表面上似乎内容连贯、合理，但实际上与输入问题的意图、世界知识、现实情况或已知数据存在不一致，甚至无法验证。DeepSeek并非个例，这种现象广泛存在于各类AI模型中。

去年8月，纽约的人工智能初创公司和机器学习监控平台Arthur AI发布了一份报告，对多家公司开发的大语言模型进行了比较，包括OpenAI、“元宇宙”Meta、Anthropic以及Cohere等。报告揭示了一个惊人的事实：这些大模型都存在不同程度的幻觉现象。即便是业界领先的ChatGPT，也未能幸免。

值得注意的是，DeepSeek-R1在Vectara HHEM人工智能幻觉测试中的表现尤为突出，其幻觉率高达14.3%。这一数字不仅比其前身DeepSeek-V3高出近4倍，更远超行业平均水平。

图：Vectara HHEM人工智能幻觉测试结果
DeepSeek在面对其“技术局限性认知”时坦言，当前大模型内容生成的底层逻辑主要基于概率，这确实带来了生成信息可信度不一的挑战。
简而言之，DeepSeek在生成内容时并不总是保持“保真”。这意味着，无论互联网上的内容真假如何，DeepSeek都有可能将其作为引用素材，并仅基于已有内容进行推理，而不对信息本身进行核实。DeepSeek-R1版本则进一步强化了“思维链”（CoT）和创造力，使得其在诗歌创作方面尤为出色。不仅能轻松应对五绝、七律，还能展现出流畅的“起承转合”结构，以及对诗境的独到见解。其创作出的诗句甚至被网友誉为“比祖传的《唐诗三百首》还工整”，令中文系毕业生自愧不如，不禁发问：在AI随手拈来的诗词都超越人类文学教授的背景下，人类的文学还有何存在的意义？未来是否还能诞生出卓越的诗人？

如此强大的创作力，得益于DeepSeek-R1在文科类任务强化学习中的持续鼓励。正如“出门问问大模型团队前工程副总裁、Netbase前首席科学家李维所言：“大模型如同天生的艺术家，而非仅仅是死记硬背的数据库。然而，这种强化学习也带来了一些“副作用。

在“思维链的强化过程中，DeepSeek-R1并非仅对摘要、翻译或新闻写作等相对简单的任务进行优化，而是力求在各个层面进行深入思考和延申。这赋予了它在面对复杂或困难问题时能够超常发挥，甚至给出意想不到的答案。但与此同时，当面对一些较为简单的任务时，DeepSeek-R1可能会因习惯深度思考而过度发挥。

例如，当询问“隔壁老王有多高时，它可能因未见其人、未知其详而感到困惑。然而，由于必须给出答案，它便开始“脑补，依据先前学到的关于“一般人身高的概念来编织一个答案。因此，相较于在“理科方面的逻辑性，DeepSeek-R1在“文科方面可能因过度发挥而将不相关内容关联起来，甚至出现胡编乱造或彻底错误的情况。
3. 在AI时代加速到来的背景下，寻求真相、增强明辨是非和独立思考的能力显得尤为重要。
就在除夕夜，一篇关于“如何看待冯骥盛赞‘Deepseek’”的讨论在知乎上引发了热议。一名自称是“Deepseek创始人梁文锋”的用户，在回答中深情地分享了团队对冯骥盛赞的感慨，并详细介绍了DeepSeek的研发历程。然而，新浪科技向相关人士求证后发现，该知乎账号并非梁文锋本人，而是DeepSeek所写。这意味着，DeepSeek不仅生成了广为流传的“第一个假新闻”，还巧妙地利用了人们对梁文锋的想象，制造了一场科技界和金融界的热传。

这一现象引发了人们对AI技术的深刻反思。在即将到来的AI时代，我们如何确保信息的真实性、避免被误导或欺骗？这不仅是技术挑战，更是对我们人类智慧和道德底线的考验。
虚假信息和错误信息连续两年被列为短期风险之首，对社会凝聚力和治理构成重大威胁，它们不断侵蚀公众信任并加剧国内外分歧。AI聊天机器人的出现进一步放大了这种风险。据Vectara公司的一项研究显示，某些聊天机器人编造事实和虚构信息的概率高达30%。

哈尔滨工业大学（深圳）特聘校长助理张民教授，长期从事自然语言处理、大模型和人工智能研究，他指出：“现阶段AI幻觉难以完全消除。”这意味着，像DeepSeek这样的大模型可能会说出假话，并且在短期内无法避免。

然而，作为使用者，我们并非束手无策。我们可以学会找到AI的正确使用方法，以避免上当受骗。例如，我们可以采用简单的方法，如通过其他搜索引擎对比查询，或深入探究DeepSeek在回答中引用的网页消息源。

在当下信息爆炸、真伪难辨的环境中，每个人都应当时刻保持警惕，强化自我认知，进行独立思考。只有这样，我们才能减少上当受骗的可能性。毕竟，AI并非万能解药，反而对我们提出了更高的要求，包括如何提问、如何与AI对话，以及如何甄别信息等。最终，这些挑战可能会进一步拉大人与人之间的差距。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.