网易首页 > 网易号 > 正文 申请入驻

DeepSeek最大的缺陷:创造力爆棚,却因爱“说假话”屡屡翻车

0
分享至

声明:本文内容均引用权威资料结合个人观点进行撰写,文末已标注文献来源,请知悉。

这段时间DeepSeeK的火爆全球是毋庸置疑的,只要同DeepSeeK牵扯上概念的任何行业都成了资本狂热追逐的对象,社会也成了仿佛不谈几句DeepSeeK就已经过时了的地步。

可DeepSeeK真的有那么神吗?为什么一个让美国硅谷大佬们纷纷高呼狼来了的大模型会经常出现常识性的错误呢?

DeepSeeK成李鬼了

这事儿还得从网友老詹让DeepSeeK写的詹国枢传记开始说起, 没想到本来有些玩闹性质的测试却硬生生的把DeepSeeK的硬伤给测了出来。

如果不知道事情的来龙去脉,单从DeepSeeK文章来看,这一篇《史记·詹国枢列传》写的还是不错的,至少字里行间的史记味儿特别浓,堪称一部现代版的荷马史诗。

但仔细读一下文章内容,事儿可就慢慢有点不对了,开篇第一句话是:詹国枢,巴蜀泸州人,共和癸未年生,少孤贫,母陈氏以浆洗供束脩。

这短短一句话愣是错了两个关键点,网友根本就不是泸州人,母亲自然也不是什么陈氏。

剩下一篇文章洋洋洒洒数百字,更是漏洞百出没什么实际内容,但这只不过是DeepSeeK出现幻觉的一个缩影而已,这段时间已经有多名网友反应,DeepSeeK在进行文章写作时,非常容易说假话。

DeepSeeK的有篇文章把从未上过大学的杨乔生生捏造成了中国人民大学的高材生,至于金婚和糖水杯之类的描述更是让人哭笑不得,或许是为了文学修饰,文章里竟然出现了“翻出珍藏的糖水杯”这样的桥段,让人哭笑不得的同时,对DeepSeeK也产生了些许质疑,就凭这种文字水平,DeepSeeK凭什么让那些硅谷的IT大佬们破防呢?

为了验证DeepSeeK的有效性,网友又开始了对DeepSeeK的调教,让它写一篇对老班长朱大建的介绍,结果又是张冠李戴,把著名小说《平凡的世界》的作者都扣在了朱大建的头上,这种错误犯的实在是有点无厘头了,或许是在写作的最后发现了错误,DeepSeeK还有些亡羊补牢的加上了一句“虽然并非本人所著”。

被人奉为圭臬的DeepSeeK那就这个水平吗?这玩笑开得实在是有点大了吧!

从技术的角度来讲,DeepSeeK为何会屡犯低级错误?难不成AI在发展的初级阶段,就已经学会撒谎了吗?

如果这是大模型的弊端,那我们还可以将主要工作交给大模型吗?如果现在的大模型连明辨是非的能力都没有,相对复杂和严谨的工作放心的交给DeepSeeK呢?

AI模型为何总是胡说八道?

如果将责任全部推到DeepSeeK头上就实在是有点强人所难了,其实这种撒谎的现象是AI的通病,按照专业点的叫法,这叫幻觉!这在普通人看来就是胡说八道。

不管我们向大模型提出什么问题,他们几乎都可以不假思索的给出我们一个煞有介事的回答,但是这些回答很有可能没有任何依据。

DeepSeeK这么火,自然逃不过权威机构对其的测试,在最近的一次测试中,DeepSeeK-R1的幻觉率高达14.3%。

这也就几乎封死了DeepSeeK进行高精度工作的可能,100句话有14句是纯属虚构的,这种不靠谱的概率也实在太高了,虽然DeepSeeK-R1的推理能力看上去十分靠谱,但它的幻觉率却比前代版本V3高了近四倍,远超行业平均水平。

先不管AI出现幻觉的原因,至少我们在使用AI进行工作时一定不要丧失自己的判断力,更不能将AI看上去极为靠谱的回答当成是教科书,AI是真的可能胡说八道的!

但AI为什么会有幻觉呢?从根本上来讲AI模型的学习方式跟我们人类还是完全不同的,人类之所以在学习的过程中不断纠错,是因为我们拥有逻辑推理能力,将逻辑推理和事实验证叠加之后,就可以排除掉许多冗杂错误的信息,来确保信息的准确性。

可AI虽然看上去十分聪明,但严格意义上来说它是没有智慧的,生成内容靠的是概率和统计,所谓的训练数据只不过是让大模型在快速处理数据的过程中,根据概率来预测最可能的回答。

当大模型在学习的过程中遇到一些模糊或未曾见过的事实时,AI的硬伤就出来了,它会根据已有数据的大致规律去编造,有那么点盲人摸象的意思,只要从语序上符合逻辑。

AI就可以煞有介事的说出来,这个人类的猜测有点类似,只不过这些文字在被AI包装了之后,看上去更加专业了而已。

可DeepSeeK的最新模型主打的是推理和泛化能力,明明可以煞有介事的推理了,为什么反幻觉率反而比前代更高了呢?

这就是思维链和创造力训练带来的反效果,思维链虽然模拟了我们的思维导图,也可以根据一个问题推导出一连串的思考,但是仅限于进行推理。

既然是推理就一定会出现多种思维链条,如果思维链条出现偏差,将会导致推理过程越走越偏,幻觉自然也就越来越多了。

特别是专业文字写作或者对于事实认定必须严谨的工作来说,模型很容易在推导过程中将自己带入死循环,胡编乱造也就成了必然!

不过可千万不要把AI的幻觉看成是短板,在很多需要创造力的工作中,幻觉反而成了优点。

比如说小说写作,天马行空的推导过程很有可能会碰撞出更加精彩的情节,所以说技术本没有错,只是看要把它用在什么方面而已,而且幻觉是现阶段大模型的通病,就算是chatgpt4o也没办法完全解决胡说八道的问题。

虽然chatgpt4o在幻觉出现的概率中做的要比DeepSeeK好上不少,但至少openAI在现阶段还是没有办法来解决这个问题的,不过在我看来,AI的创造力和幻觉是硬币的两面,虽然给我们带来了不少困扰,但有时候那些天马行空的创意也会让人感觉心中一亮。

不过DeepSeeK这么不靠谱,为什么还能在全球引发这么大轰动呢?现在的几乎已经成了AI界的一哥,R1的日活用户已经突破1500万,是很多国家应用榜单的第1名。

一个幻觉概率这么高的大模型,真的有必要让全球如此疯狂吗?

DeepSeeK如何搅动全球AI江湖

对于我国来说,就算DeepSeeK现在有幻觉的顽疾,对于整个国家的AI产业来说,也是突破性的。

之前AI大模型领域的主导权可是一直被攥在欧美几大科技巨头手里的,OpenAI、谷歌和微软轮番上阵,你方唱罢我登场,西方国家在大模型方面的技术优势,也成了他们想要遏制我国发展的工具之一。

DeepSeeK的横空出世直接打破了这一局面,不光但我国在这方面看到了突破的曙光,也成了我国首个登上全球AI舞台中央的模型。

对比与DeepSeeK的其他炸裂能力来说,幻觉真的只能算是小问题,DeepSeeK模型无论是在数学推理、代码编写还是自然语言处理上,都追平了OpenAI。

由于是本土模型的原因,DeepSeeK对于中文的理解能力比那些外国洋和尚高上不少,至少字里行间的外国味儿没那么重了,所以国内开发者们如此推崇DeepSeeK的原因更多的是这一大模型的出现让我国的AI圈儿里看到了更多的希望。

再就是DeepSeeK的成本控制做的实在是太恐怖了,大家都是大模型,欧美巨头们动辄几十亿美金的狂轰滥炸,硬生生的在金元策略的基础上将大模型给堆了起来。

DeepSeeK则上来就是一个王炸,硬生生用了不到600万美元的资金打造出了一个许多能力可以同chatgpt4o相媲美的竞品模型,如此低的成本控制让DeepSeeK在售价方面的优势实在是太强了,API定价不到OpenAI的三十分之一,如此便宜又好用的模型自然受到了业界推崇。

所以那些硅谷大佬们担心的并不是DeepSeeK在技术上的突破,这些人纵横全球互联网界这么多年,这一点技术自信还是有的,他们担心的是DeepSeeK的价格战策略将它们拖入恶性竞争的泥潭,最终不得不在DeepSeeK的逼迫下赔本赚吆喝,这才是他们不愿意看到的事实。

更让这是大佬们挠头的是DeepSeeK选择了开源,之前大家对于自家的大模型技术都是敝帚自珍的,生怕其他竞争对手通过自己独有的技术路线实现弯道超车。

所以DeepSeeK的行为是打破行业惯例的存在,这也是DeepSeeK能够在极短的时间内积累大量粉丝的王牌计策。

那DeepSeeK的未来就已经高枕无忧了吗,其实我觉得DeepSeeK想要走出未来的路还有不少问题需要解决,幻觉就是其中的老大难问题,虽然从技术的层面来讲可以理解大模型胡编乱造的现状,但是理解归理解,在实际工作中有很多场景是不希望这些幻觉产生的。

可是在当前的技术架构下,想要将幻觉问题全部清理干净的可能性并不大,虽然其他的模型也会出现幻觉的问题,但DeepSeeK幻觉的出现率着实是有点高。

如果一天不将这个问题解决,DeepSeeK继续延续成功一定是有风险的,这种幻觉是十分容易丧失客户信任度的,一旦DeepSeeK不靠谱的认知成为大众主流,那DeepSeeK基本上也就没有未来了。

结语

不管怎样,DeepSeeK都是我国第一个能够真正走上世界舞台的大模型,还是希望他能够在这条路上继续延续现代的传奇。

还是那句话,模型不能只靠脑补,还得有据可依!希望未来的DeepSeeK靠谱一些,至少别再闹出一些让人哭笑不得的笑话了。

声明:取材网络,谨慎辨别

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
掀桌了?高市公布战争方案,日要求渔民撤离,白宫与五角大楼沉默

掀桌了?高市公布战争方案,日要求渔民撤离,白宫与五角大楼沉默

时时有聊
2026-01-28 08:18:56
纽约期银涨幅扩大至8%

纽约期银涨幅扩大至8%

每日经济新闻
2026-01-28 09:15:05
新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

新加坡首次打破50年惯例,将要为中国统一扫清一大障碍

云上乌托邦
2026-01-23 15:07:21
真相大白!以色列为何突然老实了呢?真实原因开始浮出水面

真相大白!以色列为何突然老实了呢?真实原因开始浮出水面

墨印斋
2026-01-20 16:46:58
登上好莱坞标志挂内衣?“悉尼妹”这次玩得有点大!

登上好莱坞标志挂内衣?“悉尼妹”这次玩得有点大!

粉红冻奶的观影日记
2026-01-28 17:32:38
阿里纳斯:湖人队应该尝试交易得到雄鹿队字母哥

阿里纳斯:湖人队应该尝试交易得到雄鹿队字母哥

好火子
2026-01-29 05:46:41
全职妈妈熬夜学开无人机:收入就是我的底气

全职妈妈熬夜学开无人机:收入就是我的底气

新京报
2026-01-28 18:43:20
德州市委书记田卫东、滨州市委书记宋永祥,已任山东省政协党组成员!

德州市委书记田卫东、滨州市委书记宋永祥,已任山东省政协党组成员!

小鬼头体育
2026-01-28 09:53:31
特朗普:她不会辞职;我可能面临被弹劾

特朗普:她不会辞职;我可能面临被弹劾

扬子晚报
2026-01-28 07:23:00
老人在北京军博偷摸文物被制止,他却语出惊人:我背它走完的长征

老人在北京军博偷摸文物被制止,他却语出惊人:我背它走完的长征

云霄纪史观
2026-01-28 18:03:04
一心想骑在人民头上作威作福?“全职考公”这种歪风应当遏制

一心想骑在人民头上作威作福?“全职考公”这种歪风应当遏制

北欧模式
2026-01-01 21:32:49
突发!字母哥将被交易!离开雄鹿!

突发!字母哥将被交易!离开雄鹿!

寒律
2026-01-29 00:52:41
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
故事:老知青病重托儿子去甘肃找初恋见最后一面,儿子见到后愣了

故事:老知青病重托儿子去甘肃找初恋见最后一面,儿子见到后愣了

红豆讲堂
2025-03-02 13:30:05
欧冠16强出炉,英超5队晋级附加赛

欧冠16强出炉,英超5队晋级附加赛

铿锵格斗
2026-01-29 06:48:31
说句扎心的大实话,咱们在南海的“牌”,一开始烂到家了。

说句扎心的大实话,咱们在南海的“牌”,一开始烂到家了。

南权先生
2026-01-27 15:44:44
结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

结婚23年她的内衣都是丈夫洗,在丈夫入狱后,她为夫还债三千万

琨玉秋霜
2026-01-27 14:10:08
上海50多岁智力残疾女子花18万元买游戏代币,被发现时已消耗11万!家属:这是她妈妈的遗产!

上海50多岁智力残疾女子花18万元买游戏代币,被发现时已消耗11万!家属:这是她妈妈的遗产!

大象新闻
2026-01-28 17:49:30
小卡21分7篮板快船击败爵士3连胜,哈登16分10助攻马尔卡宁19分

小卡21分7篮板快船击败爵士3连胜,哈登16分10助攻马尔卡宁19分

湖人崛起
2026-01-28 13:30:34
曾是上海申花队长,退役后全家移居美国,没想到他早已回国再就业

曾是上海申花队长,退役后全家移居美国,没想到他早已回国再就业

泠泠说史
2026-01-28 18:40:58
2026-01-29 07:19:00
百科密码 incentive-icons
百科密码
专注趣味科普人文百科。
3224文章数 5605关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

家居
亲子
房产
健康
公开课

家居要闻

跃式别墅 包络石木为生

亲子要闻

好聪明的宝宝,这样的家庭一定能教出很好的孩子

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版