网易首页 > 网易号 > 正文 申请入驻

大事不妙?AI 写的代码可能给软件供应链埋下“炸弹”!

0
分享至

简单说,LLM(大型语言模型)生成出来的代码,可能让我们在面对供应链攻击时脆弱得多。

最新研究发现,AI 生成的那些代码里,竟然藏着一大堆指向根本不存在的第三方库的引用。这简直是给搞供应链攻击的坏蛋们送上了一个绝佳的机会!他们可以趁虚而入,把带毒的软件包塞进正常的程序里,轻轻松松就能偷数据、留后门,或者干别的坏事。

这项研究找来了市面上最常用的 16 个大型语言模型,让它们生成了 57.6 万份代码样本。结果惊人:这些代码里引用的软件包“依赖项”(dependencies)中,有整整 44 万个是“幻觉”出来的——也就是说,它们在现实世界里根本不存在。开源模型最爱“幻觉”,有 21% 的依赖项都链到了不存在的库。解释一下,“依赖项”就像是搭积木时必不可少的一块儿,没了它另一块积木就没法正常工作。有了依赖项,程序员就不用啥都自己写,省老鼻子事儿了,它可是现代软件供应链里特别重要的一环。

“幻觉软件包”的那些惊魂瞬间

这些不存在的依赖项,通过加剧一种叫做“依赖项混淆攻击”的手段,给软件供应链带来了大麻烦。这种攻击怎么玩儿呢?简单讲,就是利用软件调用依赖项时可能犯迷糊的机会。比如,坏蛋发布一个恶意软件包,给它起个跟正版一模一样的名字,但版本号弄得更高。有些软件在调用这个依赖项时,一看版本号新的,就可能直接抓取那个恶意版本,而不是正版那个。

这种攻击手法也叫“软件包混淆”,在 2021 年的一次概念验证攻击中首次被公开展示过。那次攻击可厉害了,成功在地球上一些最大公司(你没听错,包括苹果、微软、特斯拉!)的网络上跑了伪造的代码。这,就是软件供应链攻击的一种玩法——目标是从软件最源头下手,把病毒/恶意代码悄悄植入进去,好感染所有下游使用这款软件的用户。

研究的牵头人 Joseph Spracklen 博士(他是德克萨斯大学圣安东尼奥分校的博士生)通过邮件告诉 Ars 网站说:“一旦攻击者用那个‘幻觉’出来的名字发布一个包含恶意代码的软件包,他们就等着模型把这个名字推荐给那些没多想的用户。”“要是用户太相信 LLM 的输出,没仔细检查就安装了那个软件包,藏在恶意软件包里的攻击载荷就会在用户的系统里运行起来。”

在 AI 的世界里,“幻觉”就是指 LLM 吐出来的内容事实不对、没逻辑,或者跟它该干的活儿完全不搭边。幻觉这个毛病一直困扰着 LLM,因为它让 AI 变得不好用,也不那么值得信赖,而且预测和解决起来也特别头疼。在计划于 2025 年 USENIX 安全峰会上发表的一篇论文里,他们就把这种现象正式命名为“软件包幻觉”。

为了搞这项研究,研究人员用了 Python 和 JavaScript 两种编程语言跑了 30 组测试,每组测试生成 19200 份代码样本,总共弄出了 57.6 万份代码。这些样本里一共引用了 223 万个软件包,其中有 440445 个,也就是 19.7%,指向的是不存在的软件包。在这 440445 个“幻觉”软件包里,有 205474 个是独一无二的名字。

让这些幻觉软件包在供应链攻击中特别值得注意的一点是,有 43% 的幻觉软件包在超过 10 次提问中竟然重复出现!研究人员写道:“更进一步说,有 58% 的时候,同一个幻觉软件包在 10 轮生成里不止一次出现,这说明大部分幻觉不是简单的随机错误,而是一种可以重复出现的现象,反复在多轮生成中顽固存在。这太关键了,因为一个老是重复出现的幻觉,对于那些想利用这个漏洞的坏蛋来说更有价值,也让这种利用幻觉的攻击手段变得更可行、威胁更大。”

换句话说,很多幻觉软件包的名字不是随机蹦出来一次就没了。恰恰相反,那些根本不存在的软件包名字,很多时候会反复被 AI 编出来。攻击者就可以抓住这个规律,找出那些被 AI 反复“幻觉”出来的、不存在的软件包名字。然后,他们就用这些名字发布恶意软件,就等着大量开发者“中招”、把它们下载到自己的系统里。

研究还发现,不同的 LLM 和编程语言产生幻觉软件包的比例差异很大。像 CodeLlama 和 DeepSeek 这些开源 LLM,平均有近 22% 的软件包是幻觉出来的,而商业模型(比如 ChatGPT 系列)只有略高于 5%。用 Python 写的代码比 JavaScript 代码产生的幻觉少,Python 代码平均近 16%,而 JavaScript 代码平均略高于 21%。当被问及原因时,Spracklen 博士写道:

这问题挺难回答的,因为大型语言模型这玩意儿太复杂了,很难直接追溯因果。不过,我们确实观察到商业模型(比如 ChatGPT 系列)和开源模型之间存在显著差异,这几乎肯定是因为商业模型的参数量要大得多。大多数估算认为,ChatGPT 模型的参数量至少是我们测试的开源模型的 10 倍以上,不过它们具体的架构和训练细节都是保密的。有意思的是,在开源模型内部,我们没有发现模型大小和幻觉率之间有明确的联系,这可能是因为它们的参数量都在一个相对较小的范围内。

除了模型大小,训练数据、微调、指令训练、安全调优等方面的差异,很可能都对软件包幻觉率有影响。这些过程本来是为了提高模型的使用便利性和减少某些错误,但它们可能会在软件包幻觉这样的现象上产生意想不到的连锁反应。

同样,JavaScript 软件包幻觉率比 Python 高的原因也难以盖棺定论。我们猜测,这可能是因为 JavaScript 的生态系统里软件包数量大约是 Python 的 10 倍,再加上其命名空间更复杂。面对一个更大、更复杂的软件包“地图”,模型就更难准确回忆起特定的软件包名字,这导致其内部预测的不确定性更大,最终表现为更高的幻觉软件包率。

这些发现,是最新一批证明 LLM 输出“骨子里就不靠谱”的研究。考虑到微软 CTO Kevin Scott 都预测未来五年 95% 的代码将由 AI 生成,希望咱们开发者们都能把这个警告放在心上!

关注【黑客联盟】带你走进神秘的黑客世界

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1990年,德国为了统一被迫放弃19万平方千米的土地,并写进宪法

1990年,德国为了统一被迫放弃19万平方千米的土地,并写进宪法

博览历史
2025-11-16 18:45:03
角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

角逐940万大奖,丁俊晖火箭都0-4出局!赵心童独闯八强附对阵赛程

求球不落谛
2025-11-20 07:05:55
外交部提醒日方:借台湾生事,只会给日本找事

外交部提醒日方:借台湾生事,只会给日本找事

澎湃新闻
2025-11-20 15:22:33
元军大将王保保连斩明军5大将领,在阵前叫嚣,徐达却不做声

元军大将王保保连斩明军5大将领,在阵前叫嚣,徐达却不做声

白云故事
2025-11-13 18:35:05
新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

领悟看世界
2025-10-05 18:42:23
把不同的自己,都装在生活的取景框里。

把不同的自己,都装在生活的取景框里。

侦姐有料
2025-10-23 10:31:44
高市早苗的面相,早有注定!

高市早苗的面相,早有注定!

燕梳楼频道
2025-11-17 12:28:50
全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

全剧终了?高市已“举白旗”,不会再乱谈台海问题,马英九没说错

混沌录
2025-11-20 00:11:03
邵雨琪1.90米夺冠,加冕「锦标赛+冠军赛+全运会」三冠王!

邵雨琪1.90米夺冠,加冕「锦标赛+冠军赛+全运会」三冠王!

马拉松跑步健身
2025-11-19 22:51:03
弃山东投孙颖莎!她拒绝和勒布伦绯闻,带伤病加盟河北,原因曝光

弃山东投孙颖莎!她拒绝和勒布伦绯闻,带伤病加盟河北,原因曝光

余鴡搞笑段子
2025-11-15 11:45:53
网友曝光蔡徐坤上学时的照片!我的妈呀!他以前长这样?

网友曝光蔡徐坤上学时的照片!我的妈呀!他以前长这样?

动物奇奇怪怪
2025-11-20 00:54:43
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
于福林任上港集团董事长

于福林任上港集团董事长

港口圈
2025-11-20 16:05:40
冬天,对肺非常好的“3种蔬菜”,天转凉多给孩子吃,人人吃得起

冬天,对肺非常好的“3种蔬菜”,天转凉多给孩子吃,人人吃得起

花小厨
2025-11-18 11:55:05
罗永浩评俞敏洪: 铁公鸡只是小气、猥琐、虚伪,但人不是很坏!

罗永浩评俞敏洪: 铁公鸡只是小气、猥琐、虚伪,但人不是很坏!

玖宇维
2025-11-19 21:31:00
流量太可怕了!“冷美人”在病房开启首次直播,在线人数超10万…

流量太可怕了!“冷美人”在病房开启首次直播,在线人数超10万…

火山诗话
2025-11-19 20:50:35
喻恩泰5年首更微博回应!这场婚变罗生门,三重反转后终见真章?

喻恩泰5年首更微博回应!这场婚变罗生门,三重反转后终见真章?

露珠聊影视
2025-11-19 23:22:13
造出全球最大蒙皮机,中国终于掌握这个“命门”

造出全球最大蒙皮机,中国终于掌握这个“命门”

正解局
2025-11-19 12:24:44
“网友的弱智发言能有多癫狂?” 哈哈哈哈哈哈哈哈笑得腹肌痛!!!

“网友的弱智发言能有多癫狂?” 哈哈哈哈哈哈哈哈笑得腹肌痛!!!

不二表姐
2025-10-27 23:48:33
倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

倒闭14万家!曾年赚22亿的奶茶之王,加盟商怒挂条幅:血本无归!

青眼财经
2025-11-13 23:02:27
2025-11-20 20:44:49
黑客联盟I
黑客联盟I
免费、开源、自由……
347文章数 1064关注度
往期回顾 全部

科技要闻

马云发话了:冲第一

头条要闻

天合光能:与霸王茶姬尚未有任何关联交易或商业合作

头条要闻

天合光能:与霸王茶姬尚未有任何关联交易或商业合作

体育要闻

Faker,何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

中央要求增加地方自主财力 有哪些动作

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

本地
时尚
手机
亲子
公开课

本地新闻

卖力整活儿的大湾鸡,靠疯癫成了新顶流

这四组绝美的冬季配色,很“暖”!

手机要闻

魅族科技确认不搬新总部:魅族科技大楼租期还很长,会一直陪大家

亲子要闻

糖果小虫子比美大会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版