网易首页 > 网易号 > 正文 申请入驻

57.6万代码撕碎AI编程神话,20%「幽灵包」暗藏漏洞!苹果、微软已中招

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】AI编程梦被撕碎!最新研究用57.6万个代码样本揭示:超20%代码依赖的是不存在的软件包。苹果、微软都曾中招,而Meta和微软还在高喊「未来AI写95%代码」。AI写代码的神话,正在变成安全灾难。

最近,扎克伯格表示,Meta正在内部开发专门用于编程和AI研究的智能体——

这些并不是通用型工具,而是为提升 Meta自家AI项目(如 LLaMA)量身定制的专用智能体


他预测,在未来的12到18个月,Meta用于AI开发的大部分代码将不再由人类编写,而是由AI智能体生成

微软首席技术官Kevin Scott的预测更长远,但更大胆。

在最近的一档播客节目中,他预估在未来五年,AI生成的代码将占据主导地位,表示道:

95%的代码将由AI生成,人类完全手动编写的代码几乎一行也没有。


左:微软首席技术官Kevin Scott;右:播客主持人Harry Stebbings

Scott拥有41年的编程经验,足以让他见证行业内的多次变革。

20世纪80年代,汇编语言编程开始向高级语言编程转变,

当时,有些老程序员会说:「如果你不会写汇编语言,就不算真正的程序员,那是唯一正确的编程方式。」

如今,已经没人再提这些了。

在他看来,AI的崛起与当年的变革并无太大不同。

Scott认为,「最优秀的程序员」会迅速适应AI工具:

一开始,开发者对这些工具持怀疑态度,但现在他们的态度变成了「除非我死了,否则别想让我放弃这些工具」。

AI已经成为他们工具箱中不可或缺的一部分。

但软件工程中,「没有银弹」:如果开发的次要部分少于整个工作的 9/10,那么即使不占用任何时间,也不会给生产率带来数量级的提高。

正如Scott所言:「代码的创造性和核心设计,仍然完全依赖于人类。」


论文链接:https://www.cs.unc.edu/techreports/86-020.pdf

拥有超过25年经验的记者Dan Goodin,则报道了AI生成代码,不仅不能取代人类开发者,甚至可能对软件供应链造成灾难性影响。


AI带来的灾难性影响

在2025年美国计算机安全协会安全研讨会(USENIX Security 2025)上,研究人员计划发表一篇论文,报告发现的 「软件包幻觉」现象。


USENIX Security 2025在今年8月13日到8月15日举行

这项研究显示,AI生成的计算机代码中充斥着对并不存在的第三方库的引用,这为供应链攻击创造了绝佳机会。

攻击者可以利用恶意软件包毒害合法程序,进而窃取数据、植入后门,以及实施其他恶意行为。


论文链接:https://arxiv.org/abs/2406.10279v3

该研究使用16种主流大型语言模型(LLM)生成了57.6万个代码样本。

结果发现,这些样本中包含的软件包依赖项里,有44万个是 「幻觉产物」,也就是说它们根本不存在。

开源模型的虚构依赖比例最高,生成的代码所包含的依赖项中21%并不存在。

新型软件攻击:软件包混淆

这些并不存在的依赖项加剧了所谓的「依赖项混淆攻击」,对软件供应链构成了威胁。

这类攻击的原理是让软件包访问错误的组件依赖项。

例如,攻击者发布一个恶意软件包,给它起一个与合法软件包相同的名字,但标注一个更新的版本号。在某些情况下,依赖该软件包的软件会选择恶意版本,而不是合法版本,因为恶意版本看起来更新。


这种攻击方式,也称为「软件包混淆」,在2021年的一次概念验证中首次展示,成功在苹果、微软等巨头公司的网络中执行了伪造代码。


这属于软件供应链攻击,目的是污染软件源头,感染所有下游用户。


软件供应链攻击(software supply chain attack)一般步骤

该研究的主要负责人、德克萨斯大学圣安东尼奥分校的博士生Joseph Spracklen,在给媒体的电子邮件中表示:「一旦攻击者利用虚构软件包名称发布包含恶意代码的软件包,并依靠模型向毫无戒心的用户推荐该名称,如果用户没有仔细验证就安装了该软件包,隐藏在其中的恶意代码就会在用户系统上执行。」


软件包幻觉多严重?

为了评估软件包幻觉问题的严重性,研究人员测试了16种代码生成AI模型(包括GPT-4、Claude、CodeLlama、DeepSeek Coder、Mistral等),使用两个独特的提示数据集,生成了576,000个Python和JavaScript代码样本。

结果显示,推荐的软件包中有近20%是不存在的。

研究发现,不同LLM和编程语言的虚构软件包比例差异显著。

开源模型的平均虚构比例接近22%,而商业模型仅略超5%。Python代码的虚构比例平均为16%,低于JavaScript的21%。

这种差异可能与模型复杂性和训练数据有关。

商业模型(如ChatGPT系列)通常拥有比开源模型多10倍以上的参数,参数量更大可能减少幻觉。此外,训练数据、微调和安全优化也可能影响虚构比例。

至于JavaScript虚构比例高于Python,研究推测这与JavaScript生态系统中软件包数量(约为Python的10倍)和命名空间复杂性有关。

更大的软件包生态和复杂命名增加了模型准确回忆包名的难度,导致虚构比例上升。


不同语言模型在Python和JavaScript代码中的幻觉率

为了验证LLM是否会反复幻觉相同的软件包,研究人员随机抽取了500个引发幻觉的提示,并对每个提示重复查询10次。

结果发现:

  • 43%的幻觉软件包在10次查询中均被重复提及;

  • 39%的幻觉软件包在10次查询中完全未重复;

  • 58%的幻觉软件包在10次迭代中被重复提及超过一次。

研究人员指出:「这表明,大多数幻觉不是随机错误,而是可重复、持续的现象。这种持久性对恶意攻击者更有价值,让幻觉攻击成为更现实的威胁。」

尽管许多模型在某些情况下能检测到自己的幻觉,但问题在于,许多开发者依赖AI生成代码,并盲目信任AI的输出。

「幻觉」难以根除

在AI领域,当大语言模型产生的输出结果在事实上不正确、毫无意义,或者与分配给它的任务完全无关时,就会出现 「幻觉」 现象。

长期以来,「幻觉」 一直困扰着大语言模型,因为它降低了模型的实用性和可信度;而且事实证明,LLM「幻觉」 很难预测和解决

幻觉软件包是否可能源于模型预训练数据中已删除的软件包?

研究人员调查结果发现:已删除软件包对幻觉的贡献「微乎其微」。

他们还发现了「跨语言幻觉」:某个编程语言中的幻觉软件包名称与另一种语言中存在的软件包名称相同。

而跨语言幻觉在JavaScript中更常见。

此外,大多数幻觉软件包的名称与现有软件包名称「实质性不同」,但这些名称往往令人信服,且与上下文高度相关。

对于使用LLM的开发者,研究人员的建议是:在使用AI推荐的代码之前,仔细检查推荐的软件包是否存在,以避免落入供应链攻击的陷阱。

开发者提高警惕和验证,可以有效降低因软件包幻觉引发的安全风险,确保代码安全可靠。

参考资料:

https://arstechnica.com/security/2025/04/ai-generated-code-could-be-a-disaster-for-the-software-supply-chain-heres-why/

https://www.helpnetsecurity.com/2025/04/14/package-hallucination-slopsquatting-malicious-code/

https://x.com/WesRothMoney/status/1917370974032519547

https://www.youtube.com/watch?v=KN7KYzpPfiU

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
论文被指大量错误,武大杨某媛回复

论文被指大量错误,武大杨某媛回复

中国新闻周刊
2025-09-15 19:56:06
南京中小学将设秋假,国庆连休11天?江苏省教育厅:有相关文件,推行政策在制定中

南京中小学将设秋假,国庆连休11天?江苏省教育厅:有相关文件,推行政策在制定中

鲁中晨报
2025-09-15 19:23:07
武汉大学竟被央视除名!是咎由自取、顶风作案,还是不知悔过呢?

武汉大学竟被央视除名!是咎由自取、顶风作案,还是不知悔过呢?

生活奇思妙想家VIP
2025-09-15 08:27:59
9月15日俄乌最新:西科尔斯基一语中的

9月15日俄乌最新:西科尔斯基一语中的

西楼饮月
2025-09-15 16:23:18
涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

涉毒艺人苏永康将在温州办演唱会,有网友投诉,官方:报批资料合规,暂无不举办的通知

极目新闻
2025-09-15 17:38:42
中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

大道无形我有型
2025-09-15 16:45:59
真保级了!阿莫林上任以来曼联31轮31分,除升降级球队外英超垫底

真保级了!阿莫林上任以来曼联31轮31分,除升降级球队外英超垫底

直播吧
2025-09-15 15:50:08
55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

55岁窦唯已迁居阿那亚多年,骑电动车,买菜砍价,生活过得惬意

书雁飞史oh
2025-09-08 17:38:38
被擦妆5次艺考生参加中传开学典礼,此前她因素颜太美被质疑艺考化妆

被擦妆5次艺考生参加中传开学典礼,此前她因素颜太美被质疑艺考化妆

观威海
2025-09-15 14:19:02
长期沉迷网络游戏,林海被“双开”

长期沉迷网络游戏,林海被“双开”

扬子晚报
2025-09-15 19:15:16
罗永浩:决定放弃进一步追究西贝

罗永浩:决定放弃进一步追究西贝

界面新闻
2025-09-15 18:44:26
金正恩返国带回中国重要启示,朝鲜传来震撼消息

金正恩返国带回中国重要启示,朝鲜传来震撼消息

诗意世界
2025-09-14 21:36:37
47岁“渐冻症”网红老贺去世,妻子将其抛弃,老父亲照顾了4年

47岁“渐冻症”网红老贺去世,妻子将其抛弃,老父亲照顾了4年

180视角
2025-09-15 12:21:23
以色列唯一不敢炸的阿拉伯国家:中式装备堆满仓库,以军敢来就打

以色列唯一不敢炸的阿拉伯国家:中式装备堆满仓库,以军敢来就打

梁讯
2025-09-15 13:14:52
新华社快讯:李成钢说,中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社快讯:李成钢说,中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社
2025-09-15 23:15:42
西贝正式发布道歉信:“绝对权威者”贾国龙的一次大败

西贝正式发布道歉信:“绝对权威者”贾国龙的一次大败

锌财经
2025-09-15 16:21:10
美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

美国务卿对黄岩岛国家级自然保护区说三道四,外交部:奉劝美方还南海清净太平

澎湃新闻
2025-09-15 15:42:42
菲律宾媒体:针对民众反腐抗议,菲律宾军队进入“红色警戒”

菲律宾媒体:针对民众反腐抗议,菲律宾军队进入“红色警戒”

环球网资讯
2025-09-15 22:17:45
中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

中美首轮会谈结束,美国要的,中国给不了;中国要的,美国不想给

吃货的分享
2025-09-15 13:05:08
中美密谈6小时,3个细节抢眼,美财长事后放狠话,我国寸步不让

中美密谈6小时,3个细节抢眼,美财长事后放狠话,我国寸步不让

DS北风
2025-09-15 11:47:04
2025-09-15 23:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13452文章数 66154关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

头条要闻

美财长声称中方提出非常"激进"要求 外交部回应

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

数码
家居
艺术
房产
公开课

数码要闻

CASETiFY推出iPhone 17系列手机壳:晶釉手机壳亮相

家居要闻

典雅大气 舒适中带童趣

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版