网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

部分AI大模型在负面指令测试中出现危险输出

2025-07-22 09:34:11　来源: 三言科技

北京举报

0

分享至

据南方都市报，日前，南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测，发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示，部分大模型未能抵御指令“污染”，其中三款模型在其他领域回答中输出危险方案，如“抢银行”“用水泥灌内胎”等。专家指出，AI行为失控可能源于预训练阶段，但可通过“再对齐”技术纠正。复旦大学教授张谧建议，通过小模型监管大模型或大模型互相监督，并建立伦理审查机制，确保AI模型的安全性和合规性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

扩散语言模型也有MoE版本!蚂蚁&人大从头训练LLaDA-MoE,即将开源

机器之心Pro 2025-09-12 21:35:04
1 跟贴 1
清华首次提出数据驱动控制新形式，算法效率直翻三倍

量子位 2025-09-12 17:05:17
0 跟贴 0

基于3DGS场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

机器之心Pro 2025-09-08 13:26:10
0 跟贴 0

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

量子位 2025-09-14 13:46:24
3 跟贴 3
从分布外检测到代码生成，这位博士生要让AI既可靠又好用

DeepTech深科技 2025-09-05 23:07:42
0 跟贴 0

和ChatGPT聊完天，我患上了“精神病”

虎嗅APP 2025-09-14 20:10:21
0 跟贴 0

机器人入职洗衣房，开始打工挣钱！苹果前AI高管打造

量子位 2025-09-14 18:15:34
1 跟贴 1
马斯克深夜挥刀，Grok幕后员工1/3失业！谷歌AI靠人肉堆起，血汗工厂曝光

新智元 2025-09-14 19:09:00
3 跟贴 3

研究人员打造带有AI同行评审的预印本平台，有望革新科学出版方式

DeepTech深科技 2025-09-14 20:20:53
0 跟贴 0
超算互联网上线开源AI社区！模型+数据+算力，一站式解决

量子位 2025-06-23 20:07:47
0 跟贴 0
理想汽车推送OTA 8.0版本，李想称公司辅助驾驶开始“全面领先”，VLA优于世界模型？

每日经济新闻 2025-09-12 18:26:05
19 跟贴 19
理想OTA 8.0升级包括VLA司机大模型/增强型AES等

太平洋汽车 2025-09-12 15:11:13
0 跟贴 0
腾讯优图重磅开源Youtu-GraphRAG，实现图检索增强技术新突破

机器之心Pro 2025-09-13 18:17:56
0 跟贴 0
中国战略导弹技术新突破，会出现“惊雷-2”，“巨浪-4”吗

陈虎点兵 2025-09-15 00:15:47
1 跟贴 1
蚂蚁数科AI技术负责人：未来要靠智能体原生大模型

机器之心Pro 2025-08-04 15:47:29
0 跟贴 0
秋生探们的安全性好不好就把文才吓得腿软开门一瞬间惊了

橘子小猫剧 2025-09-13 15:02:54
1 跟贴 1
69年的机械兵，八级工，国企退休的大爷方案：退休金满意，心坦荡

养老规划罗姐说 2025-09-13 16:57:25
1 跟贴 1
美国战略专家：“俄罗斯与中国，差了十万八千里”

一饮山河 2025-09-13 11:04:22
1 跟贴 1
女子称贷款100多万中介收31万多方回应

极目新闻 2025-09-14 08:55:17
3980 跟贴 3980
卫星图片：加沙城从废墟变为齑粉

央视新闻客户端 2025-09-13 16:19:29
17959 跟贴 17959
几种降压药安全性排名！最安全的竟是它，危害最大的需警惕！

鑫鑫知识分享 2025-09-14 18:36:44
0 跟贴 0
特朗普与泽连斯基会面：欧美讨论美欧俄三方会谈方案

因果 2025-09-13 02:02:03
0 跟贴 0
中国用30万吨蜜瓜解决困扰全球50年难题，40国专家看后激

命运自认幽默 2025-09-13 03:26:53
0 跟贴 0
国外房顶的构造，这操作真是长见识，效率提升安全性就不知道了！

三事堂观察 2025-09-10 15:30:33
0 跟贴 0
这手机安全性满满的，一般人打不开锁屏，好几遍也看不明白

爆笑趣玩 2025-09-14 14:42:05
1 跟贴 1
国民党缺的就是这股劲！洪秀柱提两岸统一方案，硬刚民进党不含糊

军卫防务 2025-09-13 17:29:49
0 跟贴 0
打脸了？2015年专家预测：一旦开放二胎，中国新生人口将会激增

一针见娱 2025-09-14 21:44:59
3 跟贴 3
第一反应觉得残忍，镜头抬起凉快，这技术也是杠杠的！

开心搞笑一天 2025-09-14 09:31:42
1 跟贴 1
一旦战争爆发，日本专家曾言：日军将对中国军舰发起“三重打击”

魏叔胡侃 2025-09-12 12:31:53
14 跟贴 14
媒体:俄海军"去航母化"是在现实约束下走出的最优解

新民周刊 2025-09-14 13:08:17
685 跟贴 685
高层电梯房为何不受待见了？专家：未来高层住宅会沦为“贫民窟”

绘生绘摄 2025-09-12 07:54:27
0 跟贴 0
人民日报：预制菜风波与其站队不如站"对"

人民网-人民日报 2025-09-14 19:17:59
7213 跟贴 7213
中方宣布重大方案！抢在加沙被占前！5个师兵力参战！以军总动员

期盼美好明天 2025-09-15 00:52:00
0 跟贴 0
初中数学求m+n的值，构造零零模型手到擒来

三乐大掌柜 2025-09-11 14:56:14
2 跟贴 2
全红婵暨大报到向学院送奥运出场服

极目新闻 2025-09-14 09:48:49
2349 跟贴 2349
王楚钦夺冠背后有隐忧，国乒需要应对新时代的“赛训矛盾”

澎湃新闻 2025-09-14 22:16:28
35 跟贴 35
游客成袋装走茶卡盐湖铺路的盐？景区回应：确有此事，不建议拿，凭套票可免费领食用盐

极目新闻 2025-09-10 15:09:16
3775 跟贴 3775
新房落地窗安好后男子实验玻璃质量，没想到一下就砸坏了

看晓天下事 2025-09-14 12:47:30
0 跟贴 0
具备这些特质的男人，容易让女人上瘾

巧大叔 2025-09-14 18:33:07
12 跟贴 12
面临极大财务压力美国种植户拟自己赴华推销

看看新闻Knews 2025-09-14 16:28:01
358 跟贴 358

压哨手球送点！汉尼拔双手掩面，红军连场绝杀，名宿：简直是疯了

压哨手球送点！汉尼拔双手掩面，红军连场绝杀，名宿：简直是疯了

奥拜尔

2025-09-14 23:15:23

“想通过杀人被判刑”，26岁患精神分裂男子持铁锤砸路人致1死6伤，遇害者家属发声

“想通过杀人被判刑”，26岁患精神分裂男子持铁锤砸路人致1死6伤，遇害者家属发声

极目新闻

2025-09-14 13:15:45

世锦赛男子100米：塞维尔刷PB夺冠，牙买加打破美国10年垄断

世锦赛男子100米：塞维尔刷PB夺冠，牙买加打破美国10年垄断

全景体育V

2025-09-14 21:33:23

美媒警告：若台海冲突爆发，美潜艇将阻止解放军围台，切断补给线

美媒警告：若台海冲突爆发，美潜艇将阻止解放军围台，切断补给线

军器战位

2025-09-14 23:21:01

《易经》有三大天规：不可触犯，碰之必惹祸端

《易经》有三大天规：不可触犯，碰之必惹祸端

金沛的国学笔记

2025-09-13 14:36:41

西贝创始人终于道歉，却彻底激怒了罗永浩，没法翻篇了！

西贝创始人终于道歉，却彻底激怒了罗永浩，没法翻篇了！

i王石头

2025-09-15 01:26:11

英超最新积分榜：利物浦全胜领跑，曼城第8、曼联第14

英超最新积分榜：利物浦全胜领跑，曼城第8、曼联第14

雷速体育

2025-09-15 01:52:32

西班牙王室莱蒂齐亚王后与国王丈夫闹离婚，11亿元天价离婚分手费

西班牙王室莱蒂齐亚王后与国王丈夫闹离婚，11亿元天价离婚分手费

译言

2025-09-14 15:27:10

大学生又开始用现金了？透露出什么信号？部分学生说出了内情

大学生又开始用现金了？透露出什么信号？部分学生说出了内情

深度报

2025-09-07 21:52:26

某员工向老板举报，说同事利用办公室的打印机，经常给小孩打印作业，结果老板反问她，你举报的目的何在？

某员工向老板举报，说同事利用办公室的打印机，经常给小孩打印作业，结果老板反问她，你举报的目的何在？

LadyDaily

2025-09-02 16:42:12

大阅兵后，中国的第一个对手出现，中方这次真发火了，将全面反制

大阅兵后，中国的第一个对手出现，中方这次真发火了，将全面反制

小lu侃侃而谈

2025-09-10 19:13:12

“国家一级演员”何冰的消失，不仅是娱乐圈的悲哀，更是损失！

“国家一级演员”何冰的消失，不仅是娱乐圈的悲哀，更是损失！

素衣读史

2025-08-20 17:55:59

“西贝真不贵”？贾国龙这一句话，把打工人的尊严按在地上摩擦

“西贝真不贵”？贾国龙这一句话，把打工人的尊严按在地上摩擦

吃瓜盟主

2025-09-13 14:30:01

韩庚20周年演唱会被骂惨，粉丝失望直呼“吃相太难看”！

韩庚20周年演唱会被骂惨，粉丝失望直呼“吃相太难看”！

世界探索者探索

2025-09-14 18:45:33

杨尚昆问周总理：小平自称参加过遵义会议，此事确否，是何职务？

杨尚昆问周总理：小平自称参加过遵义会议，此事确否，是何职务？

大运河时空

2025-09-03 11:55:59

武汉国民政府的瓦解，打土豪让军队哗变，汪精卫成为苏俄顾问傀儡

武汉国民政府的瓦解，打土豪让军队哗变，汪精卫成为苏俄顾问傀儡

南极狼人

2025-09-12 20:40:47

A股即将迎来“924行情”一周年，下周这些重磅消息利好A股？

A股即将迎来“924行情”一周年，下周这些重磅消息利好A股？

每日经济新闻

2025-09-14 17:16:48

联合国安理会上，以色列不仅怒怼五常，还当众威胁卡塔尔

联合国安理会上，以色列不仅怒怼五常，还当众威胁卡塔尔

三叔的装备空间

2025-09-13 20:26:34

A股涨到3892，不出意外，下周（9月15日-19日）很可能要这样走了

A股涨到3892，不出意外，下周（9月15日-19日）很可能要这样走了

虎哥闲聊

2025-09-14 10:00:39

刺杀柯克凶嫌落网，美国杀手如迷人生

刺杀柯克凶嫌落网，美国杀手如迷人生

不正确

2025-09-13 08:35:59

聚焦新未来新科技，严肃又活泼。

94125文章数 66678关注度

往期回顾全部

科技要闻

L3级车型要来了！辅助驾驶迎重大利好

头条要闻

罗永浩向贾国龙重新开战：我看你智力有问题不可救药

头条要闻

罗永浩向贾国龙重新开战：我看你智力有问题不可救药

体育要闻

利物浦1-0绝杀十人伯恩利萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚结束与老公5年婚姻

财经要闻

西贝贾国龙，“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

时尚

亲子

游戏

数码

本地新闻

云游中国 | 草原驭秋风祁连山邂逅黑河源头

听说现在年轻人的家都“歪七扭八”的？

亲子要闻

小学孩子记不住数学抽象概念咋办？幼儿园老师这招值得家长学习！

《隐形守护者》导演新影游demo15日上线!有金发美女

数码要闻

上市十天：Intel锐炫Pro B50火速登顶畅销榜首！16GB大显存2999元

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版