网易首页 > 网易号 > 正文 申请入驻

国内首份“大模型安全实践”报告出炉:大模型“短板”如何补齐

0
分享至

摘要:“安全、可靠、可控,是人工智能的三大红线。”

经过一年多的“野蛮生长”,大模型的应用正在聚沙成塔,安全问题也随之引发关注。2024世界人工智能大会暨人工智能全球治理高级别会议发表的《人工智能全球治理上海宣言》明确提出,要确保其发展过程中的安全性、可靠性、可控性和公平性。

目前,针对大模型的安全评测绝大多数是针对内容类场景,对智能体等高级应用仍是空白区。昨日(5日)下午,《大模型安全实践(2024)》白皮书发布,这是国内首份“大模型安全实践”研究报告,从安全性、可靠性、可控性等维度提供技术框架。

大模型仍无法做出专业决策

近两年来,大模型的进步有目共睹,从本届WAIC的现场来看,大模型在智能涌现能力上提升明显,从初级的语言对话到如今多模态、具身智能的发展趋势,不难看出大模型从规模化迈向产业化。

但是在产业化过程中,业界人士也逐渐发现了大模型的“短板”:泛化能力强但专业能力差,还有长期诟病的幻觉问题。即便是OpenAI最强的大模型GPT-Turbo,依然避免不了事实性错误的局限。

“特别是要求严谨的行业中,我们发现大模型的幻觉问题和缺乏复杂推理的问题非常严重。”蚂蚁集团大模型应用部总经理顾进杰安全实验室首席科学家王维强举例说,大模型对专业领域知识图谱的学习有限,在实际使用过程中得谨慎对待。尤其是金融、医疗等领域对模型输出的专业性和准确性要求极高,“很多医疗的知识不是在书本里,都是在很多医生的脑袋中,大模型就没有办法做复杂的专业决策”。

特别是Transformer架构成为主流后,以此为基础的大模型在泛化能力突飞猛进,但“智能涌现”的能力依然是处于“黑盒”中,人类无法控制其生成的结果,因此造成专业能力进步缓慢。即便是OpenAI CEO Sam Altman也坦言,GPT-4的专业性仅相当于专业人士的10%—15%。

对此,白皮书总结大模型发展在当下面临的技术、个人、企业和社会四大挑战:大模型技术存在自身缺陷,包括生成内容不可信、能力不可控以及外部安全隐患等问题,带来诸多风险挑战,比如生成“幻觉”问题影响生成内容的可信度;在个人层面,大模型挑战广泛涉及信息获取、公平正义、人格尊严、个人发展以及情感伦理等多个重要维度,同时加剧了“信息茧房”效应;在企业层面,大模型面临用户隐私与商业秘密泄露、版权侵权及数据安全等多重风险挑战;在社会层面,大模型的广泛应用不仅冲击就业市场、扩大数字鸿沟,还可能危及公共安全与利益。

安全、可靠、可控是三大红线

那么,什么样的大模型在应用过程中能称之为安全?“安全、可靠、可控,是人工智能的三大红线。”中国信通院华东分院人工智能事业部主任常永波认为,这三方面缺一不可。

他介绍,安全性意味着确保模型在所有阶段都受到保护,包含了数据安全、应用安全、内容安全、伦理安全、认知安全等诸多方面。可靠性要求大模型在各种情境下都能持续地提供准确、一致、真实的结果,包含模型的鲁棒性(异常情况下能否运行)、真实性、价值对齐。而可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作,包含大模型的可解释研究、大模型的指令遵循能力、安全检测和水印追溯。

常永波表示,国内头部厂商走得比较靠前,蚂蚁、商汤等围绕安全和治理都有系统化的技术指标。而个别公司急于在大模型商业化过程中抢占市场,未能配备相应“安全防护”,如未规范标注和安全自测,会在企业应用和社会治理过程中留有隐患。

“目前,大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对智能体这类复杂大模型应用架构和未来通用AGI(通用人工智能)的评估是当下面临的挑战。”常永波认为,以智能体为核心的检测,是大模型安全不可或缺的一环。

记者了解到,上届WAIC“镇馆之宝”蚁天鉴在今年推出2.0版本,新增的“测评智能体”可针对大模型的内在神经元进行“X光扫描”来做探查和判断。“能让技术人员直观感受大模型内部在发生什么、定位可能引发风险的神经元、并进行编辑修正,从而在模型内部治理幻觉,实现从源头识别和抑制风险。”蚂蚁集团安全内容智能负责人赵智源介绍,蚁天鉴如今还新增了“AI鉴真”技术如今的“AI鉴真”技术可,可以快速精准鉴别图像、视频、音频、文本内容的真伪,图像识别准确率99.9%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

存款达到这个数,你的家就算稳了!2026年最新家庭安全感自查表

白浅娱乐聊
2026-07-04 21:05:39
点射打破僵局!姆巴佩5场7球追平梅西 世界杯淘汰赛11球历史第1人

点射打破僵局!姆巴佩5场7球追平梅西 世界杯淘汰赛11球历史第1人

风过乡
2026-07-05 06:41:39
小糯米五官长开后,完全复刻了年少时期杨幂的模样,灵动眉眼

小糯米五官长开后,完全复刻了年少时期杨幂的模样,灵动眉眼

小椰的奶奶
2026-07-04 16:10:15
43岁上海女子每晚都找2个男模,3个月花450万,女子老板讨要说法

43岁上海女子每晚都找2个男模,3个月花450万,女子老板讨要说法

汉史趣闻
2026-07-04 20:19:50
韩红要崩溃了!央视重温播放《天路》,是原唱巴桑版本,评论炸锅

韩红要崩溃了!央视重温播放《天路》,是原唱巴桑版本,评论炸锅

火山詩话
2026-07-03 08:34:47
我国为什么有两个中央军委?

我国为什么有两个中央军委?

荷兰豆爱健康
2026-07-05 01:57:06
曾志伟单干拍新剧,TVB老将集体出走,港娱生态悄悄变了

曾志伟单干拍新剧,TVB老将集体出走,港娱生态悄悄变了

乡野小珥
2026-07-04 17:44:35
我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

我买房后,父母在隔壁买套小两居给弟弟,隔天回家看房本我傻了!

麦子情感故事
2026-07-05 00:23:10
日本3小时两震,高市正在访印,自卫队击沉美军军舰,俄发出警告

日本3小时两震,高市正在访印,自卫队击沉美军军舰,俄发出警告

青衫书生本尊
2026-07-04 15:20:34
哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

哈梅内伊遗体告别仪式上,伊朗议长哭到身体不停颤抖,穆杰塔巴未出席,其岳父现身仪式

极目新闻
2026-07-04 13:39:08
糯康临刑吐露实情,金三角毒枭不惧武警枪械,唯独忌惮尘封密令

糯康临刑吐露实情,金三角毒枭不惧武警枪械,唯独忌惮尘封密令

唠叨说历史
2026-07-03 17:01:04
真正的学霸分水岭在高中:语文定江山!英语稳江山!数学得天下!

真正的学霸分水岭在高中:语文定江山!英语稳江山!数学得天下!

娱乐的宅急便
2026-07-03 03:08:50
8000万成本,《万米危机》夺冠,释小龙差一个机会,就和谢苗一样

8000万成本,《万米危机》夺冠,释小龙差一个机会,就和谢苗一样

电影票房预告片
2026-07-04 19:05:44
2026年是改革开放以来留给普通人最后一次翻身的机会

2026年是改革开放以来留给普通人最后一次翻身的机会

流苏晚晴
2026-07-04 19:03:13
WTT美国大满贯:单打4人进半决赛!王艺迪速胜,早田出局林德惨败

WTT美国大满贯:单打4人进半决赛!王艺迪速胜,早田出局林德惨败

全言作品
2026-07-05 06:14:37
钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

元宝课堂
2026-06-22 20:49:31
哈梅内伊葬礼,一个“死去”的人突然现身,让美以脊背发凉

哈梅内伊葬礼,一个“死去”的人突然现身,让美以脊背发凉

怎挽怎挽
2026-07-04 05:37:26
日本人准备登钓鱼岛,就等高市发话?美国也介入了,中方动作更快

日本人准备登钓鱼岛,就等高市发话?美国也介入了,中方动作更快

优趣纪史记
2026-07-04 19:24:13
哈马斯白麻雀被永久掩埋!以军耗时3个月摧毁加沙最大地下工事

哈马斯白麻雀被永久掩埋!以军耗时3个月摧毁加沙最大地下工事

北山战史
2026-07-04 15:38:29
美国大满贯:火力全开痛击韩国华裔名将!王艺迪4-0朱芊曦晋级4强

美国大满贯:火力全开痛击韩国华裔名将!王艺迪4-0朱芊曦晋级4强

钉钉陌上花开
2026-07-05 05:37:01
2026-07-05 06:59:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
508020文章数 762677关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

艺术
数码
游戏
本地
公开课

艺术要闻

八大山人迷之印章 你认得几个?

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

韩版“全境封锁”PC配置降低 内存改为32GB起步

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版