网易首页 > 网易科技 > 网易科技 > 正文

AI是如何检测色情片的?

0
分享至


2018年12月17 日,Tumblr(汤博乐)网站宣布即日起全面禁止色情内容。当这项新的政策实施了两周后,就立马暴露出了问题。在Tumblr的人工智能系统成功部署后,它对一些中立的内容进行了错误标记,导致该网站的4.554亿个博客和1662亿个帖子无辜躺枪。它们的内容仅包含花瓶、女巫、鱼类以及介于它们中间的所有内容。

目前该公司并未对此有任何回应,也不清楚Tumblr使用的是何种内容过滤技术,或者是否创建了自己的内容过滤系统,但显然,社交网站在政策和技术方面都陷入了困境。例如,关于“女性乳头”和“艺术裸体”的外延,Tumblr 认为是取决于上下文语境,这透露出Tumblr自己也不确定它想要在平台上禁止什么内容。也难怪,站在企业的立场,究竟该如何定义“淫秽”内容呢?

如果难以定义,就很难阻止“淫秽”内容

首先,定义“淫秽”本是个陷阱。历史可以追溯到1896年左右,当时美国首次通过规范“淫秽”的法律。1964 年,“雅各贝利斯诉俄亥俄州”一案中,关于俄亥俄州是否可以禁止出演著名的路易·斯马勒(Louis Malle)电影,最高法院给出了可能是迄今最著名的有关“硬核色情”的一句话。

“我今天不打算进一步去定义我所理解的那种在速记中被包含的内容,‘硬核色情片’,也许我永远也不会成功地做到这一点。但我知道,当我看到它的时候,它的动作画面就不是这样了。” 法官波特·斯图尔特在他的赞同意见中如是说。

机器学习算法也处于同样的窘境,这是Picnix(一家提供定制化AI服务的公司)?的首席执行官Brian DeLorge正试图解决的问题。Iris是其产品之一,专门用于检测色情内容的客户端应用程序。正如DeLorge所说,“谁不希望生活中有点色情内容?”他指出另一个问题,色情片可以是很多不同的东西,但色情与非色情图像会共享相似的图像特征。

一张海滩上派对的照片可能被封杀不是因为它上面展现的皮肤比一张办公室的照片更多,而是因为它触碰到色情图像的边缘线了。“这就是为什么很难将图像识别算法训练成一种可广泛应用的解决方案,”DeLorge继续说到,“如果关于“淫秽”的定义对人类来说很困难,那对机器学习技术来也同样如此。”如果人们无法就色情是什么达成一致,那么AI是否有望学习里面的差异呢?

教 AI 如何检测色情片,第一件事就是收集色情片作为训练集

网上有很多的色情片。在哪里可以得到它们呢? “人们经常从Pornhub、XVideos等网站下载,”Lemay.ai的联合创始人兼首席技术官Dan Shapiro说到。Lemay.ai是一家为其客户创建 AI 过滤技术的初创公司。“这是一个合法的灰色地带,但如果你正在使用其他人的内容进行训练,(训练)结果是否属于你?”

从你最喜欢的色情网站获得训练数据集之后,下一步是从色情的视频中删除所有不是色情内容的帧,以确保你正在使用的帧不是像一个拿着披萨盒子的人。平台会向大多数美国以外的人付费,来标注这些内容。这通常是一个低工资的重复劳动,就好像那些每次填一个验证码的工作。Dan Shapiro说到,“他们只是标注像‘这种色情片’或‘那种色情片’。通常你还可以再过滤一下,因为色情片上已经有很多可用的标签了”。当你使用不仅仅包含色情内容的大数据集时,训练效果往往会更好。”

Shapiro说:“很多时候,你不仅需要过滤色情内容,而且也需要过滤掉与色情内容相近的东西。像人们贴出的这些虚假档案,一张女孩的照片,一个电话号码。”在这里,他指的是寻找客户的性工作者,但很容易就被误认为是合法问题。“这不是色情片,但它是你不想放在平台上的东西,对吗?”一个好的自动化的检测模型至少需要在数百万级的内容上进行训练,这意味着需要投入大量的人力。

“这就类似于孩子和成年人间的不同,”Clarifai的创始人兼CEO?Matt Zeiler说道,Clarifai是一家为企业客户提供图像过滤的计算机视觉创业公司。“我可以说这是事实,几个月前我们刚生了一个孩子。他们对这个世界一无所知,一切都是新的。“你必须向宝宝展示很多东西,以便他们学习。“你需要数以百万计的例子,但对于成年人,由于现在我们已经拥有了很多关于世界的背景知识,并理解它是如何运作的,我们只需要几个例子就可以学到新东西,”他说。

上述文字解释一遍就是:训练AI系统来过滤成人内容,就好比向宝宝展示大量的色情内容。

今天,像Clarifai这样的人工智能技术供应商已经成长起来了。他们对世界有很多基础知识,也就是说他们知道狗是什么样,猫是什么样,什么是树,什么不是树,以及最重要的,什么是裸体,什么不是裸体。Zeiler的公司使用自己的模型为其客户训练新模型,因为原始模型已经能处理很多数据,因此定制的版本仅需要来自客户的新训练数据,就能启动和运行。

人工智能算法的判断不一定准确?

对明显是色情的内容,分类器效果很好;但它可能会错误地将内衣广告标记为色情,因为图片中的皮肤比例更多。(例如,分类器很难正确分辨比基尼和内衣。)这意味着做标签的人必须对那些模棱两可的训练集更细心,需要优先考虑模型难以分类的内容。那其中最难的一个例子是什么呢?

“动漫色情片。我们的第一版色情检测算法没有接受过任何卡通色情内容的训练。”很多时候人工智能系统会失败,因为它不理解什么是变态。“因此,一旦我们为该客户做这样的工作,我们就将大量数据整合到模型中,就大大的提高了检测漫画的准确性,并同时保持了在真实照片上的检测准确率,”Zeiler说。“你不知道你的用户会做什么。”

用来检测色情片的技术也可以用来检测其他东西。系统的基础技术非常灵活。这个灵活度比得上动漫里夸张的胸部。Perspective,是一个来自 Alphabet's Jigsaw的被广泛用于报纸自动评论的模型。

Jigsaw的沟通主管Dan Keyserling说,在Perspective之前,“纽约时报”只对大约10%的作品发表评论,因为他们的版主可以在一天内处理的数量有限。他声称Jigsaw的产品可以使这个数字增加三倍。该软件与图像分类器的工作方式类似,不同之处在于它对“毒性”进行排序,它们定义“毒性”为某人可能会根据评论而不是色情进行的对话。(毒性在文本评论中同样难以识别,就好比识别图像中的色情图像。)再比如,Facebook使用类似的自动过滤技术来识别有关自杀的帖子和内容,并试图利用该技术在其庞大的平台上发现虚假新闻。

整个事情仍依赖于标记数据才能发挥作用

Zeiler并不认为他的产品会让任何人失业。它本来就是在解决互联网上的“尺度问题”。一个婚礼博客Clarifai使用其产品来进行自动化的内容审核,而以前负责审批图像的编辑则转向从事定性标记的任务。这并不是要降低自动化下真正的人力成本。人们必须对AI进行训练,并对内容进行分类然后进行标记,以便AI能够识别哪些不能或可能导致创伤后应激障碍(PTSD)。

这才是未来应有的样子:公司提供个性化,现成的解决方案,使其全部业务能够在越来越多的数据上训练更好的分类器。就像Stripe and Square为不想在内部处理支持的企业提供现成的支付解决方案一样,而AWS已经确立了自己作为托管网站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等创业公司正在争相成为在线内容审核的一站式解决方案提供商。Clarifai已经拥有适用于iOS和Android的软件开发套件,Zeiler表示正在努力让产品在物联网设备(如安全摄像头)上运行,但实际上,那意味着每个设备上都需要有优化的AI芯片或足够的终端计算资源。

Lemay.ai的Dan Shapiro满怀希望。“与任何技术一样,它还没有完全发明成功,”他说。“所以这样做是不合理的,就好比我对一家公司的安排不满意,就开始想着放弃。”但无监督学习是否是一条好的出路?这就比较费解了。他说:“你需要从某些地方获得训练数据”,这意味着总会涉及到人的因素。“不过这是一件好事,因为它会减轻人们的压力。”

另一方面,Zeiler认为AI终有一天能够自己适应一切。他说:“我认为很多人的努力方向将转变为人工智能今天无法做到的事情,比如高级推理、自我意识,就像人类所拥有的那样。”

识别色情片就是其中的一部分。识别它对于人来说是一项相对简单的任务,但训练算法识别其中的细微差别却要困难得多。弄清楚检测模型将图像标记为色情或非色情的阈值也很困难,而且还受到数学上的限制。该函数称为精确-召回率曲线(precision-recall curve),它描述了模型返回结果的相关关系,但是人类需要的是灵敏度。

正如Alison Adam在其1998年出版的《人工知识:性别与机器思维》一书中提到的那样,无论是学习、在空间中移动和互动、推理,还是使用语言,AI的目的是“模拟人类智能的某些方面”。AI是我们如何看待世界的一个不完美的镜子,就像色情是当两个人独处时的反应一样:它可以说是一种片面性的真理,但却不是整个全貌。

参考链接:

https://www.theverge.com/2019/1/30/18202474/tumblr-porn-ai-nudity-artificial-intelligence-machine-learning

相关推荐
热点推荐
雷军隐晦回应门把手质疑:新小米SU7门把手满足新国标

雷军隐晦回应门把手质疑:新小米SU7门把手满足新国标

汽车记录者
2026-02-12 03:45:28
真没想到!复出15天就再次倒下,哈弗茨让阿尔特塔失去后手招

真没想到!复出15天就再次倒下,哈弗茨让阿尔特塔失去后手招

里芃芃体育
2026-02-12 12:00:16
河南美女感叹上海非机动车等红绿灯素质高,“和机动车道等红绿灯一样”,“左边直行和右转分开等”

河南美女感叹上海非机动车等红绿灯素质高,“和机动车道等红绿灯一样”,“左边直行和右转分开等”

纵相新闻
2026-02-11 19:53:04
顶流官宣转会

顶流官宣转会

贵圈真乱
2026-02-11 18:11:51
中国有源相控阵雷达真实水平:并非世界第一,和美差距有多大

中国有源相控阵雷达真实水平:并非世界第一,和美差距有多大

黑翼天使
2026-01-10 03:28:16
46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,原来是被咬了

46岁张柏芝这是怎么了!满脸享受不断尖叫,表情销魂,原来是被咬了

八卦王者
2026-02-12 11:22:45
回顾萝莉岛名单曝光,克林顿是常客,英国王子实锤,最意外的是他

回顾萝莉岛名单曝光,克林顿是常客,英国王子实锤,最意外的是他

谈史论天地
2026-02-12 06:58:20
中方暴击巴拿马之后,长和集团终于明白,没大国崛起哪来商人尊严

中方暴击巴拿马之后,长和集团终于明白,没大国崛起哪来商人尊严

蓝色海边
2026-02-12 08:18:04
赖清德兵分30路,疯狂查办统派民代,大陆主动出击,作出坚定承诺

赖清德兵分30路,疯狂查办统派民代,大陆主动出击,作出坚定承诺

墨兰史书
2026-02-11 18:09:01
美国迈出史无前例一步,赖清德急召三军司令,告诉他们:不能等了

美国迈出史无前例一步,赖清德急召三军司令,告诉他们:不能等了

头条爆料007
2026-02-11 11:06:05
上海爆发,率先打响了第一枪!

上海爆发,率先打响了第一枪!

米宅
2026-02-12 07:36:18
实现大满贯七冠历史第二快,阿卡稳压德纳仅逊一人!

实现大满贯七冠历史第二快,阿卡稳压德纳仅逊一人!

网球之家
2026-02-11 22:51:18
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
上任不足5个月,兰石重装副总经理王炳正被留置并立案调查

上任不足5个月,兰石重装副总经理王炳正被留置并立案调查

齐鲁壹点
2026-02-12 10:18:18
徐朵寒假结束回美国上学!徐帆带大包小裹陪读,美国别墅内景曝光

徐朵寒假结束回美国上学!徐帆带大包小裹陪读,美国别墅内景曝光

月下守候
2026-02-11 22:42:48
首次!英媒披露爱泼斯坦被发现死亡时间段内监狱监控画面

首次!英媒披露爱泼斯坦被发现死亡时间段内监狱监控画面

环球网资讯
2026-02-11 14:58:29
波兰发起斩首行动?俄军中将死里逃生,普京大怒,发射数十枚导弹

波兰发起斩首行动?俄军中将死里逃生,普京大怒,发射数十枚导弹

史智文道
2026-02-11 19:29:11
哈马斯泄露加沙死亡人数秘密;俄外长痛批美国背弃承诺

哈马斯泄露加沙死亡人数秘密;俄外长痛批美国背弃承诺

近距离
2026-02-10 14:14:37
岩山科技,业绩猛增2000%!

岩山科技,业绩猛增2000%!

牛锅巴小钒
2026-02-11 08:23:24
大反转?孙颖莎夺冠仅2天,最新擦边球视频曝光,王曼昱做出回应

大反转?孙颖莎夺冠仅2天,最新擦边球视频曝光,王曼昱做出回应

无情有思ss
2026-02-12 08:34:45
2026-02-12 12:11:00

科技要闻

传苹果新Siri再遇挫 多项AI功能或推迟发布

头条要闻

立陶宛总理:考虑将"台湾代表处"更名为"台北代表处"

头条要闻

立陶宛总理:考虑将"台湾代表处"更名为"台北代表处"

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

体操运动员坠楼涉事教练被立案调查

财经要闻

中国乳业2025年回顾:行业寒潮压顶

汽车要闻

具身机器人,能否助力理想打赢全新L9这一仗?

态度原创

游戏
本地
健康
公开课
军事航空

《暗黑破坏神》30周年全新术士职业跨作登场

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:若美伊谈判失败 或再派一支航母打击群

无障碍浏览 进入关怀版
×