网易首页 > 网易号 > 正文 申请入驻

反低俗是世界难题,今日头条“灵犬”的嗅觉凭什么那么灵

0
分享至

最近看到一个消息,今日头条对旗下的灵犬反低俗助手(以下简称“灵犬”)进行了一次升级,能够同时支持对文本和图片内容的低俗信息检测。

也就是说,无论是输入文字还是上传图片,“灵犬”都能够进行低俗色情、暴力谩骂、标题党等相关低俗低质元素的检测,并给出相应的健康度鉴定结果。

无论是长达数千字的文本,还是信息含量更加丰富的图片,“灵犬”都能够在短短几秒钟检测完毕,并且据说综合准确率高达85%以上。这只“狗子”不仅能识文断字,更能独自进行看图理解。

表面上,“灵犬”只是今日头条旗下的一款小产品,以小程序的形态出现在今日头条和微信里。内容创作者们可以用它来检测自己创作的内容是否包含低俗信息,普通用户也可以参与到“打击低俗”这项看似复杂的工作中来。

事实上,“灵犬”在做的是一件全球内容平台共同在面对的难题:在内容创作如井喷一样增长的环境下,如何在既追求内容发布速度、又追求内容质量的前提下,平台方如何做好内容的审核管理工作?

“灵犬”初体验:小程序如何反低俗?

在体验“灵犬”的检测功能时,我们发现这只“灵犬”可以用喜、怒、哀、乐等各个不同的表情来和你对视。

如果上传的内容不健康,“灵犬”肯定会怒气冲冲地看着你,给你一份健康概率极低的鉴定结果;如果上传的内容是健康的,“灵犬”会”微赠送微笑一枚,并给你一份健康概率正常甚至健康概率颇高的鉴定结果。

灵犬所认为的“不健康”大致可以分为几个方面: 低俗色情、暴力谩骂或者标题党。相反,不包含这些元素的信息,则有理由被“灵犬”认定为健康的。

我们从网上找了一些网络低俗话语和一些正常语句,准备试试灵犬能否准确地分辨出来。

我们首先测试了这一句”你说的都是一堆废话?我完全可以无视你那垃圾语言。“灵犬”的检测结果显示:健康概率为67%。

这句低俗语句带有“废话”和“垃圾”这两个字眼,但在“灵犬”看来,这类语言其实并没有到达底线,健康度仍处于可接受的范围内。

接着,我们选择了“从前车马很慢,书信很远,一生只够爱一个人”这句诗人木心的经典情句,“灵犬”的鉴定结果为:健康概率达到了63%,成功通过健康度测试。

接着,我们决定找一些更敏感的文字来检测。“想跟老子比速度?老子在渝北出了名的飙车,老子看到红灯从来都是闯,我一个电话就可以全改”,这是摘自最近社会新闻的一段话,我们输入“灵犬”后,灵犬依旧表示“我觉得ok”。

借鉴前段时间“B站被曝低俗内容泛滥”的事件,我们将一位家长对B站的看法也进行了检测。当“灵犬”接收到“该网站动漫作品中竟充斥着大量令人担忧的低俗内容,穿着暴露的少女,暧昧的语言和动作,甚至涉及兄妹恋等乱伦内容”这句更加直白的话后,他终于“变脸”了。一脸愤怒地表示,“嗅到了不好的味道,健康概率只有8%。”

这样看来,“灵犬”反低俗、反暴力谩骂、反标题党的能力并非虚传,大体上还是能够分辨清楚的。

文本识别之后,我们又重点测试了下新版“灵犬”新增的图片识别功能,据说运用了更难的技术,能够识别图片中的低俗色情、甚至暴力血腥的元素。

我们先测试的是一位微博红人身着露脐装和短裤的照片。图片的低俗色情相对容易理解,果然,这张照片灵犬给出的健康概率只有22% ,并对图片自动打上了马赛克。

露肤之外,图片里的动态行为是否能检测到?我们将影视剧里吻戏场景放入了“灵犬”,这次“灵犬”给出的检测结果为“成功通过健康度测试,健康概率为82%。”

Bert+深度学习双重保险,让“灵犬”摇身变“警犬”

语义识别也好、图片识别也好,所涉及到的相关技术都是非常前沿的。那到底是什么技术附身在“灵犬”身上,让“灵犬”有了这番本领?

据了解,在文本识别领域,新版“灵犬”同时应用的是“Bert”和半监督技术,在不牺牲效果的情况下调整了模型结构,使得计算效率能达到实用水平;而在图片识别领域,“灵犬”运用了深度学习的解决方案,相当于它在短时间内学会了人类需要上百年甚至更长时间才能掌握的知识。这也就是我们现在所看到的,“灵犬”可以直接通过文字和图片来检测健康概率。

“Bert”其实是当前世界最先进的自然语言处理技术,也可以说是近年来自残差网络最优突破性的一项技术。它被称为AI领域的明珠,可以接收100多种语言,处理阅读理解、常识推理和机器翻译等任务。

有一句这样的流行语,“Bert在手,天下我有”。目前,IBM、谷歌、微软等世界顶尖公司都在运用这项技术,还有百度、阿里、腾讯、科大讯飞等国内知名公司都在运用这项技术。

不过,可别以为这个技术离我们的日常生活很遥远。

“Bert”已经应用在了知识图谱、情报检测以及法律文书等方面。知识图谱是人工智能研究中的核心问题,它能够赋予机器精准查询、理解与逻辑推理等能力。以《红楼梦》来说,我们可以利用Bert搭建起知识提取的机器学习模型提取红楼梦中的人物,并分析人物与人物之间的关系,这对我们快速了解小说人物结构非常有帮助。

在情报检测方面,传统的灾难信息检测方法已经不能满足当前迅速发展的互联网环境。而基于Bert的机器学习模型可以迅速对情报信息中的灾难信息进行处理,比如爆炸检测、情感分析、危害评估等,这是人工无法达到的效果。

在法律文书方面,最近,清华大学人工智能学院发布了民事文书和刑事文书Bert,这对法律行业来说是一大福音。对于法律行业来说,拥有高质量的文本数据至关重要。因为法律文书、合同等文本的质量高低与相关人员的利益密切关联。民事文书和刑事文书Bert可以反复检查文书内容,确保文书质量。

不同于文本识别,“灵犬”图片识别的技术难点主要在于三方面:网络上的低俗图片占整体图片内容的比例较低;低俗种类非常丰富和繁杂;低俗图片的内容特征千差万别。换句话来说,现在一百万张图片里面可能只有两三张图片是低俗的,低俗种类有几十种甚至更多,比如性暗示、性器官、内衣等,甚至还涉及不同的场景。

为了解决这个问题,我们也了解到,今日头条人工智能实验室分别在数据、模型、计算力等方面做了很多优化。数据层面,“灵犬”累积了上千万级别的训练数据。模型层面,“灵犬”针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题。计算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速了模型的训练和调试。

技术与人工结合 助力反低俗

虽然,目前“灵犬”已经能够同时支持文本识别和图片识别,但是无论“灵犬”也好,Facebook和 YouTube 也好,技术都还无法百分之百地解决问题。比如一些存在歧义的句子和词汇,就不能完全准确地判断出健康程度。而这些技术难以搞定的问题,现阶段还有赖于人工判断。

机器通常是“就事论事”,考虑不到艺术作品的的人文价值。比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

内衣和内衣模特出现在购物平台上,我们人类会默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供给成年人看,是符合常规标准的,但如果开启了青少年模式,这些内容就不应该出现。

同一句话在不同的语境下面会有不同的意思。比如“菊花”、“我下面给你吃”在正常环境和网络环境下就会出现不同的意思。还有“寒暄”、“安抚”、“讽刺”这种言语修辞行为,“灵犬”也难以准确判断健康概率。

针对这些低俗问题评判的复杂性和不同判断方式的局限性,看来灵犬还有很大的进步空间。而就目前来说,想要应对反低俗这项大挑战,一方面需要不断进化灵犬的技术模型,另一方面则是需要有效结合技术和人工判断两种方式,通过人机协作来共同完成。

不过,值得注意的是,“灵犬”目前已经建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,持续做优化。

在信息大爆炸时代,低俗的定义相对笼统,很难完全精确地定义出来,反低俗这项工作对人类来说也不容易。“灵犬”的出现,恰恰能弥补这一不足。在技术与人工的结合下,我们相信反低俗这条路会越走越远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美股芯片股全线重挫,美光科技跌近10%,房地产巨头狂飙51%,原油大涨3%

美股芯片股全线重挫,美光科技跌近10%,房地产巨头狂飙51%,原油大涨3%

21世纪经济报道
2026-03-31 07:19:44
崩溃!丈夫45岁失业、踢坏叛逆期女儿房门,妻子称无力劝阻引热议

崩溃!丈夫45岁失业、踢坏叛逆期女儿房门,妻子称无力劝阻引热议

火山詩话
2026-03-31 07:11:57
原来他是单依纯背后的男人,娱乐老总身家上亿,难怪敢回怼李荣浩

原来他是单依纯背后的男人,娱乐老总身家上亿,难怪敢回怼李荣浩

白面书誏
2026-03-30 15:31:08
从杜克室友到一生之敌!83分神战提前预定20年宿命

从杜克室友到一生之敌!83分神战提前预定20年宿命

茅塞盾开本尊
2026-03-31 12:49:52
广州长隆动物园“忧郁”淋雨狮子走红!园区回应:淋雨是动物天性,每日都有体检, 无需过度担心

广州长隆动物园“忧郁”淋雨狮子走红!园区回应:淋雨是动物天性,每日都有体检, 无需过度担心

大象新闻
2026-03-30 20:45:08
单依纯演唱会48小时限时退票:无任何手续费,无任何扣款,无责无损

单依纯演唱会48小时限时退票:无任何手续费,无任何扣款,无责无损

扬子晚报
2026-03-31 07:10:49
被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

行者聊官
2026-03-30 12:46:28
坚决整治社会乱象!公安部及时亮剑,放任不管普通人将寸步难行

坚决整治社会乱象!公安部及时亮剑,放任不管普通人将寸步难行

李博世财经
2026-03-31 10:09:30
退休不是自由身!2026从严监管:机关事业单位退休人员兼职红线

退休不是自由身!2026从严监管:机关事业单位退休人员兼职红线

坠入二次元的海洋
2026-03-30 13:28:58
不服就干!比利时打响反华第一枪,通告全球要断中方退路

不服就干!比利时打响反华第一枪,通告全球要断中方退路

梦史
2026-03-30 21:48:18
比地震更恐怖!富士山压力超限16倍,日本政企罕见联动,东京危矣

比地震更恐怖!富士山压力超限16倍,日本政企罕见联动,东京危矣

轩逸阿II
2026-03-31 01:39:44
公牛官宣裁掉艾维!对球队做出有害行为 此前曾公开承认患抑郁症

公牛官宣裁掉艾维!对球队做出有害行为 此前曾公开承认患抑郁症

罗说NBA
2026-03-31 05:44:23
领先快船3个胜场,太阳稳居西部第七!布克36分5助,格林21分6板

领先快船3个胜场,太阳稳居西部第七!布克36分5助,格林21分6板

无术不学
2026-03-31 11:22:37
心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

心源性猝死的人越来越多?医生强调:宁可打打牌,建议别做这7事

医学原创故事会
2026-03-29 23:50:13
初中学历的湖南修车工,造了台吊打雅马哈的国产赛车。

初中学历的湖南修车工,造了台吊打雅马哈的国产赛车。

差评XPIN
2026-03-31 00:12:40
车管所正式通知:C1驾照“2取消、1增加”已执行,车主尽早了解。

车管所正式通知:C1驾照“2取消、1增加”已执行,车主尽早了解。

沙雕小琳琳
2026-03-31 09:30:37
6分钟直播砸半块招牌!峰学未来换掌门,丢了最值钱的草根魂

6分钟直播砸半块招牌!峰学未来换掌门,丢了最值钱的草根魂

魔都姐姐杂谈
2026-03-31 05:47:40
民国神算韦千里:算准蒋介石,算尽天下,唯独算不准自己,!

民国神算韦千里:算准蒋介石,算尽天下,唯独算不准自己,!

不甜的李子
2026-03-29 02:10:19
部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

部署到位,准备夺岛!美军集结万人大军,打响21世纪硫磺岛战役?

共工之锚
2026-03-30 15:30:56
特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

红星新闻
2026-03-30 13:21:16
2026-03-31 13:08:49
砍柴网
砍柴网
探索科技与商业的逻辑
92660文章数 45667关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

家居
游戏
健康
时尚
亲子

家居要闻

新婚爱巢 甜蜜情趣拉满

梦幻西游第一23技能泪妖4200亿MHB易主,紫禁城候总开出超否兽诀

干细胞抗衰4大误区,90%的人都中招

妈妈们的人生,不该只有一个选项

亲子要闻

胡图图早上发现自己有一只乌龟不见了,所以不太开心 杨雪呀

无障碍浏览 进入关怀版