网易首页 > 网易号 > 正文 申请入驻

数据科学家必读!5篇情感分析研究论文

0
分享至

全文共3143字,预计学习时长8分钟

图源:unsplash

情感分析用途广泛,能够识别感情与想法的AI模型广泛应用于诸多产业。因此,创造出可智能识别感情的机器日益成为热门。自然语言处理(NLP)的研究也是如此。本文将介绍5篇关于情感分析和情感分类的重要论文。

运用深度学习检测推特上的仇恨言论(Deep Learning for Hate Speech Detection inTweets)

情感分类模型的最重要用途之一是检测仇恨言论。最近有很多关于内容审核人员工作之艰辛的报道,随着自动仇恨言论检测和其他内容审核模型的发展,审查人员有望卸下审核图像内容的重担。

在这篇论文中,研究小组将他们的仇恨言论检测任务定义为对特定的推特帖子进行分类,区分其是否存在种族主义或性别歧视。

为此,研究人员基于包含16000条推文的数据集进行实验。在该数据集中,1972条推文标记为具有种族歧视内容。3383条推文标记为具有性别歧视内容。其余的推文归类为既没有种族主义情感,也没有性别歧视情感。

研究表明,某些深度学习技术能够比现有的N-gram方法更高效地检测仇恨言论。

发布/最近更新日期:2017年6月1日

作者和贡献者:Pinkesh Badjatiya(国际信息技术研究所-海得拉巴,以下简称IIIT-H)、ShashankGupta(IIIT-H)、Manish Gupta(微软)、Vasudeva Varma(IIIT-H)

文章地址:https://arxiv.org/pdf/1706.00188v1.pdf?ref=hackernoon.com

2.depechemod++:双语情感词典(DepecheMood++: a Bilingual Emotion Lexicon)

创建词典的主要途径有两种:直接创建(通常使用众包注释器),或者从现有注释语料库派生。

研究人员的实验目的是:检验文档过滤、降低频率或文本预处理等简单的技术能否用于改善DepecheMood这一最新词典。这本词典由带注释的新闻文章组成,最初由Staiano和Guerini于2014年创建,用于情感分析。

在这篇论文中,研究人员解释了他们是如何创建该词典的。这项研究发布的新版本DepecheMood++有英语和意大利语两种版本。

发布/最近更新日期:2018年10月8日

作者和贡献者:Oscar Araque(马德里理工大学)、Lorenzo Gatti(特温特大学)、Marco Guerini(布鲁诺·凯斯勒研究所)、JacopoStaiano(Recital AI)

文章地址:https://arxiv.org/pdf/1810.03660v1.pdf?ref=hackernoon.com

图源:unsplash

3.粗鄙之语:粗俗言论的社会动力(Expressively Vulgar: The Socio-dynamics ofVulgarity)

大多数思想的表达形式随时间不断演变,而粗俗的语言却并非如此,使用粗俗的语言往往包含表达确切信息的强烈指向。

在这项研究中,德克萨斯大学和宾夕法尼亚大学的研究人员对推特帖子中的粗俗词汇进行了大规模的数据驱动分析。更具体地说,他们的研究分析了推特中粗俗语言的社会文化和语用方面的内容。

研究小组试图回答以下问题:粗俗言论的表达方式和功能是否因该言论发表者的人口特征而不同?粗俗言论是否会影响对情感的感知?对粗俗言论进行建模是否有助于情感预测?

研究人员收集了6800条推文的数据集。接下来,他们让9位评审员用5分制对这些推文进行了情感标注。值得注意的是,数据还包括发布推文者的人口统计数据(性别、年龄、教育程度、收入、宗教背景和政治意识形态)。

这个数据集是唯一一个既包括推文又包括其发布者详细信息的开放数据集。此外,这也是第一次对低俗词建模如何提高情感分析性能的研究之一。

发布/最近更新日期:2018年8月

作者和贡献者:Isabela Cachola,Eric Holgate,Junyi Jessy Li(均来自德克萨斯大学奥斯汀分校)Daniel Preotiuc Pietro(宾夕法尼亚大学)

文章地址:https://www.aclweb.org/anthology/C18-1248.pdf?ref=hackernoon.com

4.多语言推特情感分类:人类注释者的作用(Multilingual Twitter SentimentClassification: The Role of Human Annotators)

在本文所列举的关于情感分析的研究中,这是唯一一个强调人类注释者重要性的研究。在这项自动推文情感分类实验中,来自Jožef Stefan研究所的研究人员分析了一个用多语言推文标注情感的大型数据集。

具体来说,研究小组标注了160万条包含13种不同语言的推文。利用这些注释的推文作为训练数据,团队构建了多个自动情感分类模型。

他们的实验得出了一些有趣的结论。首先,研究人员指出,在统计学上,顶级分类模型的性能没有显著差异。其次,当应用于有序三类情感分类问题时,分类模型的基本准确性与性能无关。最后,研究人员表示应该关注训练集的精确度,而非所使用的训练模型。

发布/最近更新日期:2016年5月5日

作者和贡献者:Igor Mozeti,Miha Grčar和Jasmina Smailovičč(均来自Jožef Stefan研究所知识技术部)

文章地址:https://arxiv.org/pdf/1602.07563v2.pdf?ref=hackernoon.com

5.MELD:一种用于情感识别的多模式多方数据集

图源:unsplash

在这篇论文中,作者就目前会话情感识别领域日益增多的研究进行了解释。同时,他们指出,该领域缺乏大规模的会话情感数据库。为了弥补这一点,研究人员提出了多模式情感线数据集(MELD),它是对原始情感线(EmotionLines)数据集的扩充和增强。

MELD包括了来自电视剧《老友记》的1433段对话中的13000段语音。数据集主要集中于两个以上说话者的对话。此外,每一句话都有情感和情感标签。而EmotionLines这一原始数据集则只包含对话的文本。因此,它只能用于文本分析。数据集的主要改进是增加了音频和视频模式。MELD包括所说的词、说话的语调和说话人的面部表情。

发布/最近更新日期:2019年7月4日

作者和贡献者:Soujanya Poria(新加坡科技设计大学)、Devamanyu Hazarika(新加坡国立大学)、NavonilMajumder(墨西哥国立理工学院)、Gautam Naik(南洋理工大学)、Erik Cambria(南洋理工大学)、Rada Mihalcea(密歇根大学)

文章地址:https://arxiv.org/pdf/1810.02508v6.pdf?ref=hackernoon.com

创造情感智能机器是一个雄心勃勃的目标。为此,情感分析和情感识别是必要的步骤。希望这些论文有助于加强你对该领域目前所做工作的理解。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普通人一生存款的“天花板”是多少?答案来了,看你有没有这么多

普通人一生存款的“天花板”是多少?答案来了,看你有没有这么多

小海乡村守护人
2024-06-01 10:38:02
当固态电池爆发,这一材料极为关键

当固态电池爆发,这一材料极为关键

CBEA电池网
2024-05-31 15:10:09
突发王炸消息,两亿股民将见证历史,下周A股就是这样走

突发王炸消息,两亿股民将见证历史,下周A股就是这样走

静守时光落日
2024-06-01 12:50:23
连巴铁都不敢想!外媒:歼20技术保密不准外销,但阿联酋不想放弃

连巴铁都不敢想!外媒:歼20技术保密不准外销,但阿联酋不想放弃

影孖看世界
2024-05-31 19:09:38
主战场已定,印度这次摊牌了,向美日释放好消息:反华带上我一个

主战场已定,印度这次摊牌了,向美日释放好消息:反华带上我一个

赵探长TALK
2024-06-01 15:51:53
420亿全部到手!李嘉欣儿子接管家族产业,踏入许家千亿商业帝国

420亿全部到手!李嘉欣儿子接管家族产业,踏入许家千亿商业帝国

靠谱小狗
2024-06-01 14:20:02
泪崩!点球大战丢冠:C罗痛哭到抽泣太伤心 目睹同城死敌狂欢庆祝

泪崩!点球大战丢冠:C罗痛哭到抽泣太伤心 目睹同城死敌狂欢庆祝

狍子歪解体坛
2024-06-01 05:30:44
妈妈每天逼女儿跳绳3000个:长不高你自己负责!医院报告一出,瞬间悔到肠子青了

妈妈每天逼女儿跳绳3000个:长不高你自己负责!医院报告一出,瞬间悔到肠子青了

明德阅读
2024-05-30 22:05:26
北京西城区又一豪宅项目开工!未来售价或不低于17w/㎡

北京西城区又一豪宅项目开工!未来售价或不低于17w/㎡

798守夜人
2024-06-01 14:52:43
昭通市2名退休干部接受审查调查

昭通市2名退休干部接受审查调查

云南网络广播电视台
2024-05-29 10:24:47
特朗普获罪当日网络捐款暴增至3480万美元 翻了历史纪录一倍

特朗普获罪当日网络捐款暴增至3480万美元 翻了历史纪录一倍

财联社
2024-06-01 00:56:10
苟仲文离谱操作:架空刘国梁遭罢赛、缔造恒大国家队、逼走蔡振华

苟仲文离谱操作:架空刘国梁遭罢赛、缔造恒大国家队、逼走蔡振华

十点街球体育
2024-05-31 18:32:17
奔驰全新C级曝光!明年首发/内饰升级三块大屏

奔驰全新C级曝光!明年首发/内饰升级三块大屏

爱卡汽车
2024-06-01 11:10:02
岛内急眼了!出来喊话了!

岛内急眼了!出来喊话了!

穷游天下的阿等
2024-05-31 17:45:07
妈妈拍下小学女儿书桌,引来1.6万条评论:一番苦心用错了地方!

妈妈拍下小学女儿书桌,引来1.6万条评论:一番苦心用错了地方!

熙熙说教
2024-05-30 15:48:11
多特三杰:1.8亿贝林vs3000万欧桑乔争冠!哈兰德隐身早早出局

多特三杰:1.8亿贝林vs3000万欧桑乔争冠!哈兰德隐身早早出局

直播吧
2024-06-01 14:58:20
黄永胜证实:徐向前曾被俘,揭秘真实经历!

黄永胜证实:徐向前曾被俘,揭秘真实经历!

阅史明今
2024-05-31 21:02:36
赖亚文总结失败的原因:顽固不宁该用不用,如何调整才能重振旗鼓

赖亚文总结失败的原因:顽固不宁该用不用,如何调整才能重振旗鼓

祝晓塬
2024-06-01 15:30:15
中日韩对话结束不久,日本突然对外宣称:中国将加快处理台湾问题

中日韩对话结束不久,日本突然对外宣称:中国将加快处理台湾问题

胥言
2024-05-31 18:00:41
台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

星辰故事屋
2024-05-24 20:01:38
2024-06-01 19:22:44
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

知名瑜伽品牌宣布永久闭店:负责人失联 称无退费能力

头条要闻

知名瑜伽品牌宣布永久闭店:负责人失联 称无退费能力

体育要闻

"失业"一年了 33岁的德赫亚路在何方

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

艺术
家居
数码
公开课
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

家居要闻

风雅自来 中式的和谐平衡

数码要闻

【IT之家评测室】摩尔线程MTT S80三测:跻身高性价比游戏显卡

公开课

近视只是视力差?小心并发症

军事要闻

拜登称以色列提出新的三阶段停火方案

无障碍浏览 进入关怀版