网易首页 > 网易科技 > 智能硬件 > 正文

解密Gmail移动客户端自动邮件回复技术

0
分享至

(原标题:解密:Gmail移动客户端自动邮件回复技术)

深度学习已经在许多工业产品中取得应用。例如Jeff Dean(谷歌大脑负责人)在去年的WSDM会议上指出,谷歌的搜索相关性计算模块,深度学习的三个特征是权重最大的。

并且深度学习算法也大量的应用到了谷歌和百度的机器翻译系统之中,使机器翻译质量提升。本文将介绍另一个深度学习的应用,邮件自动回复

手机版邮件系统的困扰

自动回复是否可以在工业中进行实际应用,一直是人们喋喋不休争论的一个问题,很多人认为对话系统,所利用的自动回复技术只是一个玩物,无法解决用户的刚需。而谷歌,在去年十一月将自动回复技术应用到了Inbox中。

Inbox是谷歌在手机上的邮件客户端,类似于手机上的Outlook。Inbox利用深度学习技术,增添了为一些语义简单的邮件进行自动回复的功能,拟解决“由于屏幕较小,手机邮件回复很不方便”的用户痛点。其中主要解决如下几个问题:

如何选择可回复邮件:当今商务人士邮件众多,很多邮件并不长,据谷歌统计有百分之25%的邮件少于20个词。那么对这些简短且语义好理解的邮件是否可以通过分类进行筛选,交给邮件生成系统是一个有趣的分类问题。

回复的邮件是否可分类:很多邮件的回复类型可枚举,例如问“下午三点是否可以参加XXX会议”,答案无非是“可以参加”,“有事情不能参加”,“我在想想”这三个情况,所以如何通过算法将三种类型的回复进行聚类是一个有现实意义的聚类问题。

如何针对每个类选出最合适的邮件:针对每个类,如何通过自动回复算法生成特定的回复,是一个自然语言处理上的回复生成问题。

系统架构

谷歌于今年KDD会议上,发布了SmartReply的论文。我们首先看SmartReply的架构

从图中可以看到,系统分为四个部分,分别是可回复邮件筛选,回复邮件聚类,回复邮件选择,和多样性回复生成,之后将一一介绍。

可回复邮件筛选机制(Trigger Response)

模块功能

在谷歌的邮件回复系统中,并不是每一封邮件都会给出自动回复的建议。因为有些邮件意思简单明了,机器可以快速的理解,并给出一些回复候选。

例如:今天晚上七点我们开个会讨论一下项目修改方案吧。

这个邮件机器可以快速理解,并通过之后的步骤给出对应的候选方案。然而,还存在着一些邮件结构复杂,机器并不能很好的理解其中含义。

例如:我已经看完你的论文,在你的论文中,公式2的推导出现了错误,我觉得倒数应该用链式法则求解。

总之,在回复之前,需要一个模块判定机器是否可以理解邮件语义,避免在不理解的时候仍然给出邮件回复候选,使用户感到被骚扰。

模块实现方法

可回复邮件的筛选机制归根结底是一个分类问题,即给定训练集合D ={X,Y},X代表文档的特征集合,Y代表文档的标签,学习函数f(x),使得y与f(x)的误差最小。在此任务中谷歌选择了多层感知机作为分类器,多层感知机如下图所示

在此分类任务中,这篇论文使用了一元词汇(Unigram)和二元词汇(Bigram)来对抽取特征,并将同一类的特征进行相加,得到MLP的输入。

这个MLP模型有三个隐层层,每层的激活函数使用了ReLU,且利用DropOut防止过拟合。最终经过试验证明,这个分类模型的AUC为0.854。针对此模块,笔者观点如下:

MLP模型算是文本分类的最简单模型之一,然而简单模型在这个任务上仍能取得不错的效果,这和一些其他的论文得到的结论一致(例如Facebook的FastText,利用简单的结构就可以在分类任务和复杂结构的网络得到近似的效果)。大部分现实分类任务简单,很多简单的模型便可以达到还不错的效果,刻意追求模型的复杂性在简单任务上往往得不偿失。

AI(人工智能)+HI(人类智能)仍然是现在的AI产品不可或缺的一环,即使分类器表现良好达到85%,但在工业级的系统中,仍然会有15%出错,所以SmartReply系统是让用户选择他生成的回复,而不是直接帮助用户进行邮件回复或者邮件书写。

回复生成、聚类、以及多样性选择算法

模块功能

此模块为该应用核心,功能如图所示,当用户收到一封邮件,Inbox会自动生成3个供挑选回复(三个回复在屏幕下侧)。例如,第一封邮件的三个回复分别为:

1. Count us in!

2. We will be there

3. Sorry we won't be able to make it

这样可以加速用户在手机端输入不便,回复邮件较慢的体验。

模块实现方法

此篇文章中,最核心的东西便是回复的生成以及聚类了。和面向开放领域的聊天机器人不同,邮件回复需要对回复进行聚类,之后从每个类别中选一个代表句。

回复聚类的算法如下:

构建图G={V,E},V是图中的点,E是图的边。V由来信,回信,以及回信的特征构成。

首先抽样N个邮件作为顶点,构建顶点集合VR。为每个类别人工选择种子邮件(例如Thank you , Thanks是感谢类的邮件),并将这些邮件VL也放到图G中。此时由于人工的干预,我们知道在特定的类别Ci有{r1,r2...rn}个回复属于此类。

通过词汇特征的抽取,构建G中代表特征的顶点集合VF,如果邮件有该特征则邮件和该顶点进行连接。

之后使用了半监督的聚类方法将邮件进行聚类,并且每隔特定轮次,进行新类别发现,最终得到376类。类别例如(will do, Thanks, I got it等)

回复选择部分并没有什么创新点,是一个基于LSTM模型的排序问题,候选集合是由most frequent的回复邮件构成,值得注意的是此篇所用的LSTM并不是利用一个Dual-LSTM讲发来的邮件和回复邮件分别进行encoding之后计算相似度。而是类似LSTM的生成模型,计算给定所发来邮件O的时候,回复中每个词被生成的概率P(wi|O)

在具体的实际应用中,可以根据场景的不同选择基于深度学习的回复算法。我们可以看到针对回复选择这部分,由于候选回复均为高频回复邮件,所以回复会十分的没有营养,大多基于简单的英文表达(Sure,No,Thanks)等,想必如何让邮件回复和邮件内容正确的呼应起来也是非常值得研究的一个课题,这样可以避免千篇一律的回复,让被回复者有不受尊重的感觉。

在多样性选择方面,按照文章的叙述做了两个后处理。

第一个后处理是重复回复删除,操作具体方法十分简单,首先根据上面所说的邮件排序系统对所有候选邮件进行降序排列,之后从top1开始加入系统要输出的集合OUTPUT中。

之后每个候选回复邮件r在加入OUTPUT时,检测r是否与OUTPUT中的任意邮件属于上面聚类算法所给出的同一个类别,如果不是才可以加入OUTPUT之中。OUTPUT达到3个回复即停止迭代。

第二个后处理是强行生成拒绝倾向的回复。如果OUTPUT集合中的回复中没有拒绝倾向的回复,且top2中有同意倾向的回复,则自动将第三个回复替换为拒绝倾向。以此给出更加多样的回复,让使用者的选择面更大。

结语

SmartReply是谷歌将回复选择技术利用到移动版邮件系统的一个尝试,希望解决手机打字不便的问题。论文叙述了一个系统,并为我们实现一个邮件回复系统指明了方向。

undefined

相关推荐
热点推荐
我们都被骗了,其实美国人远没有中国人那么注重保护个人隐私

我们都被骗了,其实美国人远没有中国人那么注重保护个人隐私

问筠说情感
2022-12-01 14:14:48
美国希望中国放开,还是希望中国继续搞封控?美国想插手中国防疫

美国希望中国放开,还是希望中国继续搞封控?美国想插手中国防疫

杉石石
2022-12-03 11:21:19
这5种性生活,最伤阴道,尤其是最后一种,请立即停止!(夫妻必读)

这5种性生活,最伤阴道,尤其是最后一种,请立即停止!(夫妻必读)

鱼乐星鲜事
2022-10-26 18:28:36
扮猪吃老虎!荷兰3-1大胜打脸英格兰,还不承认放水?梅西也危险

扮猪吃老虎!荷兰3-1大胜打脸英格兰,还不承认放水?梅西也危险

嘴炮体坛
2022-12-04 01:18:54
俄罗斯姑娘被父母抛弃,17岁来到中国,被沈阳丈夫捧在手心

俄罗斯姑娘被父母抛弃,17岁来到中国,被沈阳丈夫捧在手心

波波娱乐记
2022-12-03 16:58:25
世界杯夺冠3大铁律!4大强队无缘冠军,仅2队符合冠军条件

世界杯夺冠3大铁律!4大强队无缘冠军,仅2队符合冠军条件

体坛独角兽
2022-12-03 21:23:10
太突然!百万大V上海浦东出境被拦,护照被剪,机场崩溃大哭!

太突然!百万大V上海浦东出境被拦,护照被剪,机场崩溃大哭!

旧日兮
2022-12-02 21:12:23
阿根廷挺进8强,梅西刷新9大纪录!评分全场最高,阿根廷仍存隐忧

阿根廷挺进8强,梅西刷新9大纪录!评分全场最高,阿根廷仍存隐忧

老梁体育漫谈
2022-12-04 05:18:42
何鸿燊请霍英东喝茶,一江湖人突然怒摔茶杯,随后霍英东离开澳门

何鸿燊请霍英东喝茶,一江湖人突然怒摔茶杯,随后霍英东离开澳门

梦里大唐
2022-12-03 21:18:17
“吃一顿饭,做4次爱”:2022最恶心的男人出现了!

“吃一顿饭,做4次爱”:2022最恶心的男人出现了!

黎兜兜
2022-09-15 20:39:33
解封放开已势在必行!2000字深度解析,放开后我们承担不起的后果

解封放开已势在必行!2000字深度解析,放开后我们承担不起的后果

温柔的大马猴
2022-12-03 23:09:01
乌东破局:俄乌都在酝酿大动作,北约不排除亲自下场

乌东破局:俄乌都在酝酿大动作,北约不排除亲自下场

储殷教授
2022-12-03 07:34:07
德国宣布不会禁止华为,华为回应!

德国宣布不会禁止华为,华为回应!

骡子科技
2022-12-03 18:47:56
梅西生涯此前两次面对荷兰均战成0-0,14年点球大战阿根廷胜出

梅西生涯此前两次面对荷兰均战成0-0,14年点球大战阿根廷胜出

直播吧
2022-12-04 05:28:03
日本女人为何惧怕美国黑人?为什么谈之色变?看看就明白了

日本女人为何惧怕美国黑人?为什么谈之色变?看看就明白了

韩江
2022-11-30 18:28:55
刚刚,北京、广州明确!无48小时核酸阴性证明可乘车!多地就诊可凭绿码、购药无需核酸

刚刚,北京、广州明确!无48小时核酸阴性证明可乘车!多地就诊可凭绿码、购药无需核酸

中国证券报
2022-12-04 00:43:03
人心散了!比利时队仅12名球员乘包机回国 14人自费分头离开卡塔尔

人心散了!比利时队仅12名球员乘包机回国 14人自费分头离开卡塔尔

足球部落
2022-12-03 14:35:30
74岁老汉让12岁女孩怀孕,父母不信是老汉所为让女生下孩子

74岁老汉让12岁女孩怀孕,父母不信是老汉所为让女生下孩子

事事百路通
2022-12-03 16:08:26
俄罗斯向我们发出求救信号,中方罕见拒绝:这忙帮不了!

俄罗斯向我们发出求救信号,中方罕见拒绝:这忙帮不了!

深度君评
2022-11-12 11:29:15
云南发布通知,2023大中小学寒假时间最新敲定,但还有一个坏消息

云南发布通知,2023大中小学寒假时间最新敲定,但还有一个坏消息

陈三谈教育
2022-12-03 21:35:17
2022-12-04 06:02:44

科技要闻

蔚来市值从7100亿跌到1200亿 李斌急不急?

头条要闻

马斯克爆料称推特曾为拜登儿子删帖 特朗普炮轰民主党

头条要闻

马斯克爆料称推特曾为拜登儿子删帖 特朗普炮轰民主党

体育要闻

国家队的孙兴慜,为啥和俱乐部不一样

娱乐要闻

俩“海王”终于要办婚礼了

财经要闻

汽车要闻

全新现代IONIQ 6北美市场发布 最大续航547公里

态度原创

手机
游戏
艺术
时尚
公开课

手机要闻

Apple Watch Ultra上线Oceanic+应用:水肺潜水爱好者专属

deft还原DRX野辅决裂

艺术要闻

吴颐人艺术馆在沪开幕,两百多作品呈现“桑梓情”

国内防疫政策调整后 奢侈品股价重拾信心

公开课

“你好,我姓爨”,这个姓氏你会念吗?

进入关怀模式
×