网易首页 > 网易号 > 正文 申请入驻

Paper和陈丹琦撞车是一种怎样的体验

0
分享至

卷友们好,我是rumor。 写这篇文章的时候,我的心情很复杂。简单的来说,有一个好消息和坏消息。好消息是我们今年2月投稿的ACL中了,用对比学习做文本表示,刷过了BERT-flow,直接提了2-5个点。坏消息是我们一直没挂出来,想憋大招等5月份ACL正式通知下来一起宣传,没想到陈丹琦组在4月份推出了SimCSE,比我们高个1-2点。

更坏的消息是,我虽然很早就看到了SimCSE的论文,但只瞟了眼第一页的结果,心中默认他们放的是large模型表现(比我们低)。所以在准备ConSERT宣传工作之前我一直沉浸在某种自我陶醉的状态,跟一些知道的小伙伴也都夸下了海口,说「我们还是SOTA,稳」。直到ACL正式结果下来,领导说咱们开始PR吧,我们才发现人家SimCSE放的是base模型结果。那种感觉,就像跑N*400米,我以为自己跑在第一个,实际上已经被套圈了。 Anyway,跑都跑了,还是分享一些我们在工作中发现的有意思的点以及思考。

论文链接: https://arxiv.org/pdf/2105.10497 代码: https://github.com/yym6472/ConSERT

一、简介NPL+对比学习

P.S. 对比学习的背景就不过多介绍了,不了解的同学可以参考。

到底在解决什么问题

ConSERT、SimCSE等方法,在应用了对比学习之后,都比之前的方法有了很大提升。这是因为BERT的表示本身存在塌缩的问题

之前BERT-flow的论文就有提到过,通过对BERT词表示的观察,会发现整体呈锥形分布:高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会dominate句子表示,让整体的相似度都很高,如下图a所示:

如果我们去掉句子中的高频词,效果就会好一些,如下图蓝色的线:

再来看对比学习,它是通过拉近相同样本的距离、拉远不同样本的距离,来刻画样本本身的表示,正好可以解决BERT表示的塌缩问题。经过对比学习增量训练后,我们也可以观察出整体的句子表示确实更均匀了些(上图b、橙色线)。

数据增强方法很重要

在最初做对比学习时,我们的思路局限在有监督对抗扰动和BERT输出后的表示对比上(比如mean、max池化后的对比),但提升一直有限。直到渊蒙发现即使不使用任何方法,直接拉近相同表示、拉远不同表示也会有不错的提升后,我们的重点才又放到了句子前期的扰动上。

参考其他NLP论文的数据增强后,我们在Embedding层使用了:

  • shuffle: 更换position id的顺序

  • token cutoff: 在某个token维度把embedding置为0

  • feature cutoff: 在embedding矩阵中,有768个维度,把某个维度的feature置为0

  • dropout: 顺着cutoff,我们又想到了dropout

再看SimCSE的思路还是很巧妙的,我们只局限在了Embedding layer和Pool layer的扰动上,意识到扰动越提前,越会被网络放大,而没意识到在Transformer的每一层都可以增加扰动,把diff更加放大,提升任务难度。

有意思的是两篇论文得出的结论是不一样的,我们对比后发现Feature cutoff+Shuffle的效果最好(当然我们的dropout其实弱一些):

再把SimCSE的思路拿过来,如果在transformer每一层都做shuffle或者cutoff,说不定也能有些提升。

另外我们也尝试了SimCLR那样增加一层MLP、或者用SimSiam,但基本都没效果。估计是因为BERT的学习能力已经很强了,不需要其他变化来辅助。

所以总结下来,数据增强方法在NLP对比学习上是关键的一环,变化太大会影响语义,太小则没效果,需要适当把握度,在每一层微微加些扰动。

调参也重要

实验过程中,我们发现temperature超参数对于效果的影响非常大:

再看对比学习的公式:

我们猜想是,当 \tauτ 过小时,样本之间的分数diff就会增大,降低模型学习难度,但过大时,因为BERT本身已经存在塌缩现象(句子向量分数都非常接近),就会让任务变得太难,模型不一定能学会。

另外learning rate的影响也不小,最近在仔细看了SimCSE的设置后,不甘的我们又悄悄做了些实验,调参小能手渊蒙强势上线:

虽然真正落地时大家会更关注数据的影响,但在给定数据集、数据量不大的情况下,调参还是会带来几个点的波动。但局限在调参取胜还是不可取的,真正的好方法应该兼具鲁棒性。

遗留问题

整个工作下来,我们对于对比学习的探索还是很多的,但实际还有一个问题,估计只有真正做过对比学习的人才注意到了,那就是停止策略。

对比学习虽然可以拉远样本表示,解决它们塌缩到一起的问题,但拉远到什么程度是个头呢?

实验中我们发现,如果放任它一直训练下去,效果就会极速下降,造成「反向塌缩」。

所以只能使用STS-B作为dev集,频繁地进行评估,保留最优step,SimCSE也是同样的做法。但这种做法也不能算是「真正的无监督」,像BERT那样可以在大语料上一直预训练。

关于停止策略我们也找了一些方法,并和其它做对比学习的同学讨论,总体的思路是在对比学习(最大化互信息)的同时最小化与任务无关的互信息,但方法比较复杂,由于时间原因没有再继续深入,感兴趣的同学可以参考以下文章:

NIPS2020: What Makes for Good Views for Contrastive Learning? ICLR2021: Self-Supervised Learning From a Multi-View Perspective ICLR2021: FAIRFIL: Contrastive Neural Debiasing Method For Pretrained Text Encoders

这个方向还是有价值深挖一下的,因为目前我们只停留在了dev集最优结果上,如果能找到减缓反向塌缩的方法,继续训练,说不定能找到更优的结果。

二、论文Novelty

在最终写作论文的过程中,我们最担心的问题是ConSERT的方法会不会被质疑是A+B,自己的novelty不够,确实审稿人也提出了这点。

关于这点相信大家做研究也会碰到,每个人都有不同的想法。个人认为方法的拼凑、简单不要紧,重要的还是效果。像之前的SBERT其实也只是把BERT拿来放到经典的框架里实现了一把,但由于方法简单、开源库方便而产生了很大的影响力。虽然一些文章也会被称为「灌水」(见下图),但大部分作者还是在用心钻研其他方法对自己领域的作用,并提供一些经验作为后人的参考。

所以有价值的研究不一定要多fancy,能真正对落地效果有提升就可以。甚至方法越简单越好,简单到极致就是优雅。

三、总结

最后,还有一个take away,就是追热点的研究一定请快!狠!准!

早点放到arixv上占坑。前段时间批量的MLP模型出世估计也是大佬们忍不住了,齐刷刷出来占坑。

Illustration by Rosina Gavrilash from Icons8

CVPR 2021 论文解读Talk+在线直播交流

火热进行中!

(点击下方海报了解更多详情)

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

千秋文化
2026-04-27 20:01:18
《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

《乘风2026》 安崎崩溃落泪,萧蔷当场翻脸制止,这才是大女主风范!

喜欢历史的阿繁
2026-04-29 14:12:54
斯诺克世锦赛战报!四强诞生,卫冕冠军被淘汰,赵心童10-13墨菲

斯诺克世锦赛战报!四强诞生,卫冕冠军被淘汰,赵心童10-13墨菲

等等talk
2026-04-30 00:18:13
2026年5月十二生肖运势详解

2026年5月十二生肖运势详解

白龙王
2026-04-28 20:52:55
惊掉下巴!39 岁郑欣宜暴瘦现身,整张脸瘦脱形,差点没认出来

惊掉下巴!39 岁郑欣宜暴瘦现身,整张脸瘦脱形,差点没认出来

橙星文娱
2026-04-28 09:29:00
“这种孩子,注定被教育淘汰!”男孩在医院的一幕,令人看清现实

“这种孩子,注定被教育淘汰!”男孩在医院的一幕,令人看清现实

妍妍教育日记
2026-04-11 08:45:08
5月1日起严查!饭局、私下转账全被盯上

5月1日起严查!饭局、私下转账全被盯上

观星赏月
2026-04-29 19:35:29
今夜,集体暴跌!

今夜,集体暴跌!

中国基金报
2026-04-29 00:16:33
群体躺平很可怕,会引发连锁效应

群体躺平很可怕,会引发连锁效应

上峰视点
2026-04-29 12:04:44
江亚菲婚后9年没有孩子,一张10年前的病历单,让王海洋秘密曝光

江亚菲婚后9年没有孩子,一张10年前的病历单,让王海洋秘密曝光

卡西莫多的故事
2026-04-27 10:49:42
荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

荒诞到刺眼!本科毕业找不到工作,竟要回炉读技校?这闹剧该停了

狐狸先森讲升学规划
2026-04-29 05:50:03
中央政治局会议定调后,深圳率先响应!深圳房地产市场要稳了!

中央政治局会议定调后,深圳率先响应!深圳房地产市场要稳了!

深圳梦
2026-04-29 22:02:21
2013年,金正哲联手张成泽发动朝鲜兵变,因一细节败露,双遭反杀

2013年,金正哲联手张成泽发动朝鲜兵变,因一细节败露,双遭反杀

阿胡
2025-03-11 13:28:03
因未能如期获得加拿大签证,伊朗足协代表缺席本年度亚足联大会

因未能如期获得加拿大签证,伊朗足协代表缺席本年度亚足联大会

懂球帝
2026-04-30 01:07:14
女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

女子给男主播刷4万礼物,私下见面想亲热被拒绝,气得要求退钱

新游戏大妹子
2026-04-27 10:57:55
美方提醒:若双方谈不拢,中国的武器装备可能会去美国大门口

美方提醒:若双方谈不拢,中国的武器装备可能会去美国大门口

聊历史的阿稼
2026-04-13 03:55:19
起底“性商教母”周媛

起底“性商教母”周媛

中国新闻周刊
2026-04-28 23:01:12
离婚不离家传闻仅1个月,42岁唐嫣近况曝出,估计和你想的不一样

离婚不离家传闻仅1个月,42岁唐嫣近况曝出,估计和你想的不一样

揽星河的笔记
2026-04-29 16:03:16
阿联酋突然退出欧佩克:此前直指海湾盟友“软弱”,或开启“欧佩克的终结”

阿联酋突然退出欧佩克:此前直指海湾盟友“软弱”,或开启“欧佩克的终结”

红星新闻
2026-04-28 23:18:18
纪委的朋友透露:贪官被查之前都有这三个前兆

纪委的朋友透露:贪官被查之前都有这三个前兆

细说职场
2026-04-23 15:31:19
2026-04-30 04:19:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2362文章数 596关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

健康
家居
亲子
数码
公开课

干细胞治烧烫伤能用了么?

家居要闻

寂然无界 简洁风格

亲子要闻

深耕自然教育 践行园本初心——幼儿教师园本课程培训心得体会

数码要闻

极米RS30系列投影仪发布,8822-13499元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版