注意力机制统治NLP多年,但一个细节始终没解决:所有注意力头真的该平等对待吗?
研究人员提出了一种加权变体。核心改动很简单——给不同的注意力头分配可学习的权重系数,让模型自己决定哪些"视角"更重要。不是改网络结构,而是改信息融合方式。
![]()
实验结果有意思。在WMT英德翻译任务上,BLEU分数提升了0.8-1.2个点。数字不大,但胜在改动极小:参数量只增加了不到0.1%,推理速度几乎不变。
这个思路的巧妙之处在于"不折腾"。当所有人都在堆层数、扩维度时,它回到注意力机制本身,问了一个被忽略的问题:多头注意力里,每个头的话语权该怎么定?
目前代码已开源。对于正在做翻译系统优化的团队,这或许是个低成本的尝试方向。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.