网易首页 > 网易号 > 正文 申请入驻

AAAI 2025 | 只根据题目和摘要就能预测论文影响力?

0
分享至

TL;DR:

我们发现微调LLM并引导它来根据题目和摘要预测一个0-1之间的文献计量学指标是很有应用前景的。实验结果表明,微调后的LLM可以准确发现潜在高影响力的论文(NDCG@20>0.9)。我们的方法可以帮助自动科研系统以及个人研究者从海量新发表论文中筛选潜在高质量论文。

论文题目: From Words to Worth: Newborn Article Impact Prediction with LLM 论文链接: https://arxiv.org/abs/2408.03934 数据集与代码主页: https://sway.cloud.microsoft/KOH09sPR21UbojbcHuggingFace 在线 Demo: https://huggingface.co/spaces/ssocean/Newborn_Article_Impact_Predict

大家可能对“文章影响力预测”任务比较陌生,但是想必各位对“学术成果评定”都再熟悉不过了。学术成果评定主要依赖的是一篇文章历史的统计数据,从影响力、潜在的社会或经济贡献等方面评定一篇学术论文的价值。与成果评定评估已经存在的事实相反,论文影响力预测专注于预测一篇论文未来的学术影响力。

图1 早先方法范式一览: 长期以来,论文影响力预测的主流方案就是把引用特征、发表期刊会议等级、作者机构声誉、文章关键字等信息送入诸如SVM、RNN等各样的算法模型中,试图预测这这篇文章未来的引用情况。

自论文影响力预测任务诞生的那一刻起,它就成为了大型学术机构的“专利”。这些大型机构可能会用它来进行调拨科研经费、资助人才等等我们想象不到的事。确实呢,在以前这件事和普通科研人不能说唇齿相依,只能说毫不相干!但随着科研论文发文量的爆炸式增长以及各种新兴的LLM+应用的诞生(如AI4S、自动综述系统、自动科研系统等等),能够用于鉴别重要文献的影响力预测任务变得愈发重要。

这就像以前视频直播是电视台的专利,但随着移动互联网和短视频平台进入千家万户,现在想当主播的普通人也要开始学习布置机位、搭建绿布、调节补光等专业技能。
图2 “巧妇难为无米之炊”,普通研究者和AI系统都需要在海量的文献中,找到最有价值的相关文献。

既然文章影响力预测任务变得愈发重要,以往的方法能否派上用场呢?很遗憾,不太行。

图1谈到了以往的大多数方法高度依赖文章的外部历史信息,但这些信息其实对个人研究者甚至是机构来说,都是很难获取的(比如如何准确获取一篇文章第一个月被引的次数?如何拿到双盲论文的作者信息和发文机构? 这是能说的么)。

另外,有些信息会导致预测任务存在信息泄露的风险。比如,期刊影响因子其实就是一本期刊的平均引用次数。拿期刊影响因子作为输入,去预测一篇被该期刊收录的某篇文章未来的引用次数存在一定的信息泄露可能。更别提有些工作想要预测未来三年的引用情况,要先拿到过往十年的引用数据。过度依赖外部信息导致了以往方法大多只能预测已经发表了一段时间、甚至是已经被收录的文章影响力,而对那些刚刚新发表的论文影响力预测几乎是束手无策。

除了高度依赖外部信息及只能预测已发表论文,这些预测目标本身也存在争议。大家知道,引用次数随领域波动是很大的。就拿图4为例,AI领域顶刊TPAMI的影响因子26.7,不到Nature的1/2,医学顶刊CA的10/1。大领域是如此,小领域也存在类似的现象:专注于通用目标检测的论文,势必会比深耕甲骨文OCR的收获更多的注意(引用次数)。这就导致对领域贡献相同的论文(粗浅的认为质量完全一样的论文),可能就因为领域的不同,引用次数有数倍甚至数十倍的差异。这样巨大的差异导致算法模型在学习过程中也会产生较大的困惑,在多领域联合训练时梯度波动较大(因此,也有方法一个小领域训一个模型,最后在推理时根据领域选择对应的模型)。

那既然引用次数用不成了,有没有什么能支持跨领域对比的指标呢,而且最好还带有神经网络最喜欢的数值归一化性质的?这样就能解决引用次数随领域波动导致训练不稳定的问题了。还真有,那就是带有超越指数性质的TNCSI!好的,我不装了,这是我们之前的一个工作,但当时该指标是用来评价文献综述的累积影响力的。

简单来说,它是由LLM确定的“同领域”内1000篇论文引用分布拟合出的概率密度函数的积分所得出的(跨领域对比的问题解决了!)。如图5所示,TNCSI就是蓝色曲线下方指定区间上的面积。由于是概率密度函数的积分,TNCSI的取值范围天然位于0-1之间(神经网络最喜欢的数值归一化也来了!)。

既然跨领域和归一化的问题都解决了,我们用TNCSI来进行预测如何?我们要先分析下TNCSI的优缺点。首先,TNCSI是一个高度可解释的、数值归一化的指标,它是一篇论文的引用次数超过同领域其它论文的概率。另外,与引用次数相同,TNCSI是一个可以评价单篇文章的指标(莱顿宣言明确指出,不应使用期刊级别的评价指标例如影响因子来评价单篇文章)。这些性质对回归任务来说真的是非常诱人!

但是,由于TNCSI服务对象不同(我们那篇是针对综述设计的),它不能直接判断普通文章的研究领域。此外,TNCSI在设计之处旨在对齐引用次数,着重考虑的是累积影响力。但对文章影响力预测任务来说,使用累计影响力会导致较早发表文献由于时间优势积累更大的影响力,对新发表论文造成“倚老卖老”的不利局面。

遇山开路,遇水架桥!我们先咔咔改了早先提取综述研究领域的prompt,使其现在可以判断普通论文的领域关键字(从而检索相关的1000篇文章)。随后,作者团队又去时间管理局里转了一圈,让Loki把TNCSI踢出神圣时间线,赋予其抵御时间的能力(❌)。随后,我们将TNCSI统计全时间段论文的引用次数分布改为了仅统计该论文发表前后半年共计一年内论文的引用分布情况,从而赋予其抵御时间的能力(✔️)。

好,GT的计算方式已经非常明确(如图8所示)。事不宜迟,我们哐哐造了12000+条数据,每一条数据大概是这样-->(题目,摘要,TNCSI_SP)。这12000条数据来自所arXiv的cs.AI cs.CL cs.CV三大领域,横跨2020、2021、2022三年,整体数据分布是均匀的(每一个区间上的样本量基本相同)。

图8 指标计算过程

有了数据集,现在终于到正头戏了——使用LLM来预测文章影响力!! 长话短说,我们魔改了下LLM的工作方式(如图9所示),把原本逐token逐token生成的范式改为了只生成第一个token,随后把这个token送入MLP并将输出的logits进行sigmoid归一化(闭环了闭环了!)。我们发现LLaMA-3的效果最好,在一个预测0-1之间的数值回归任务中,MAE仅为0.216,NDCG更是干到了0.901!(NDCG∈[0,1],越接近1表明发现高影响力论文的能力越强)。与早先方法的对比(图10)表明我们的方法在仅依靠题目和摘要的情况下,还能有着遥(cou)遥(huo)领(neng)先(yong)的性能表现!

我们还设计了一个有趣的小实验,即分别使用不同年份的数据进行训练。如图11所示,我们发现在使用TNCSI作为回归指标时,不同年份之间的MAE方差很大,导致最终预测效果较差。而使用TNCSI_SP作为预测指标时,不同年份之间的MAE波动很小,整体预测性能也更好。

最后,为了验证我们方法在真实应用中的有效性,我们找了500+篇2024.1.1后年新发表的且已被不同JCR分区期刊收录的文章(这些文章极大概率不在LLaMA-3的预训练语料中,不存在信息泄露风险),并使用所提出的方法预测其影响力。实验结果表明,等级更高的分区,往往有着更高的Top5% & Top25%预测影响力,符合常识认知。

最后我们还是想说一下,不要试图通过虚假声称性能(比如没有达到SOTA但是声称SOTA)等方式来试图提高指标预测分数,让我们共同维护一个良好的学术环境!

不过呢,我们也确实清楚,预测指标肯定会被用来作为indicator,来引导题目和摘要的撰写。对于这种情况,我们的建议是:(1)不要被指标牵着鼻子走,不建议为了“刷分”,把原版题目、摘要改的面目全非。(2)理想区间是在0.60-0.85之间(3)尽量不要优化题目,只针对摘要进行优化。摘要优化时,只进行语义上的优化(换词、优化表达等);(4)当摘要优化到第一次分数下降时,就停止“分数导向的优化”(意思就是不要再看分来优化了)。如果分数不管怎么优化都不高于0.60,或许你应当完全重写摘要(纯理论分析型论文除外!)。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯最怕的,从来都不是北约东扩,而是文化霸权覆灭

俄罗斯最怕的,从来都不是北约东扩,而是文化霸权覆灭

史政先锋
2025-09-17 13:50:20
辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

辟谣!朝鲜发射舞水端中程导弹出错,在山东上空被中国拦截?

军武次位面
2025-09-16 17:42:56
通过这12个细节,网友们对人口问题有个基本的预估了

通过这12个细节,网友们对人口问题有个基本的预估了

清晖有墨
2025-09-17 16:59:17
当色情行业赚不到钱时,经济真的该警惕了?

当色情行业赚不到钱时,经济真的该警惕了?

流苏晚晴
2025-09-17 18:05:22
43岁凯特王妃惊艳国宴,戴“珍珠泪”穿金色裙,轻松赢了梅拉尼娅

43岁凯特王妃惊艳国宴,戴“珍珠泪”穿金色裙,轻松赢了梅拉尼娅

译言
2025-09-18 06:55:41
巨大发现!中国女篮惊现第二个田中心,她的名字叫田媛媛!

巨大发现!中国女篮惊现第二个田中心,她的名字叫田媛媛!

田先生篮球
2025-09-18 11:50:54
现在,老家农村有些问题已经到了非常严重的地步,真令人担忧

现在,老家农村有些问题已经到了非常严重的地步,真令人担忧

巷子里的历史
2025-09-18 15:24:47
罗翔:一个知识越贫乏的人,越是有一种莫名奇怪的勇气和自豪感

罗翔:一个知识越贫乏的人,越是有一种莫名奇怪的勇气和自豪感

杏花烟雨江南的碧园
2025-09-09 15:00:03
当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

当时很多蒙古考察日记中,都提到蒙古人性交不节制,得病者极多

牛牛叨史
2025-09-17 13:38:18
秦海璐直觉超准!35岁面相改变的刘宇宁,给娱乐圈男星提了醒

秦海璐直觉超准!35岁面相改变的刘宇宁,给娱乐圈男星提了醒

智凌纵横
2025-09-19 10:19:42
山东“入室抢婴案”一审宣判,4名被告最高获死缓

山东“入室抢婴案”一审宣判,4名被告最高获死缓

环球网资讯
2025-09-19 10:35:03
【独家起底】从“臭虾仁”到垄断疑云:上海绿捷校园餐事件全梳理!孩子午餐谁守护?

【独家起底】从“臭虾仁”到垄断疑云:上海绿捷校园餐事件全梳理!孩子午餐谁守护?

贞观108坊
2025-09-18 18:34:40
太损了!巴基斯坦在歼-10CE机头上涂阵风标识,很明显是展示战果啊

太损了!巴基斯坦在歼-10CE机头上涂阵风标识,很明显是展示战果啊

战争与帝国
2025-09-17 22:38:57
最高配!凯特王妃国宴造型更新,确认是梅根这辈子都达不到的高度

最高配!凯特王妃国宴造型更新,确认是梅根这辈子都达不到的高度

小嵩
2025-09-18 16:35:17
正式退出!40岁C罗宣布意外决定,利雅得胜利批准

正式退出!40岁C罗宣布意外决定,利雅得胜利批准

保持热爱0263
2025-09-19 00:13:25
女老师恋上男学生,男生一年瘦至80斤…最终被男生母亲抓了现行!

女老师恋上男学生,男生一年瘦至80斤…最终被男生母亲抓了现行!

极品小牛肉
2024-01-23 14:15:39
陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

涵豆说娱
2025-09-09 17:09:17
中波双方谈完,波兰当着全球公布重大喜讯,欧盟:为何运气如此好

中波双方谈完,波兰当着全球公布重大喜讯,欧盟:为何运气如此好

墨兰史书
2025-09-18 06:10:07
“这样判丧良心”,山东一女子对法官说这句话,被罚10万拘留15天

“这样判丧良心”,山东一女子对法官说这句话,被罚10万拘留15天

江山挥笔
2025-09-18 08:46:36
预测15亿,首映狂轰3.4亿,《731》票房大爆,姜武把古天乐打懵了

预测15亿,首映狂轰3.4亿,《731》票房大爆,姜武把古天乐打懵了

电影票房预告片
2025-09-19 02:52:24
2025-09-19 11:19:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2223文章数 591关注度
往期回顾 全部

教育要闻

中考语文命题病历:第1例|2012年北京卷说明文——诊断:事实错误

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

头条要闻

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

体育要闻

30队今夏花钱排名:雷霆超8亿 勇士零花费

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

青海一"矿霸"非法填埋万吨危废

科技要闻

黄仁勋亲口确认:正评估英特尔代工

汽车要闻

理想i6不搞虚的,9月26日上市/第二天开始交付

态度原创

教育
游戏
健康
手机
军事航空

教育要闻

万霞:努力变成“留在童年”的教师 | 身边好老师

说错话了!《无主之地4》CEO认错:这是无心之失!

内分泌科专家破解身高八大谣言

手机要闻

意外吗?在4-5K区间vivo超越小米成新王

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版