网易首页 > 网易号 > 正文 申请入驻

鄂维南李航领衔造高级论文搜索Agent,精准性超谷歌学术等

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。

名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。

现在就有Demo可玩。

只需提供研究主题或描述想法,它就会迅速展开搜索并按相关度自动排列组织顺序。

点击标题卡,不用跳转页面,就能显示论文作者和摘要,再点击带有跳转链接的标题就能查看完整论文:

还可以点击每个标题卡后面的小方框,打包下载JSON、BIB格式文件:

更重要的是其召回率和精准性。

实验中,PaSa在召回率和精确率等指标上显著优于谷歌、谷歌学术、Google with GPT-4o、ChatGPT等基线模型。

在AutoScholarQuery测试集,与最强基线PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%;在团队创建的数据集RealScholarQuery上,与最佳基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别提升37.78%、39.90%和39.83%。

磕盐党狂喜~

两个Agent组成

目前学术搜索系统,如谷歌学术搜索,常难以有效处理复杂的查询,导致研究人员需花费大量时间手动文献搜索。

比如询问”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。

(哪些研究聚焦于非平稳强化学习中基于值的方法,特别是基于UCB算法的研究)

虽然利用LLM来增强信息检索的研究越来越多,但学术搜索不仅需要检索,还需要深入阅读论文和检查引用,完成全面的文献调查。

为此,研究团队开发了PaSa系统,主要包含两个大模型Agent:Crawler(爬虫)、Selector(选择器)。

Crawler负责处理用户查询,生成多个搜索命令,并检索相关论文。

具体来说,它执行一个基于token的马尔可夫决策过程(MDP)。动作空间A对应于LLM的词汇表,其中每个token代表一个动作。LLM充当策略模型,Agent的状态由当前的LLM上下文和论文队列定义。

Crawler使用三个注册函数进行操作:

  • [Search]用于生成搜索查询并调用搜索工具
  • [Expand]用于展开论文的特定章节并提取其中的引用
  • [Stop]用于重置上下文到用户查询和队列中的下一篇论文。

当动作与函数名称匹配时,将执行相应的函数,进一步修改Agent的状态。

例如,如下图所示,Agent首先接收用户查询,将其纳入其上下文并开始执行动作。如果生成的token是[Search],则LLM继续生成搜索查询,Agent调用搜索工具来检索论文,然后将这些论文添加到论文列表中。

如果token是[Expand],则LLM继续从其上下文中的当前论文中提取子节名称。Agent随后使用解析工具提取该子节中引用的所有论文,并将它们添加到论文列表中。

如果token是[Stop],则Agent将其上下文重置为用户查询以及论文队列中下一篇论文的信息,这些信息包括标题、摘要以及所有部分的概述。

Selector则负责仔细阅读每篇论文,评估是否满足用户查询要求。

它接收两个输入:一个学术查询和一篇研究论文(包括其标题和摘要),

生成两个输出:

一个单一的决策token,可以是“True”或“False”,表示论文是否满足查询,以及一个理由,包含m个支持该决策的token。理由有两个目的:通过联合训练模型生成决策和解释来提高决策准确性,并通过在PaSa应用中提供推理来提高用户信任。

实验中优于所有基线

团队使用包含来自AI顶会收录论文的35k个细粒度学术查询及其对应论文的合成数据集AutoScholarQuery,通过强化学习优化PaSa。

此外,还开发了一个收集真实世界学术查询的基准数据集——RealScholarQuery,用于在更现实的场景中评估PaSa 的性能。

实验中,Crawler和Selector均基于Qwen2.5-7b,最终的Agent称为PaSa-7b。

如下表5所示,PaSa-7b在AutoScholarQuery测试集上优于所有基线。

与最强的基线PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%,精度相当。此外,PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。

与最佳的基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别实现了33.80%、38.83%和42.64%的提升。

团队还观察到,在推理过程中使用多个Crawler集成可以提升性能。具体来说,在推理过程中运行两次Crawler,使 AutoScholarQuery上的Crawler召回率提高了3.34%,最终使整个PaSa系统的召回率提高了1.51%,同时保持精度相似。

为了在更现实的场景中评估PaSa,团队在RealScholarQuery上评估了其有效性。如表6所示,PaSa-7b在真实世界的学术搜索场景中表现出更大的优势。与PaSa-GPT-4o相比,PaSa-7b的召回率提高了30.36%,精度提高4.25%。

与RealScholarQuery上最佳的基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别超过Google 37.78%、39.90%和39.83%。

此外,PaSa-7b-ensemble进一步将Crawler召回率提高了4.32%,使整个系统的召回率提高了3.52%。

鄂维南、李航领衔

PaSa由中科院院士、北大教授鄂维南,字节跳动AI实验室总监*李航领衔提出。

鄂维南,中科院院士、“AI for Science”概念的提出者。

15岁就被中科大录取,可以进“少年班”的他还是选择了进数学系学习纯数学。

而在大四之时,由于希望“自己学的东西真正有用,而不是只有高深”,他突然改变方向,决定改读应用数学。

我的内心深处是属于入世的,想跟社会跟技术产生一点联系,我不是那种能一辈子待在象牙塔里的人。

最终,他一路从中国科学院、UCLA完成硕博士学位(博士期间的导师为著名应用数学家Bjorn Engquist教授)。

博士毕业之后几年,鄂维南进入普林斯顿高等研究院和纽约大学的库朗研究所,分别担任研究员和教授。并在1999年即36岁之时成为普林斯顿大学数学系和应用数学及计算数学研究所教授,转年加入北大。

2011年,48岁的鄂维南当选中国科学院院士。

其贡献包括:

  • 与合作者一起把偏微分方程、随机分析及动力系统的理论进行巧妙结合,用于研究随机Burgers方程、随机passive scalar方程、随机Navier-Stokes方程和Ginzburg-Landau方程等,证明不变测度的存在性和唯一性,分析稳定解的特性,并在此基础上解决了Burgers湍流模型中一些存有争议的问题。
  • 与合作者一起构建一种十分有效的数值方法——弦方法,使之成为研究物理、生物和化学领域中稀有事件的一个重要手段。
  • 提出设计与分析多物理模型的多尺度方法的一般框架等等。

从2014年开始,鄂院士的职业生涯迎来又一个转折,他开始正式进入机器学习领域,并在2018年提出“AI for Science”的概念。

李航,字节跳动AI实验室总监之一,同时当选三大国际顶级学会(ACL,IEEE,ACM)Fellow。

他的主要研究方向包括信息检索、NLP、统计机器学习和数据挖掘。

他在日本京都大学电气工程系获得硕士学位,并于东京大学计算机科学博士毕业,曾担任日本NEC公司中央研究所研究员、微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室首席科学家。

论文链接:https://arxiv.org/abs/2501.10120
demo:https://pasa-agent.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

法国艺术圈地震!芭蕾女神、哲学少女,都被钢琴家送给了爱泼斯坦!

新欧洲
2026-02-18 19:44:34
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
叔本华:性欲是一切欲望的焦点

叔本华:性欲是一切欲望的焦点

听哲学
2026-03-24 21:42:04
87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

谈古论今历史有道
2026-03-25 15:15:03
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

前球探:切尔西担忧加纳乔的表现,他在曼联的问题又出现了

懂球帝
2026-03-26 12:27:11
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

丑橘是转基因水果?专家直言:这几种水果,再便宜也不要买

白宸侃片
2026-03-26 11:19:02
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

四川高县村支书暴打残疾村妇致轻伤 法院判决免于刑事处罚引争议

律法刑道
2026-03-26 10:55:03
中国资产,大涨!美联储,降息大消息!

中国资产,大涨!美联储,降息大消息!

中国基金报
2026-03-26 08:22:37
1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

1955年蒋介石想吃奉化老家的黄花泥螺,保密局知道后如何搞到的?

铜臭的历史味
2026-03-16 13:05:54
林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

林彪的儿子要结婚,叶群在全国选美,毛主席得知说了5个字

扬平说史
2026-03-25 21:04:04
曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

曼联标价700万卖滕哈格爱将!2次出租英冠均重伤,实力平庸还倒霉

罗米的曼联博客
2026-03-26 11:16:06
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

马奎尔曝续约曼联最后要求,评价红牌停赛!重返国家队让妈妈落泪

罗米的曼联博客
2026-03-26 12:11:02
美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

美军全球调兵、要打地面战争?伊朗:要给特朗普一个“巨大惊喜”

野史日记
2026-03-25 10:00:12
巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

巴拿马接手港口仅一个月,中远海运集运宣布恢复中东六国新订舱业务!

趣味萌宠的日常
2026-03-26 14:04:01
2026-03-26 15:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
教育
艺术
本地
旅游

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

教育要闻

高考地理中的花海经济

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

淡季旺销!南明住宿业今年前两月营收斩获1.18亿元

无障碍浏览 进入关怀版