网易首页 > 网易号 > 正文 申请入驻

权威评测显示:智慧芽AI Agent查新检索能力远超通用大模型

0
分享至

8月21日,AI驱动的科技创新和知识产权信息服务商智慧芽发表最新研究成果《一项研究:AI工具的查新检索基准测试》。该研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试。

评测结果显示,智慧芽"查新检索AI Agent"在核心评估指标上显著优于ChatGPT-o3、DeepSeek-R1(两者皆为联网搜索版)为代表的通用AI工具,X检出率和X召回率分别达到76%和32%,是通用AI工具的2-3倍。

"过去一段时间里,智慧芽在专利和研发场景推出了几十款AI Agents工具,但大家都会问:如何验证评估不同工具在专利查新检索中的效率和能力?"智慧芽创始人兼CEO张济徽表示,"今天公布的测试结果给出了关于AI工具专业能力的科学答案。我们期待让大家更加客观、直观地看到专业AI工具如何帮助企业在知识产权工作中实现降本增效。"

专业评测验证AI工具处理专利任务的真实性能

查新检索是指针对某项技术方案或专利申请,系统检索全球现有技术,以判断其是否具备"新颖性"和"创造性"的专业检索过程。由于专利工作横跨法律、技术和商业三大交叉领域,具有极高的专业壁垒,通用的AI工具往往难以准确胜任专利场景中的复杂任务。

此次评测基于跨受理局并行审查的国际同族专利构建了高质量评测数据集。通过自研的权利要求一致性比对模型进行语义对齐与技术相似度评估,消除语言表述差异带来的影响,确保测试的客观性和准确性。评测以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的"基准答案",经过去重与标引规范化整合,形成一致且可复用的参考标准。本次评测精选了89个满足严格要求的测试样本,其中38.2%为中文文本,61.8%为英文文本,在IPC分类号上实现均匀分布,真实模拟现实中的查新检索场景。


图:89个测试样本的专利文本语言、IPC分类号分布情况

在评估指标方面,本次评测采用"X检出率"和"X查全率"两大核心指标。“X检出率”用以衡量AI工具能否检索到X文献的能力,其在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。在针对每个样本的测试中,在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。


图:“PatentBench-查新检索”的“X检出率”计算公式

“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力,其在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。


图:“PatentBench-查新检索”的“X查全率”计算公式

智慧芽查新检索AI Agent评测表现领先通用大模型

研究显示,智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。


图:“X检出率”评测结果

与此同时,智慧芽查新检索AI Agent的“X查全率”为32%,甚至达到了另外两款通用AI工具的3倍以上,ChatGPT-o3(联网搜索版)为11%,DeepSeek-R1(联网搜索版)为3%。这表明,在Top100返回结果中,智慧芽的Agent已能发现32%的正确答案,若结合后续人类专家的筛选,X文献检索结果将更加完整。


图:“X查全率”评测结果

综上表明,智慧芽查新检索AI Agent在查新检索场景中的评测表现,远远超越通用大模型。尽管通用大模型具备强大的泛化推理能力,但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展,在专利垂直场景中展现出不可替代的必要性与应用价值。

专业工作交给专业AI

智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平,源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调,确保模型能够深度理解专利技术语言和检索逻辑。在此基础上,Agent采用检索增强生成(RAG)技术执行高质量的检索工作,将实时检索能力与生成能力有机结合。通过这种技术组合,智慧芽Agent能够准确捕获文本中的关键技术特征,实施精密的检索策略,并提供低幻觉的可靠结果,从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。

基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
潘石屹再次预判我国楼市!未来3年,楼市或迎来“三大”走向

潘石屹再次预判我国楼市!未来3年,楼市或迎来“三大”走向

爱看剧的阿峰
2025-11-02 16:02:00
新王登场!新机官宣:搭载骁龙8 Elite Gen5+小直屏!

新王登场!新机官宣:搭载骁龙8 Elite Gen5+小直屏!

科技堡垒
2025-11-02 11:17:56
从今天起,中国不再向日本索要任何道歉

从今天起,中国不再向日本索要任何道歉

科学发掘
2025-11-02 07:57:50
欧阳娜娜年纪轻轻身材已封神,好身材呼之欲出?

欧阳娜娜年纪轻轻身材已封神,好身材呼之欲出?

娱乐领航家
2025-11-01 23:00:02
3480万现金买别墅:厅官的情人坐头等舱,举报人坐看守所

3480万现金买别墅:厅官的情人坐头等舱,举报人坐看守所

有戏
2025-11-01 16:43:49
重磅!曝邵佳一成国足新帅热门人选

重磅!曝邵佳一成国足新帅热门人选

徽派体育
2025-11-02 21:56:11
参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

参加蔡英文、赖清德就职,却不出席郑丽文就职,卢秀燕真面目曝光

蛙斯基娱乐中
2025-11-02 16:27:24
雷达失灵47分钟!伊万卡、姆巴佩游艇密会,17岁差藏权力游戏

雷达失灵47分钟!伊万卡、姆巴佩游艇密会,17岁差藏权力游戏

罗氏八卦
2025-11-02 11:50:39
等了好久等到今天!黄安称台湾省可用高德了,每一条街都清清楚楚

等了好久等到今天!黄安称台湾省可用高德了,每一条街都清清楚楚

火山诗话
2025-11-02 15:48:27
事关黄金税收,两部门重磅发布!对个人购买黄金有何影响?是否会影响金价?专家解读

事关黄金税收,两部门重磅发布!对个人购买黄金有何影响?是否会影响金价?专家解读

每日经济新闻
2025-11-02 00:18:10
大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

大同通报“2万套保障房10年未完工”整改进展:已完工2486套,其余正推进

澎湃新闻
2025-11-02 21:58:26
出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

出卖1000多名同志,却活到74岁的蔡孝乾,为何至今没有被清算?

报君知史
2025-10-20 11:19:06
翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

翁帆最新近况:穿35块的帆布鞋,带34箱手稿搬离旧居

金牌娱乐
2025-11-02 09:53:48
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

3-0!62岁穆帅激活本菲卡,3连胜狂轰11球,10轮不败+距榜首仅1分

我爱英超
2025-11-02 07:00:44
媒体人:篮协逐渐恢复全面管理CBA 已无人提管办分离

媒体人:篮协逐渐恢复全面管理CBA 已无人提管办分离

林子说事
2025-11-02 14:11:41
广东惊现“乡村版白宫”,造价3200万,竟然是卫生院!

广东惊现“乡村版白宫”,造价3200万,竟然是卫生院!

GA环球建筑
2025-11-02 13:52:41
小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

小米YU9全面曝光,年轻人第一台“路虎揽胜”来了

科技头版Pro
2025-10-31 14:47:29
美国正式批准向乌克兰转移战斧导弹,俄向红军村增兵至17万人

美国正式批准向乌克兰转移战斧导弹,俄向红军村增兵至17万人

史政先锋
2025-11-01 15:04:59
全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

杨华评论
2025-11-01 19:30:01
2025-11-03 00:24:49
零壹财经 incentive-icons
零壹财经
数字经济决策服务平台
38793文章数 20047关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

房产
手机
游戏
艺术
公开课

房产要闻

中粮(三亚)国贸中心ITC首期自贸港政策沙龙圆满举行

手机要闻

华为Mate80风扇版确认:五款机型同台竞技,18号见!

老外最新《GTA6》泄露机制汇总:真能全部实现?

艺术要闻

官宣:KPF等签约!沙特“全球最大单体建筑”项目新动向!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版