网易首页 > 网易号 > 正文 申请入驻

权威评测显示:智慧芽AI Agent查新检索能力远超通用大模型

0
分享至

8月21日,AI驱动的科技创新和知识产权信息服务商智慧芽发表最新研究成果《一项研究:AI工具的查新检索基准测试》。该研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试。

评测结果显示,智慧芽"查新检索AI Agent"在核心评估指标上显著优于ChatGPT-o3、DeepSeek-R1(两者皆为联网搜索版)为代表的通用AI工具,X检出率和X召回率分别达到76%和32%,是通用AI工具的2-3倍。

"过去一段时间里,智慧芽在专利和研发场景推出了几十款AI Agents工具,但大家都会问:如何验证评估不同工具在专利查新检索中的效率和能力?"智慧芽创始人兼CEO张济徽表示,"今天公布的测试结果给出了关于AI工具专业能力的科学答案。我们期待让大家更加客观、直观地看到专业AI工具如何帮助企业在知识产权工作中实现降本增效。"

专业评测验证AI工具处理专利任务的真实性能

查新检索是指针对某项技术方案或专利申请,系统检索全球现有技术,以判断其是否具备"新颖性"和"创造性"的专业检索过程。由于专利工作横跨法律、技术和商业三大交叉领域,具有极高的专业壁垒,通用的AI工具往往难以准确胜任专利场景中的复杂任务。

此次评测基于跨受理局并行审查的国际同族专利构建了高质量评测数据集。通过自研的权利要求一致性比对模型进行语义对齐与技术相似度评估,消除语言表述差异带来的影响,确保测试的客观性和准确性。评测以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的"基准答案",经过去重与标引规范化整合,形成一致且可复用的参考标准。本次评测精选了89个满足严格要求的测试样本,其中38.2%为中文文本,61.8%为英文文本,在IPC分类号上实现均匀分布,真实模拟现实中的查新检索场景。


图:89个测试样本的专利文本语言、IPC分类号分布情况

在评估指标方面,本次评测采用"X检出率"和"X查全率"两大核心指标。“X检出率”用以衡量AI工具能否检索到X文献的能力,其在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。在针对每个样本的测试中,在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。


图:“PatentBench-查新检索”的“X检出率”计算公式

“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力,其在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。


图:“PatentBench-查新检索”的“X查全率”计算公式

智慧芽查新检索AI Agent评测表现领先通用大模型

研究显示,智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。


图:“X检出率”评测结果

与此同时,智慧芽查新检索AI Agent的“X查全率”为32%,甚至达到了另外两款通用AI工具的3倍以上,ChatGPT-o3(联网搜索版)为11%,DeepSeek-R1(联网搜索版)为3%。这表明,在Top100返回结果中,智慧芽的Agent已能发现32%的正确答案,若结合后续人类专家的筛选,X文献检索结果将更加完整。


图:“X查全率”评测结果

综上表明,智慧芽查新检索AI Agent在查新检索场景中的评测表现,远远超越通用大模型。尽管通用大模型具备强大的泛化推理能力,但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展,在专利垂直场景中展现出不可替代的必要性与应用价值。

专业工作交给专业AI

智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平,源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调,确保模型能够深度理解专利技术语言和检索逻辑。在此基础上,Agent采用检索增强生成(RAG)技术执行高质量的检索工作,将实时检索能力与生成能力有机结合。通过这种技术组合,智慧芽Agent能够准确捕获文本中的关键技术特征,实施精密的检索策略,并提供低幻觉的可靠结果,从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。

基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

成“老赖”不到72小时,于谦资产被扒底朝天,杨议的话有人信了

科学发掘
2025-10-31 14:06:52
日本专家曾声称:日本军事能力足够强!一旦开战,中国占不到便宜

日本专家曾声称:日本军事能力足够强!一旦开战,中国占不到便宜

温辞韫
2025-11-03 10:46:59
判了!事发上海,男子高空扔下20余斤重物,砸伤途经大爷

判了!事发上海,男子高空扔下20余斤重物,砸伤途经大爷

新民晚报
2025-11-03 15:08:03
2TB !小米17Ultra 提前发布 ,配置拉满

2TB !小米17Ultra 提前发布 ,配置拉满

科技堡垒
2025-11-01 10:32:28
佩斯科夫:暂不急于举办“普特会”,先研究细节

佩斯科夫:暂不急于举办“普特会”,先研究细节

看看新闻Knews
2025-11-03 18:03:07
50岁周迅头发花白,瘪嘴模样一脸老态认不出,无儿无女成最大遗憾

50岁周迅头发花白,瘪嘴模样一脸老态认不出,无儿无女成最大遗憾

林木体育解说
2025-11-03 18:16:08
6个亿不要了,新西兰决定了,原本让韩国造的船,改成找中国制造

6个亿不要了,新西兰决定了,原本让韩国造的船,改成找中国制造

李子橱
2025-11-02 21:50:03
超导新材料问世,17只概念股前三季度业绩同比正增长

超导新材料问世,17只概念股前三季度业绩同比正增长

证券时报
2025-11-03 15:51:11
中国石油大涨 总市值突破1.7万亿元

中国石油大涨 总市值突破1.7万亿元

证券时报
2025-11-03 11:31:03
杨德龙:4000点可能是A股市场行情的中继,并非行情的结束!年底前市场出现震荡调整但牛市格局不变

杨德龙:4000点可能是A股市场行情的中继,并非行情的结束!年底前市场出现震荡调整但牛市格局不变

和讯网
2025-11-03 16:14:20
荷兰想对抗到底,安世中国发布最强硬声明,这一次要彻底将其打服

荷兰想对抗到底,安世中国发布最强硬声明,这一次要彻底将其打服

阿龙聊军事
2025-11-03 14:58:34
一路走好!资深演员陈光前去世,年仅55岁,在家猝逝多天忠犬陪伴

一路走好!资深演员陈光前去世,年仅55岁,在家猝逝多天忠犬陪伴

小欣欣聊体育
2025-09-24 21:47:17
陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

陈若琳问全红婵:大学一个月生活费多少?全红婵的回复显情商

梦史
2025-09-16 10:44:43
高盛:中国股市正迈进增长期 AH股指数至2027年底潜在回报达30%

高盛:中国股市正迈进增长期 AH股指数至2027年底潜在回报达30%

每日经济新闻
2025-11-03 13:23:16
他曾受毛主席10次接见,还被毛主席写进文章,78年被免除所有职务

他曾受毛主席10次接见,还被毛主席写进文章,78年被免除所有职务

历史龙元阁
2025-11-02 19:00:17
北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

北京金鼎轩一根油条卖39元?工作人员称“个头大够两人吃”,市监局回应

大峰
2025-11-02 10:27:19
她这大体格身材,目测身高185,颜值不低,啥人能配的上她呢

她这大体格身材,目测身高185,颜值不低,啥人能配的上她呢

草莓解说体育
2025-10-18 00:03:22
中国有多少城市能撑住七日游?网友分享杀疯了,各种神回复笑不活

中国有多少城市能撑住七日游?网友分享杀疯了,各种神回复笑不活

墙头草
2025-10-23 07:58:58
他从军区副参谋长调任省计委,找两位元帅申诉,如愿以偿调回部队

他从军区副参谋长调任省计委,找两位元帅申诉,如愿以偿调回部队

历史龙元阁
2025-11-02 18:00:06
高圆圆尽管46岁了,依然是无数人心中的女神!

高圆圆尽管46岁了,依然是无数人心中的女神!

可乐谈情感
2025-10-06 10:18:17
2025-11-03 19:39:00
零壹财经 incentive-icons
零壹财经
数字经济决策服务平台
38794文章数 20047关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
艺术
亲子
数码
军事航空

教育要闻

“家长举报的,凭啥跳脚?”老师不再打印作业后,家长群炸锅了

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

亲子要闻

放手接纳后,躺平的孩子多久能主动去上学?

数码要闻

仅售 5000 件,铁三角推出 ATH-M50x 十周年 ENSO 限定款监听耳机

军事要闻

美总统威胁对尼日利亚动武 尼方回应

无障碍浏览 进入关怀版