网易首页 > 网易号 > 正文 申请入驻

人民大学:让AI推理像侦探一样边查资料边思考,准确率飙升

0
分享至


这项由中国人民大学的李晓希教授团队领导的突破性研究发表于2025年1月,论文题为"Search-o1: Agentic Search-Enhanced Large Reasoning Models"。有兴趣深入了解的研究者可以通过项目主页 https://search-o1.github.io/ 和GitHub代码库 https://github.com/sunnynexus/Search-o1 获取完整论文和代码。

当我们遇到一道复杂的物理题或者化学题时,会怎么做?很自然地,我们会一边思考一边翻书查资料,遇到不确定的知识点就立刻去找答案。然而,目前最先进的AI推理系统,比如OpenAI的o1模型,却像是在闭卷考试——只能依靠"脑子里"已有的知识来推理,遇到不懂的概念就只能靠猜测,结果经常出错。

人民大学的研究团队发现了这个关键问题:当AI进行复杂推理时,经常会因为知识不足而产生不确定性,在推理过程中频繁出现"也许"、"可能"、"或者"这样的猜测性词汇。他们的统计显示,在处理博士级别的科学问题时,AI平均每个推理过程中会出现超过30次"也许"这样的不确定表达。

为了解决这个问题,研究团队创造性地开发了Search-o1框架,让AI能够像真正的研究者一样,在推理过程中主动搜索和查阅资料。这就好比给一个正在解题的学生配备了一个智能助手,当学生遇到不确定的知识点时,助手会立刻帮忙查找相关资料,并把最关键的信息整理好提供给学生继续推理。

一、传统AI推理的"闭卷考试"困境

想象一个场景:你正在解一道复杂的化学反应题,需要知道某个化合物的具体结构。如果是闭卷考试,你只能凭记忆猜测这个化合物可能是什么样的,很容易猜错。但如果是开卷考试,你可以立刻翻书查找这个化合物的准确结构,然后继续推理。

目前的大型推理模型就面临这样的困境。尽管它们在训练时学习了大量知识,但面对具体的专业问题时,仍然会遇到知识盲区。研究团队通过对QwQ-32B模型的分析发现,当模型遇到不确定的知识点时,会频繁使用"也许"、"可能"、"或者"、"大概"等词汇。在处理博士级别的物理、化学和生物问题时,这些不确定性词汇的出现频率极高,其中"也许"平均每个推理过程出现超过30次。

这种不确定性会产生连锁反应。就像搭积木一样,如果底层的积木放错了位置,上面的积木就会跟着倒塌。AI推理也是如此,一个错误的知识点会影响整个推理链条,导致最终答案完全错误。

传统的解决方案是检索增强生成技术,也就是在开始推理之前先搜索相关资料。但这就像是在考试前突击复习——只能获得与题目大致相关的知识,无法针对推理过程中遇到的具体疑问进行精准查找。结果往往是找来一堆冗长的资料,但真正有用的信息却很少,反而干扰了推理过程的连贯性。

二、Search-o1的"开卷推理"革新

人民大学团队设计的Search-o1框架完全改变了这种状况。它让AI能够在推理过程中随时"举手提问",就像一个聪明的学生在解题时遇到不懂的概念会立刻查阅资料一样。

整个系统的工作流程可以用一个生动的比喻来理解:AI就像一个正在解决复杂案件的侦探。当侦探在分析案情时遇到不熟悉的线索,比如某种特殊的化学物质或者某个专业术语,他不会盲目猜测,而会立刻联系相关专家或查阅专业资料,获得准确信息后再继续推理。

Search-o1的核心创新在于两个关键组件:智能搜索机制和知识精炼模块。

智能搜索机制让AI能够在推理过程中自主决定何时需要搜索外部知识。当AI检测到自己对某个概念不够确定时,会自动生成精准的搜索查询。这些查询被特殊的标记符号包围,系统识别后会暂停推理过程,执行搜索操作。

比如,在解决一个关于反式肉桂醛化学反应的问题时,AI发现自己对这个化合物的具体结构不太确定,就会生成这样的搜索查询:<|begin_search_query|>反式肉桂醛的结构<|end_search_query|>。系统检测到这个查询后,会立即调用搜索引擎找到相关信息。

然而,直接搜索得到的结果往往冗长复杂,包含大量无关信息,就像在图书馆找到一本厚厚的教科书,但其中只有一小段对当前问题有用。这时候就需要第二个关键组件:知识精炼模块。

三、智能知识精炼:从海量资料中提取精华

知识精炼模块就像一个贴心的研究助理,能够从搜索到的大量资料中提取出最关键、最相关的信息,并且以一种易于理解的方式整合到推理过程中。

这个模块的工作原理非常巧妙。它会同时考虑三个因素:当前的搜索查询是什么、之前的推理步骤进行到了哪里、以及搜索到的文档内容是什么。基于这三个因素,它会生成一个简洁准确的信息片段,无缝地融入到推理链条中。

举个具体例子:当AI搜索"反式肉桂醛的结构"时,搜索引擎可能返回几页详细的化学资料,包含分子式、物理性质、制备方法等大量信息。但知识精炼模块会识别出,对于当前的推理步骤,最重要的信息是"反式肉桂醛的分子式为C9H8O,含有9个碳原子"。于是它会提取这个关键信息,并以<|begin_search_result|>反式肉桂醛分子式为C9H8O,含有9个碳原子<|end_search_result|>的形式提供给AI继续推理。

这种精炼过程解决了两个关键问题:首先是信息冗余问题。原始搜索结果通常包含大量与当前推理步骤无关的信息,直接使用会干扰AI的思路。其次是理解能力问题。大型推理模型虽然推理能力很强,但在处理长篇文档时的理解能力相对有限,容易被无关信息误导。

知识精炼模块通过独立的处理流程,先深入理解搜索到的文档内容,然后根据当前推理需求生成最相关的信息摘要。这就像有一个专业的资料员,能够快速阅读整本教科书,然后告诉你:"对于你现在的问题,最重要的是这一句话。"

四、批量推理优化:效率与准确性的完美平衡

为了在实际应用中达到最佳效果,Search-o1还设计了一套高效的批量推理机制。这就像一个智能的考试管理系统,能够同时处理多个学生的问题,统一调配资源,避免重复劳动。

在传统方法中,如果10个学生都要查同一个概念,系统需要进行10次独立的搜索和处理。但Search-o1的批量机制能够识别出这种重复需求,进行统一处理,大大提高了效率。

系统维护两个动态集合:未完成序列集合和已完成序列集合。对于每个推理任务,系统会并行生成推理步骤,直到遇到搜索需求或推理完成。当检测到搜索需求时,系统会暂停相关任务,批量执行搜索和知识精炼操作,然后将精炼后的信息重新注入到推理过程中。

这种设计特别适合处理教育场景中的常见需求。比如,在一个物理课堂上,多个学生可能同时遇到关于同一个物理定律或公式的疑问。传统系统需要为每个学生分别查找和解释,而Search-o1能够识别出这些共同需求,进行统一处理,然后根据每个学生的具体推理进度提供定制化的解答。

五、实验验证:从理论到实践的全面突破

为了验证Search-o1的实际效果,研究团队进行了大规模的实验测试,涵盖了从博士级别的科学问题到日常知识问答的各种场景。实验结果令人振奋。

在最具挑战性的GPQA博士级科学问题测试中,Search-o1的表现尤为出色。这个测试包含物理、化学、生物三个领域的高难度问题,都是由领域专家精心设计的,连人类专家都需要仔细思考才能回答正确。

Search-o1在物理领域达到了77.9%的准确率,超过了物理学家57.9%的平均水平。在生物领域更是达到了78.9%的准确率,显著超过生物学家68.9%的表现。虽然在化学领域47.3%的准确率仍低于化学家72.6%的水平,但考虑到AI系统的通用性,这已经是相当了不起的成就。

更令人印象深刻的是,Search-o1的整体表现达到了63.6%,而传统的直接推理方法只有58.1%,标准的检索增强方法也只有58.6%。这意味着Search-o1不仅解决了知识不足的问题,还保持了推理的连贯性和准确性。

在数学推理方面,Search-o1同样表现出色。在MATH500数学测试中达到86.4%的准确率,在2023年美国数学竞赛中达到85%的准确率,在更具挑战性的AIME数学竞赛中也达到了56.7%的准确率。这些成绩都显著超过了传统方法。

编程能力测试也验证了Search-o1的多领域适应性。在LiveCodeBench编程挑战中,系统整体准确率达到33%,其中在简单题目上达到57.7%,中等难度题目达到32.4%,困难题目也有20.4%的正确率。

六、开放域问答:从专业到日常的知识跨越

除了专业领域的复杂推理,Search-o1在日常知识问答方面也展现了强大的能力。研究团队测试了系统在处理各种类型问题时的表现,从简单的事实查询到需要多步推理的复杂问题。

在单步问答任务中,比如"自然问题"和"趣味问答"这类只需要查找单一事实的问题,Search-o1的表现与传统方法相当,这是可以理解的,因为这类问题本身不需要复杂的推理过程。

但在多步推理问答中,Search-o1的优势就显现出来了。在HotpotQA测试中,系统需要综合多个信息源才能回答问题,Search-o1达到了45.2%的准确率,显著超过传统方法的34.2%。在更复杂的MuSiQue测试中,需要进行2-4步推理,Search-o1的准确率达到16.6%,比传统方法提高了56%。

这些结果说明,Search-o1不仅能够处理高度专业的学术问题,也能很好地适应日常生活中的各种知识需求。无论是学生查询历史事件,还是工程师解决技术问题,系统都能提供准确可靠的帮助。

七、技术创新的深层影响

Search-o1的技术创新不仅仅是性能上的提升,更代表了AI推理范式的根本性变革。传统AI系统像是一个博学但固执的专家,只能基于已有知识进行推理,遇到知识盲区就只能猜测。而Search-o1则像是一个谦逊而智慧的学者,知道自己的知识边界,能够主动学习和查证。

这种变革的意义远超技术本身。在教育领域,Search-o1可以成为学生的个性化学习伙伴,不仅能够解答问题,还能展示完整的推理过程,帮助学生理解知识的来龙去脉。在科研领域,系统可以协助研究人员处理跨学科问题,自动整合不同领域的知识。在工业应用中,系统可以帮助工程师解决复杂的技术难题,提供基于最新资料的可靠建议。

更重要的是,Search-o1展示了一种新的AI发展方向:不是简单地增加模型规模或训练数据,而是让AI系统学会如何更好地利用外部资源。这种方法更加可持续,也更符合人类学习和思考的本质。

研究团队的开源策略也值得称赞。他们将完整的代码和模型开放给学术界和工业界,这不仅促进了技术的快速传播,也为后续研究提供了坚实基础。这种开放的态度体现了中国科研团队在国际AI竞争中的自信和担当。

八、挑战与未来展望

当然,Search-o1也面临一些挑战和改进空间。首先是搜索质量的依赖性。系统的表现很大程度上取决于搜索引擎返回的信息质量,如果搜索结果有误或不完整,会直接影响推理的准确性。

其次是计算效率问题。虽然批量处理机制提高了整体效率,但频繁的搜索和知识精炼仍然需要额外的计算资源,在某些实时性要求很高的场景中可能面临挑战。

还有就是知识权威性的判断。当搜索到的信息相互矛盾时,系统如何选择更可靠的信息源仍然是一个开放性问题。这需要更复杂的信源评估机制。

不过,这些挑战也为未来的研究指明了方向。研究团队正在探索如何集成更多权威的知识库,如何提高知识精炼的效率,以及如何增强系统对信息可靠性的判断能力。

从长远来看,Search-o1代表的技术路径很可能成为未来AI系统的标准配置。随着技术的不断完善,我们可以期待看到更多能够自主学习和推理的智能系统,它们不仅拥有强大的处理能力,还具备持续学习和自我完善的能力。

这项来自人民大学的研究成果,不仅在技术上实现了重要突破,更为AI技术的发展提供了新的思路和方向。它告诉我们,真正智能的系统不是那些记住所有知识的系统,而是那些知道如何有效学习和运用知识的系统。这种理念上的转变,可能比任何具体的技术改进都更加重要和深远。

Q&A

Q1:Search-o1系统是如何在推理过程中判断什么时候需要搜索外部信息的?

A:Search-o1通过监测AI在推理过程中使用不确定性词汇的频率来判断搜索需求。当系统检测到"也许"、"可能"、"或者"等词汇频繁出现,或者遇到明显的知识盲区时,就会自动生成搜索查询。这就像一个学生在解题时意识到自己对某个概念不确定,会主动查阅资料一样。系统使用特殊标记符号来标识搜索查询,一旦检测到这些标记就暂停推理执行搜索。

Q2:相比传统的检索增强生成技术,Search-o1的知识精炼模块有什么特殊优势?

A:传统检索增强技术只在开始时搜索一次,就像考试前的突击复习,无法针对推理过程中的具体疑问。而Search-o1的知识精炼模块能够根据当前推理步骤的具体需求,从搜索到的大量资料中提取最相关的核心信息。它同时考虑搜索查询、推理进度和文档内容三个因素,生成简洁准确的信息片段,避免冗长资料干扰推理连贯性。

Q3:Search-o1在实际测试中的表现如何?真的能超越人类专家吗?

A:在博士级GPQA科学问题测试中,Search-o1的整体准确率达到63.6%,在物理和生物领域分别达到77.9%和78.9%,超过了相应领域人类专家的平均水平。在数学方面,系统在MATH500测试中达到86.4%准确率,在美国数学竞赛中达到85%。不过在化学领域47.3%的准确率仍低于化学家72.6%的水平,说明系统还有改进空间,但考虑到AI的通用性,这些成绩已经相当出色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
休想回国!我国体坛三大叛徒,夺冠后不承认是国人,结局大快人心

休想回国!我国体坛三大叛徒,夺冠后不承认是国人,结局大快人心

梦录的西方史话
2025-11-10 17:42:25
陈伟霆妈妈到北京看孙子儿媳,何穗晒产后美照,哺乳期特征很明显

陈伟霆妈妈到北京看孙子儿媳,何穗晒产后美照,哺乳期特征很明显

阅识
2025-11-12 14:24:18
GPT-5.1凌晨突袭,奥特曼听劝!全网呼唤的人味回来了

GPT-5.1凌晨突袭,奥特曼听劝!全网呼唤的人味回来了

新智元
2025-11-13 07:43:15
国乒主力2-4爆冷出局!全运会乒乓球八强对阵诞生,13日赛程如下

国乒主力2-4爆冷出局!全运会乒乓球八强对阵诞生,13日赛程如下

侃球熊弟
2025-11-12 22:48:04
赵睿咬金牌!赛后含泪告别广东球迷:最后一届全运会再无众神归位

赵睿咬金牌!赛后含泪告别广东球迷:最后一届全运会再无众神归位

颜小白的篮球梦
2025-11-13 07:17:12
刚刚,最新研究发现:尼安德特人不是被灭绝,而是被我们祖先……

刚刚,最新研究发现:尼安德特人不是被灭绝,而是被我们祖先……

徐德文科学频道
2025-11-12 18:59:14
移除乌克兰国旗后,帕维尔站了出来

移除乌克兰国旗后,帕维尔站了出来

寰宇大观察
2025-11-13 00:01:17
广东男篮三枚金牌到手,14中1,吴前也是东道主夺冠功臣

广东男篮三枚金牌到手,14中1,吴前也是东道主夺冠功臣

姜大叔侃球
2025-11-12 21:36:31
疯狂一夜:独行侠解雇哈里森,浓眉被摆上货架,国王超市开张

疯狂一夜:独行侠解雇哈里森,浓眉被摆上货架,国王超市开张

易说篮球
2025-11-12 08:06:28
125万债务,压垮50亿帝国!比肩SHEIN的铺货之王,栽在自己人手里

125万债务,压垮50亿帝国!比肩SHEIN的铺货之王,栽在自己人手里

财经八卦
2025-11-11 23:22:03
SanDisk推出全球最小1TB USB-C闪存盘 可永久插在笔记本上

SanDisk推出全球最小1TB USB-C闪存盘 可永久插在笔记本上

龙剑秀南
2025-11-12 17:20:45
双十一最大「受害者」:买了iPhone17的人

双十一最大「受害者」:买了iPhone17的人

麦子熟了
2025-11-12 21:53:48
湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

湖南省岳阳市岳阳楼区人大常委会党组副书记、副主任严石龙被查

极目新闻
2025-11-12 15:14:21
停火协议生效后,190名哈马斯分子“琥珀”成型全记录

停火协议生效后,190名哈马斯分子“琥珀”成型全记录

李未熟擒话2
2025-11-12 10:53:32
不是杜锋,不是杨鸣,全运男篮唯一超额完成任务的主帅是丁伟!

不是杜锋,不是杨鸣,全运男篮唯一超额完成任务的主帅是丁伟!

越岭寻踪
2025-11-12 07:40:23
直接炸锅!民进党大佬王世坚说要到大陆来“看一看”,大家欢迎吗

直接炸锅!民进党大佬王世坚说要到大陆来“看一看”,大家欢迎吗

我心纵横天地间
2025-11-12 12:46:50
陈小鲁猝死的反思:退休了住哪儿好?

陈小鲁猝死的反思:退休了住哪儿好?

犀利辣椒
2025-11-13 06:22:35
女子网购“老凤詳”999足金,到手含金量不足1% !老凤祥:涉事网店非其授权店

女子网购“老凤詳”999足金,到手含金量不足1% !老凤祥:涉事网店非其授权店

潇湘晨报
2025-11-11 17:59:13
曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

子芫伴你成长
2025-11-09 22:05:23
4.99万!刘强东不给雷军留活路!

4.99万!刘强东不给雷军留活路!

广告创意
2025-11-10 17:24:49
2025-11-13 09:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6206文章数 541关注度
往期回顾 全部

科技要闻

月之暗面“内涵”奥特曼:钱不知道怎么烧的

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

头条要闻

牛弹琴:中日关系急转直下 日本政坛大佬也看不下去了

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

美国次级车贷违约率创历史新高

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

艺术
本地
亲子
旅游
时尚

艺术要闻

国展奖花落呆板楷书,线条僵直引发争议

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

亲子要闻

离手的水不能喝

旅游要闻

人均花销200+住进沪郊民宿酒店,吃住玩全包的银发套餐能火吗?

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

无障碍浏览 进入关怀版