网易首页 > 网易号 > 正文 申请入驻

人民大学:让AI推理像侦探一样边查资料边思考,准确率飙升

0
分享至


这项由中国人民大学的李晓希教授团队领导的突破性研究发表于2025年1月,论文题为"Search-o1: Agentic Search-Enhanced Large Reasoning Models"。有兴趣深入了解的研究者可以通过项目主页 https://search-o1.github.io/ 和GitHub代码库 https://github.com/sunnynexus/Search-o1 获取完整论文和代码。

当我们遇到一道复杂的物理题或者化学题时,会怎么做?很自然地,我们会一边思考一边翻书查资料,遇到不确定的知识点就立刻去找答案。然而,目前最先进的AI推理系统,比如OpenAI的o1模型,却像是在闭卷考试——只能依靠"脑子里"已有的知识来推理,遇到不懂的概念就只能靠猜测,结果经常出错。

人民大学的研究团队发现了这个关键问题:当AI进行复杂推理时,经常会因为知识不足而产生不确定性,在推理过程中频繁出现"也许"、"可能"、"或者"这样的猜测性词汇。他们的统计显示,在处理博士级别的科学问题时,AI平均每个推理过程中会出现超过30次"也许"这样的不确定表达。

为了解决这个问题,研究团队创造性地开发了Search-o1框架,让AI能够像真正的研究者一样,在推理过程中主动搜索和查阅资料。这就好比给一个正在解题的学生配备了一个智能助手,当学生遇到不确定的知识点时,助手会立刻帮忙查找相关资料,并把最关键的信息整理好提供给学生继续推理。

一、传统AI推理的"闭卷考试"困境

想象一个场景:你正在解一道复杂的化学反应题,需要知道某个化合物的具体结构。如果是闭卷考试,你只能凭记忆猜测这个化合物可能是什么样的,很容易猜错。但如果是开卷考试,你可以立刻翻书查找这个化合物的准确结构,然后继续推理。

目前的大型推理模型就面临这样的困境。尽管它们在训练时学习了大量知识,但面对具体的专业问题时,仍然会遇到知识盲区。研究团队通过对QwQ-32B模型的分析发现,当模型遇到不确定的知识点时,会频繁使用"也许"、"可能"、"或者"、"大概"等词汇。在处理博士级别的物理、化学和生物问题时,这些不确定性词汇的出现频率极高,其中"也许"平均每个推理过程出现超过30次。

这种不确定性会产生连锁反应。就像搭积木一样,如果底层的积木放错了位置,上面的积木就会跟着倒塌。AI推理也是如此,一个错误的知识点会影响整个推理链条,导致最终答案完全错误。

传统的解决方案是检索增强生成技术,也就是在开始推理之前先搜索相关资料。但这就像是在考试前突击复习——只能获得与题目大致相关的知识,无法针对推理过程中遇到的具体疑问进行精准查找。结果往往是找来一堆冗长的资料,但真正有用的信息却很少,反而干扰了推理过程的连贯性。

二、Search-o1的"开卷推理"革新

人民大学团队设计的Search-o1框架完全改变了这种状况。它让AI能够在推理过程中随时"举手提问",就像一个聪明的学生在解题时遇到不懂的概念会立刻查阅资料一样。

整个系统的工作流程可以用一个生动的比喻来理解:AI就像一个正在解决复杂案件的侦探。当侦探在分析案情时遇到不熟悉的线索,比如某种特殊的化学物质或者某个专业术语,他不会盲目猜测,而会立刻联系相关专家或查阅专业资料,获得准确信息后再继续推理。

Search-o1的核心创新在于两个关键组件:智能搜索机制和知识精炼模块。

智能搜索机制让AI能够在推理过程中自主决定何时需要搜索外部知识。当AI检测到自己对某个概念不够确定时,会自动生成精准的搜索查询。这些查询被特殊的标记符号包围,系统识别后会暂停推理过程,执行搜索操作。

比如,在解决一个关于反式肉桂醛化学反应的问题时,AI发现自己对这个化合物的具体结构不太确定,就会生成这样的搜索查询:<|begin_search_query|>反式肉桂醛的结构<|end_search_query|>。系统检测到这个查询后,会立即调用搜索引擎找到相关信息。

然而,直接搜索得到的结果往往冗长复杂,包含大量无关信息,就像在图书馆找到一本厚厚的教科书,但其中只有一小段对当前问题有用。这时候就需要第二个关键组件:知识精炼模块。

三、智能知识精炼:从海量资料中提取精华

知识精炼模块就像一个贴心的研究助理,能够从搜索到的大量资料中提取出最关键、最相关的信息,并且以一种易于理解的方式整合到推理过程中。

这个模块的工作原理非常巧妙。它会同时考虑三个因素:当前的搜索查询是什么、之前的推理步骤进行到了哪里、以及搜索到的文档内容是什么。基于这三个因素,它会生成一个简洁准确的信息片段,无缝地融入到推理链条中。

举个具体例子:当AI搜索"反式肉桂醛的结构"时,搜索引擎可能返回几页详细的化学资料,包含分子式、物理性质、制备方法等大量信息。但知识精炼模块会识别出,对于当前的推理步骤,最重要的信息是"反式肉桂醛的分子式为C9H8O,含有9个碳原子"。于是它会提取这个关键信息,并以<|begin_search_result|>反式肉桂醛分子式为C9H8O,含有9个碳原子<|end_search_result|>的形式提供给AI继续推理。

这种精炼过程解决了两个关键问题:首先是信息冗余问题。原始搜索结果通常包含大量与当前推理步骤无关的信息,直接使用会干扰AI的思路。其次是理解能力问题。大型推理模型虽然推理能力很强,但在处理长篇文档时的理解能力相对有限,容易被无关信息误导。

知识精炼模块通过独立的处理流程,先深入理解搜索到的文档内容,然后根据当前推理需求生成最相关的信息摘要。这就像有一个专业的资料员,能够快速阅读整本教科书,然后告诉你:"对于你现在的问题,最重要的是这一句话。"

四、批量推理优化:效率与准确性的完美平衡

为了在实际应用中达到最佳效果,Search-o1还设计了一套高效的批量推理机制。这就像一个智能的考试管理系统,能够同时处理多个学生的问题,统一调配资源,避免重复劳动。

在传统方法中,如果10个学生都要查同一个概念,系统需要进行10次独立的搜索和处理。但Search-o1的批量机制能够识别出这种重复需求,进行统一处理,大大提高了效率。

系统维护两个动态集合:未完成序列集合和已完成序列集合。对于每个推理任务,系统会并行生成推理步骤,直到遇到搜索需求或推理完成。当检测到搜索需求时,系统会暂停相关任务,批量执行搜索和知识精炼操作,然后将精炼后的信息重新注入到推理过程中。

这种设计特别适合处理教育场景中的常见需求。比如,在一个物理课堂上,多个学生可能同时遇到关于同一个物理定律或公式的疑问。传统系统需要为每个学生分别查找和解释,而Search-o1能够识别出这些共同需求,进行统一处理,然后根据每个学生的具体推理进度提供定制化的解答。

五、实验验证:从理论到实践的全面突破

为了验证Search-o1的实际效果,研究团队进行了大规模的实验测试,涵盖了从博士级别的科学问题到日常知识问答的各种场景。实验结果令人振奋。

在最具挑战性的GPQA博士级科学问题测试中,Search-o1的表现尤为出色。这个测试包含物理、化学、生物三个领域的高难度问题,都是由领域专家精心设计的,连人类专家都需要仔细思考才能回答正确。

Search-o1在物理领域达到了77.9%的准确率,超过了物理学家57.9%的平均水平。在生物领域更是达到了78.9%的准确率,显著超过生物学家68.9%的表现。虽然在化学领域47.3%的准确率仍低于化学家72.6%的水平,但考虑到AI系统的通用性,这已经是相当了不起的成就。

更令人印象深刻的是,Search-o1的整体表现达到了63.6%,而传统的直接推理方法只有58.1%,标准的检索增强方法也只有58.6%。这意味着Search-o1不仅解决了知识不足的问题,还保持了推理的连贯性和准确性。

在数学推理方面,Search-o1同样表现出色。在MATH500数学测试中达到86.4%的准确率,在2023年美国数学竞赛中达到85%的准确率,在更具挑战性的AIME数学竞赛中也达到了56.7%的准确率。这些成绩都显著超过了传统方法。

编程能力测试也验证了Search-o1的多领域适应性。在LiveCodeBench编程挑战中,系统整体准确率达到33%,其中在简单题目上达到57.7%,中等难度题目达到32.4%,困难题目也有20.4%的正确率。

六、开放域问答:从专业到日常的知识跨越

除了专业领域的复杂推理,Search-o1在日常知识问答方面也展现了强大的能力。研究团队测试了系统在处理各种类型问题时的表现,从简单的事实查询到需要多步推理的复杂问题。

在单步问答任务中,比如"自然问题"和"趣味问答"这类只需要查找单一事实的问题,Search-o1的表现与传统方法相当,这是可以理解的,因为这类问题本身不需要复杂的推理过程。

但在多步推理问答中,Search-o1的优势就显现出来了。在HotpotQA测试中,系统需要综合多个信息源才能回答问题,Search-o1达到了45.2%的准确率,显著超过传统方法的34.2%。在更复杂的MuSiQue测试中,需要进行2-4步推理,Search-o1的准确率达到16.6%,比传统方法提高了56%。

这些结果说明,Search-o1不仅能够处理高度专业的学术问题,也能很好地适应日常生活中的各种知识需求。无论是学生查询历史事件,还是工程师解决技术问题,系统都能提供准确可靠的帮助。

七、技术创新的深层影响

Search-o1的技术创新不仅仅是性能上的提升,更代表了AI推理范式的根本性变革。传统AI系统像是一个博学但固执的专家,只能基于已有知识进行推理,遇到知识盲区就只能猜测。而Search-o1则像是一个谦逊而智慧的学者,知道自己的知识边界,能够主动学习和查证。

这种变革的意义远超技术本身。在教育领域,Search-o1可以成为学生的个性化学习伙伴,不仅能够解答问题,还能展示完整的推理过程,帮助学生理解知识的来龙去脉。在科研领域,系统可以协助研究人员处理跨学科问题,自动整合不同领域的知识。在工业应用中,系统可以帮助工程师解决复杂的技术难题,提供基于最新资料的可靠建议。

更重要的是,Search-o1展示了一种新的AI发展方向:不是简单地增加模型规模或训练数据,而是让AI系统学会如何更好地利用外部资源。这种方法更加可持续,也更符合人类学习和思考的本质。

研究团队的开源策略也值得称赞。他们将完整的代码和模型开放给学术界和工业界,这不仅促进了技术的快速传播,也为后续研究提供了坚实基础。这种开放的态度体现了中国科研团队在国际AI竞争中的自信和担当。

八、挑战与未来展望

当然,Search-o1也面临一些挑战和改进空间。首先是搜索质量的依赖性。系统的表现很大程度上取决于搜索引擎返回的信息质量,如果搜索结果有误或不完整,会直接影响推理的准确性。

其次是计算效率问题。虽然批量处理机制提高了整体效率,但频繁的搜索和知识精炼仍然需要额外的计算资源,在某些实时性要求很高的场景中可能面临挑战。

还有就是知识权威性的判断。当搜索到的信息相互矛盾时,系统如何选择更可靠的信息源仍然是一个开放性问题。这需要更复杂的信源评估机制。

不过,这些挑战也为未来的研究指明了方向。研究团队正在探索如何集成更多权威的知识库,如何提高知识精炼的效率,以及如何增强系统对信息可靠性的判断能力。

从长远来看,Search-o1代表的技术路径很可能成为未来AI系统的标准配置。随着技术的不断完善,我们可以期待看到更多能够自主学习和推理的智能系统,它们不仅拥有强大的处理能力,还具备持续学习和自我完善的能力。

这项来自人民大学的研究成果,不仅在技术上实现了重要突破,更为AI技术的发展提供了新的思路和方向。它告诉我们,真正智能的系统不是那些记住所有知识的系统,而是那些知道如何有效学习和运用知识的系统。这种理念上的转变,可能比任何具体的技术改进都更加重要和深远。

Q&A

Q1:Search-o1系统是如何在推理过程中判断什么时候需要搜索外部信息的?

A:Search-o1通过监测AI在推理过程中使用不确定性词汇的频率来判断搜索需求。当系统检测到"也许"、"可能"、"或者"等词汇频繁出现,或者遇到明显的知识盲区时,就会自动生成搜索查询。这就像一个学生在解题时意识到自己对某个概念不确定,会主动查阅资料一样。系统使用特殊标记符号来标识搜索查询,一旦检测到这些标记就暂停推理执行搜索。

Q2:相比传统的检索增强生成技术,Search-o1的知识精炼模块有什么特殊优势?

A:传统检索增强技术只在开始时搜索一次,就像考试前的突击复习,无法针对推理过程中的具体疑问。而Search-o1的知识精炼模块能够根据当前推理步骤的具体需求,从搜索到的大量资料中提取最相关的核心信息。它同时考虑搜索查询、推理进度和文档内容三个因素,生成简洁准确的信息片段,避免冗长资料干扰推理连贯性。

Q3:Search-o1在实际测试中的表现如何?真的能超越人类专家吗?

A:在博士级GPQA科学问题测试中,Search-o1的整体准确率达到63.6%,在物理和生物领域分别达到77.9%和78.9%,超过了相应领域人类专家的平均水平。在数学方面,系统在MATH500测试中达到86.4%准确率,在美国数学竞赛中达到85%。不过在化学领域47.3%的准确率仍低于化学家72.6%的水平,说明系统还有改进空间,但考虑到AI的通用性,这些成绩已经相当出色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲人此次来上海,看似是给C919发证,实则瞄准的是千架飞机大单

欧洲人此次来上海,看似是给C919发证,实则瞄准的是千架飞机大单

史料布籍
2026-01-30 13:52:44
这种打扮把微胖女生的身材优势完美展现出来了

这种打扮把微胖女生的身材优势完美展现出来了

美女穿搭分享
2026-01-26 17:52:02
林心如50岁生日,和老公霍建华合唱好甜蜜,徐若瑄 许玮甯‌等现身

林心如50岁生日,和老公霍建华合唱好甜蜜,徐若瑄 许玮甯‌等现身

草莓解说体育
2026-01-30 02:58:00
欧冠附加赛抽签:皇马再遇穆里尼奥执教的本菲卡,巴黎遇法国内战

欧冠附加赛抽签:皇马再遇穆里尼奥执教的本菲卡,巴黎遇法国内战

星耀国际足坛
2026-01-30 23:43:16
王传君齐溪带大女儿公园溜达 一家三口都明媚开心

王传君齐溪带大女儿公园溜达 一家三口都明媚开心

TVB的四小花
2026-01-28 11:58:57
超50%部件更新!奔驰新一代S级轿车正式亮相!黄仁勋宣布将与奔驰在L4级自动驾驶领域进行合作

超50%部件更新!奔驰新一代S级轿车正式亮相!黄仁勋宣布将与奔驰在L4级自动驾驶领域进行合作

每日经济新闻
2026-01-30 03:02:05
卡里克:B费的未来?现在无需谈得太远;我非常喜欢芒特

卡里克:B费的未来?现在无需谈得太远;我非常喜欢芒特

懂球帝
2026-01-30 23:07:03
记者:安德森是曼联的头号引援目标,巴莱巴也备受看重;记者:曼联内部仍想引进巴莱巴

记者:安德森是曼联的头号引援目标,巴莱巴也备受看重;记者:曼联内部仍想引进巴莱巴

MUREDS
2026-01-30 23:41:09
她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

她是两百年难遇的美人,靠美貌“征服”无数男人,如今49岁仍未婚

胡一舸南游y
2026-01-30 14:10:19
陈明仁任55军军长后,有职无权被处处防备,毛主席:安排个政委!

陈明仁任55军军长后,有职无权被处处防备,毛主席:安排个政委!

百年历史老号
2024-02-21 20:34:43
38731.80亿元!刚刚,深圳重磅官宣

38731.80亿元!刚刚,深圳重磅官宣

中国基金报
2026-01-30 13:42:16
风靡一时的耙耙柑,为何很多人不愿给孩子吃了?老果农:4个原因

风靡一时的耙耙柑,为何很多人不愿给孩子吃了?老果农:4个原因

餐饮新纪元
2026-01-30 07:18:51
特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

特殊的制度:不能连续任元首,盘点不得连选连任元首的15个国家

梦沉古道
2026-01-24 21:50:03
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

冷紫葉
2026-01-28 12:26:21
王娇萍当选中华全国总工会副主席

王娇萍当选中华全国总工会副主席

极目新闻
2026-01-30 14:11:30
谭德塞:不得袭击伊朗医疗机构及其人员

谭德塞:不得袭击伊朗医疗机构及其人员

新华社
2026-01-30 08:13:03
“认知低的人赚不着大钱”,宝妈在校门口卖馄饨,被10万网友嘲笑

“认知低的人赚不着大钱”,宝妈在校门口卖馄饨,被10万网友嘲笑

妍妍教育日记
2026-01-30 21:11:14
瑞穗:若沃什当选美联储主席 市场将感受到持续的降息压力

瑞穗:若沃什当选美联储主席 市场将感受到持续的降息压力

财联社
2026-01-30 14:10:16
外交部宣布:刘显法出任新职

外交部宣布:刘显法出任新职

新京报政事儿
2026-01-30 15:48:42
赵薇胃癌传闻真相大白,再迎坏消息连累李湘

赵薇胃癌传闻真相大白,再迎坏消息连累李湘

观察者海风
2026-01-26 20:24:53
2026-01-31 00:08:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7063文章数 548关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

家居
旅游
亲子
手机
公开课

家居要闻

蓝调空舍 自由与个性

旅游要闻

免费游园还有交通补贴,南京首批“青柠码”受益者已冲进景区

亲子要闻

心血管风险或始于子宫孕期不良暴露留下"胎儿期烙印"

手机要闻

差200元!红米Turbo 5与Max该怎么选?这4点核心差异看完不纠结!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版