哈尔滨工业大学团队打造的智能搜索探员DSearcher|推理|模态

分享至

当你在网上查找复杂信息时，是否曾感到挫败？比如想找"在1990年哪部黑帮电影中，导演让自己的女儿扮演主角的女儿"这样的问题，你可能需要反复搜索、点击多个链接、对比不同信息，就像拼图一样慢慢拼凑答案。这正是哈尔滨工业大学与小红书公司联合研究团队想要解决的问题。

这项发表于2026年2月的研究（论文编号：arXiv:2602.14234v1），提出了一个名为REDSearcher的创新框架，就像给AI配备了一双侦探的眼睛和大脑，让它能够像真正的调查员一样，有条不紊地搜集线索、分析证据、得出结论。研究团队由哈尔滨工业大学的刘明教授和小红书公司的王晓研究员共同指导，汇集了来自哈尔滨工业大学、小红书公司和上海交通大学的多位研究者。

这个研究的意义远超技术本身。在信息爆炸的时代，我们每天都面临着海量信息的筛选和整合挑战。无论是学生写论文、记者调查新闻，还是企业做市场研究，都需要从分散在网络各处的信息片段中找到真相。传统的AI搜索工具就像一个只会机械取东西的机器人，而REDSearcher更像一个经验丰富的侦探，能够主动思考、规划路径、验证线索，最终给出可靠的答案。

研究团队的创新突破体现在多个层面。他们不仅解决了如何让AI进行复杂推理的技术难题，更重要的是创造了一套完整的"侦探训练体系"。这套体系包括如何批量制造复杂案例来训练AI、如何让AI学会使用各种"调查工具"、以及如何在有限的计算资源下高效训练出聪明的搜索探员。

**一、为什么现有的AI搜索还不够聪明**

当前的AI搜索就像一个只会按照指令行事的助手。你问它一个简单问题，它能快速给出答案，但面对需要多步推理的复杂问题时就显得力不从心。比如前面提到的电影问题，它需要先找到1990年的黑帮电影，然后查找每部电影的导演信息，再查找导演的家庭关系，最后对比演员信息才能得出答案。这个过程就像侦破一个复杂案件，需要收集多条线索，建立它们之间的关联，并验证推理的正确性。

传统的搜索系统主要依赖于"检索增强生成"技术，这种方法就像有一个助手帮你找到相关文档，然后让你自己从中提取答案。但这种方法有两个致命缺陷：首先，它只能进行一次性的信息检索，无法根据找到的线索进一步深入调查；其次，它缺乏对复杂推理结构的理解，往往在需要多个信息片段相互印证的情况下束手无策。

研究团队发现，真正困难的搜索任务具有两个特征：推理结构的复杂性和信息分布的分散性。推理结构复杂意味着答案不是通过简单的线性推理就能得出，而需要同时考虑多个相互关联的约束条件。信息分布分散则意味着完成推理所需的证据散布在不同的网页和数据源中，无法通过单次搜索获得。这就像一个侦探案件，关键证据可能分散在不同的证人证言、现场痕迹和档案记录中，只有将它们有机结合才能揭示真相。

**二、构建AI侦探的训练案例库**

要训练出优秀的AI侦探，首先需要大量高质量的"案例"。但现有的问答数据集大多过于简单，就像只包含"谁是凶手"这种直接问题的侦探小说，无法训练出真正的推理能力。研究团队决定自己构造复杂的推理案例，这个过程就像专业的推理小说作家精心设计情节一样。

他们的核心创新在于将案例构造转化为一个数学问题：如何控制推理任务的难度。研究团队引入了图论中的"树宽"概念来衡量推理的复杂程度。简单来说，树宽就像衡量一个迷宫复杂程度的指标。在简单的推理中，线索之间的关系像一条直线或者树状结构，你可以一步步顺藤摸瓜找到答案。但在复杂推理中，线索之间形成网状结构，存在循环依赖和多重约束，就像一个立体迷宫，需要同时记住多个路径才能找到出口。

以那个关于黑帮电影的问题为例，这个问题的推理结构呈现环形特征：电影、导演、女儿和角色之间形成了一个相互关联的约束网络。你需要同时验证电影是1990年的黑帮片、导演确实拍了这部电影、导演确实有女儿、女儿确实出演了这部电影、角色确实是主角的女儿这五个条件。任何一个条件不成立，整个推理就会失败。

除了控制推理复杂度，研究团队还引入了"证据分散度"的概念。他们故意将完成推理所需的关键信息分散到不同的数据源中，确保无法通过单次搜索获得所有必要信息。这就像设计一个需要收集多个线索才能破解的谜题，迫使AI学会制定搜索策略、整合分散信息。

为了让AI真正学会使用工具，研究团队还开发了"工具强制查询演化"技术。他们将原本可以通过文本检索回答的问题改造成必须使用特定工具才能解决的形式。比如，将"上海到北京有多远"这样的问题改写为"从东海之滨的国际大都市到紫禁城所在的首都驾车需要多长时间"，这样AI就必须使用地图工具来获取准确的地理和路线信息。

**三、分阶段培养AI侦探的核心技能**

训练一个AI侦探不能一蹴而就，就像培养真正的侦探需要循序渐进一样。研究团队设计了一个两阶段的"侦探学院"培训体系。

第一阶段专注于培养基础的"原子技能"，就像教侦探学员基本的观察和分析方法。这包括两个核心能力：意图锚定的信息提取和层次化规划。意图锚定的信息提取就像训练侦探从杂乱无章的现场中准确识别关键证据的能力。在网络搜索的场景下，这意味着AI需要学会从充满噪声的搜索结果中准确找到与当前推理步骤相关的信息，而忽略那些虽然相关但对当前任务无用的干扰信息。

层次化规划能力则像教侦探学会将复杂案件分解为多个子任务的能力。面对一个复杂的搜索问题，AI需要能够识别哪些信息是当前迫切需要的具体目标，哪些是未来可能需要探索的模糊方向。这种规划不是机械的步骤分解，而是能够根据已获得的信息动态调整搜索策略的智能规划。

第二阶段则专注于培养环境交互和长期推理能力，就像让侦探学员走出教室，在真实案件中积累经验。在这个阶段，AI开始学习如何使用各种"侦探工具"并处理长达数十步的复杂调查过程。研究团队构建了一个包含数千万文档的模拟搜索环境，这个环境既保证了所需信息的完整性，又包含了足够的噪声和干扰，真实模拟了网络搜索的复杂性。

为了降低训练成本，研究团队巧妙地使用了模拟环境而非真实的网络API调用。这就像在警察学院建立了一个模拟犯罪现场，让学员能够反复练习而不会影响真实的调查工作。这个模拟环境不仅大大降低了训练成本，还允许研究团队快速迭代和优化训练策略。

**四、让AI学会真正的工具使用**

传统的AI工具使用往往是被动的，就像一个只会按照手册操作的机械工人。研究团队希望培养的是主动的工具使用能力，让AI能够根据任务需求灵活选择和组合不同工具。

他们为AI配备了五种主要的"侦探工具"：网络搜索引擎用于广泛收集线索，网页访问工具用于深入特定信息源，Python代码执行环境用于进行逻辑推理和数据分析，学术搜索引擎用于获取权威文献，以及地图服务用于处理地理相关的查询。每种工具都有其特定的使用场景和优势，就像侦探工具箱中的不同器械。

更重要的是，研究团队训练AI学会根据问题特性选择合适的工具组合。比如对于涉及学术概念的问题，AI会优先使用学术搜索；对于需要地理计算的问题，AI会主动调用地图服务；对于需要数值计算的复杂推理，AI会使用代码执行环境进行精确计算。

在训练过程中，研究团队还特别注意培养AI的"工具切换"能力。在长期的搜索过程中，AI需要根据获得的信息不断调整策略，可能需要在不同工具之间灵活切换。这就像一个经验丰富的侦探，会根据调查的进展不断调整调查方法和工具使用。

**五、突破长文本处理的记忆瓶颈**

长期搜索面临的一个关键挑战是记忆管理。就像人类侦探在复杂案件中需要做笔记来记住关键线索一样，AI在长期搜索中也会遇到"遗忘"问题。当搜索轨迹变得很长时，早期获得的重要信息可能会被遗忘，导致推理失败。

研究团队采用了一种叫做"全部丢弃"的简单但有效的记忆管理策略。当上下文长度接近模型的处理极限时，AI会保留原始问题和基本任务描述，但丢弃所有历史交互记录，然后从一个干净的状态重新开始搜索。这种策略虽然看似粗暴，但在实践中证明是有效的，因为它用更大的剩余上下文空间换取了继续搜索的能力。

这种记忆管理策略的核心思想是：与其在有限的记忆中存储可能不再相关的历史信息，不如保持一个清晰的头脑来处理新的线索。这就像侦探在调查陷入僵局时，有时需要放下先前的假设，以全新的视角重新审视案件。

**六、通过强化学习持续提升搜索智能**

即使经过了精心的预训练，AI侦探仍需要通过实战经验不断提升能力。研究团队设计了一个强化学习框架，让AI通过与环境的持续交互来优化搜索策略。

这个强化学习过程就像一个严格的侦探考核系统。AI需要在限定时间内解决各种复杂的搜索案例，系统会根据最终答案的正确性给出奖励。通过这种方式，AI逐渐学会了更高效的搜索路径，减少了冗余的工具调用，提高了成功率。

有趣的是，研究团队发现随着强化学习的进行，AI的搜索轨迹变得越来越简洁。这意味着AI不仅学会了找到正确答案，还学会了用最经济的方式找到答案。平均工具调用次数从训练初期的100多次降低到了90次左右，但准确率却持续提升。这就像一个侦探随着经验的积累，能够更快地识别关键线索，避免在无关紧要的细节上浪费时间。

**七、多模态搜索能力的拓展**

现实世界的信息不仅包含文字，还包含大量的图像、视频等视觉信息。一个真正智能的搜索助手必须能够理解和利用这些多模态信息。研究团队将REDSearcher扩展到了多模态搜索场景，让AI能够同时处理文本和图像信息。

在多模态搜索中，AI面临着更复杂的推理挑战。比如一个问题可能给出一张赛车的图片，然后询问"这辆赛车参加的比赛是在哪一年举办的"。要回答这个问题，AI需要首先识别图片中的赛车编号或特征，然后搜索相关的比赛信息，最后找到具体的年份。这个过程需要视觉理解和文本推理的紧密结合。

研究团队为多模态搜索开发了专门的工具集，包括图像搜索、图像区域放大、网页内容总结等。这些工具让AI能够像人类一样，既能"看"也能"读"，从而处理更复杂的信息查询任务。

实验结果显示，多模态版本的REDSearcher在各种视觉-文本搜索任务上都表现出色，证明了这种方法的通用性和扩展性。更重要的是，强化学习同样能够提升多模态搜索的效果，表明这种训练范式具有良好的可迁移性。

**八、全面的性能验证与对比分析**

为了验证REDSearcher的实际效果，研究团队在多个具有挑战性的基准测试上进行了全面评估。这些基准测试涵盖了不同语言、不同难度级别和不同模态的搜索任务，就像为侦探设计的综合考试。

在英文搜索任务BrowseComp上，REDSearcher达到了42.1%的准确率，在中文搜索任务BrowseComp-ZH上达到了49.8%的准确率。虽然这些数字可能看起来不高，但考虑到这些任务的极高难度，这样的表现已经非常出色。作为对比，许多问题即使是人类专家也需要花费相当长的时间才能正确回答。

更令人印象深刻的是，REDSearcher在GAIA基准测试上达到了80.1%的准确率，超越了许多大型商业模型，包括GPT-5-Thinking-High的76.7%。GAIA是一个专门设计用来测试AI助手综合能力的基准，包含了需要复杂推理和工具使用的挑战性问题。

为了更深入地理解REDSearcher的优势，研究团队还进行了"工具使用与参数化知识"的对比分析。他们发现，当禁用所有工具时，REDSearcher的表现相对较低，但一旦启用工具，性能就会显著提升。这证明了REDSearcher真正学会了依赖工具搜索而非简单的记忆回放。

**九、深入理解AI侦探的思维模式**

通过详细分析REDSearcher的搜索行为，研究团队发现了一些有趣的模式。AI展现出了三种主要的"思维模式"：分解式思维、反思式思维和验证式思维。

分解式思维表现为将复杂问题拆分为多个子问题，然后逐一解决。这种思维模式在处理需要多步推理的问题时特别有效。反思式思维则表现为AI会回顾之前的搜索结果，识别信息缺口或不确定性，并相应调整搜索策略。验证式思维体现为AI会主动寻找额外证据来确认候选答案的正确性。

研究团队还发现，不同难度的任务会触发不同的思维模式组合。对于相对简单的任务，AI主要依赖分解式思维；而对于复杂任务，三种思维模式会交替出现，形成一个动态的推理过程。

在多模态搜索中，AI还表现出了跨模态的推理能力。它能够将图像中的视觉线索与文本搜索结果结合起来，形成连贯的推理链条。比如在处理包含历史照片的问题时，AI会先通过图像搜索确定照片的年代和地点，然后通过文本搜索获取相关的历史背景信息。

**十、计算效率与实用性考量**

尽管REDSearcher表现出色，但研究团队也清楚地认识到实用性的重要性。长期搜索任务通常需要大量的计算资源和时间，这在实际应用中可能成为瓶颈。

为了提高效率，研究团队开发了异步rollout工作流和分层负载均衡策略。异步rollout允许多个搜索实例并行运行，显著提高了训练和推理的吞吐量。分层负载均衡则确保了计算资源的合理分配，特别是在处理长文本时的缓存复用。

研究团队还构建了一个包含千万级文档的本地搜索环境，这不仅降低了API调用成本，还提供了更稳定和可控的实验环境。这个环境经过精心设计，既保证了必要信息的完整性，又包含了足够的噪声来模拟真实搜索的复杂性。

**十一、开放资源与未来发展**

为了推动深度搜索领域的发展，研究团队计划开放大量资源，包括1万条高质量的文本搜索轨迹、5千条多模态搜索轨迹和1千条强化学习查询集，以及完整的代码和模型检查点。这些资源将为后续研究提供宝贵的基础。

展望未来，深度搜索技术有望在多个领域发挥重要作用。在教育领域，它可以帮助学生进行复杂的研究项目；在新闻报道中，它可以协助记者快速核实信息和挖掘深度线索；在商业分析中，它可以帮助分析师从海量信息中提取关键洞察。

研究团队也认识到当前方法的局限性。现有的评估指标主要关注最终答案的正确性，但对推理过程的质量评估仍然有限。此外，如何在保持高准确率的同时进一步提高搜索效率，仍然是一个重要的研究方向。

说到底，REDSearcher代表了AI搜索能力的一次重要升级。它不再是一个被动的信息检索工具，而是一个能够主动推理、策略性搜索的智能助手。虽然目前的技术仍有改进空间，但它已经展现了AI在复杂信息任务上的巨大潜力。对于普通用户而言，这意味着未来我们可能拥有真正智能的搜索伴侣，能够帮助我们解答那些曾经需要花费大量时间和精力才能找到答案的复杂问题。随着技术的不断完善，这样的AI侦探将成为我们探索知识世界的得力助手。

Q&A

Q1：REDSearcher跟普通搜索引擎有什么区别？

A：REDSearcher就像一个会推理的AI侦探，能够主动制定搜索策略、使用多种工具、进行多步推理来解决复杂问题。而普通搜索引擎更像一个图书管理员，只能根据关键词找到相关文档，无法进行深度的逻辑推理和信息整合。

Q2：REDSearcher的搜索准确率怎么样？

A：在不同的测试中，REDSearcher的准确率在40%-80%之间。虽然听起来不是100%，但考虑到这些都是极其复杂的问题，连人类专家都需要花很长时间才能回答，这个表现已经相当出色了。

Q3：普通人什么时候能用上REDSearcher这样的AI搜索助手？

A：研究团队已经计划开放相关的代码和模型，这意味着技术基础已经具备。不过要真正普及到日常应用，还需要进一步优化计算效率和降低运营成本，预计在未来几年内会有相关产品问世。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.