百度搭子DuMate一天连登PinchBench与DeepResearch双榜首，成全球最能打的龙虾|推理|维度|基准|大模型|知名企业|dumate|pinchbench|deepresearch

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首，成全球最能打的龙虾

2026-05-08 20:09:47　来源: 新浪财经

北京举报

分享至

来源：市场资讯

（来源：环球网资讯）

来源：环球网

【环球网科技综合报道】5月8日凌晨，百度搭子DuMate登顶智能体评测基准PinchBench榜首，并在前5位中占据3席。在另外一项DeepResearch深度研究榜单中，DuMate同样位列榜首。

PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力，并从成功率、速度、成本三个维度综合排名。榜单显示，DuMate以93.3%和93.2%的总成绩包揽前两名。作为对照，Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着，同一模型在DuMate框架中，展现出更强的执行力。

超越原生表现的技术基础，是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断，隐私相关操作留在本地执行，复杂推理任务上云完成，无需用户手动切换。同时，系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为，预判并注入必要的背景信息，减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代，使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准，从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列榜首，支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位，后者在此基础上叠加多轮推理与因果分析，将碎片信息提炼为结构化研究成果。

自2026年3月上线以来，DuMate保持一天一版的更新节奏，已通过信通院两项安全测评且均获最高等级。（青山）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.