对话北电数智邵兵：可信数据，正在成为AI的新基建|调用|知识库|agent

分享至

“在AI时代，国产数据服务商迎来全球化的新机遇。

近期，由中国计算机学会指导、北电数智主办的第二届“酒仙桥论坛”召开，主题“国芯AI驭未来”背后，是“十五五”开局之年国家“人工智能+”行动的战略语境。

在“酒仙桥论坛”上，北电数智首席技术官谢东有一个判断：“AI的产业落地不是单点技术的堆叠，而是一项需要全栈协同的复杂系统工程。”算力、模型、数据、应用——任何一个环节掉链子，整个系统都跑不起来。而数据，恰恰是当前最容易被忽视、也最难打通的那一环。

那怎么解决这个问题呢？

北电数智是北京电控旗下的人工智能科技企业，也是酒仙桥论坛的主办方。这家成立于2023年的“AI新国企”，是国内最早布局并落地可信数据空间的企业之一，同时深度参与国家数据要素综合试验区试验任务。在本次论坛上，北电数智联合北京清华长庚医院发布“清智·药学可信数据空间”，它正在用一套“AI原生的数据操作系统”，试图打通AI产业化的“最后一公里”。

那么，北电数智是怎么想的，怎么做的？为了搞清楚这个问题，数据猿专访了北电数智AI可信负责人邵兵，探讨可信数据如何成为AI从“技术热”走向“产业实”的关键一跃。

“可信数据”

AI产业化的“阿喀琉斯之踵”？

AI产业正在经历一个关键转折。过去两年，大模型的能力飞速进化，参数规模从千亿迈向万亿，多模态能力持续突破。但随着各家模型能力趋于同质化，一个事实越来越清晰：决定AI性能的核心变量，除了模型、算力以外，还有数据。

你有再强的算力，再先进的模型，没有高质量的数据，一切都是空转。这就像买了一辆顶级跑车，却发现油箱里一滴油都没有。邵兵把企业在数据使用上面临的困境概括为“三座大山”：

第一座：不敢用。

医疗数据涉及患者隐私，工业数据涉及商业机密，金融数据涉及合规红线。数据一旦泄露，后果不堪设想。很多企业手握海量数据，却因为害怕风险而不敢共享、不敢流通。

第二座：不能用。

数据格式不统一、质量参差不齐、缺乏有效治理。医院里，影像数据、病历数据、检验数据分散在不同科室、不同系统中，无法直接用于AI训练。工厂里，设备手册、维修记录散落在各个角落，缺乏统一的标准和关联。

第三座：用不好。

即使数据有了、质量也还行，但缺乏从数据到模型到应用的完整工具链。数据价值难以释放，AI项目从试点到规模化部署之间，横亘着一条难以跨越的鸿沟。

邵兵透露，目前约60%-70%的企业数据处理仍处于“手工作坊”阶段——数据清洗、标注、治理主要依赖人工，效率低、成本高、难以规模化。

"今天企业用的数据平台，大多还是十年前为BI报表时代设计的——批量ETL、T+1更新、面向人的图表展示。"邵兵说，"但AI原生场景完全不同：Agent需要毫秒级响应、语义级理解、上下文级记忆。用BI时代的底座去跑AI原生的应用，就像拿马车的底盘去装火箭引擎——底盘会散架。”

这意味着，不是在旧系统上打补丁就能解决问题，而是必须以零基思维，从头构建一套AI原生的数据基础设施。

今年，AI应用正在从“模型对话”走向“Agent执行”。

根据2025年8月Gartner发布的预测报告："到2026年底，40%的企业应用将集成任务特定的AI Agent，相比2025年的不足5%实现8倍增长。"但Agent的普及，也带来了新的数据风险，和新的数据要求。Forrester的调研显示，62%停滞的Agent试点项目，首要原因就是数据集成失败；47%的企业承认自身数据基础设施根本不足以支撑智能体部署。

在数据风险方面，邵兵分享了自己的亲身经历：他用个人电脑使用某款AI Agent操作数据时，由于指令解析出现bug，加之权限控制不到位，Agent误读了命令路径，导致磁盘数据全部被删除。“这只是个人使用场景，”邵兵说，“如果Agent进入企业生产系统，操作的是核心业务数据，后果不堪设想。权限失控、指令理解偏差、数据泄露——这些都是企业必须面对的现实风险。”

此外，Agent要执行任务，就必须访问数据，而且不是一次性的数据调用，是实时、多源、跨系统的数据调用。这对数据提出了全新的要求：

第一，实时调用。Agent需要动态获取企业内部数据、外部知识库、实时业务数据。数据必须在毫秒级响应，不能有延迟。

第二，深度语义化。邵兵举了一个例子：在生物医学领域，口语表达和医学术语之间有一道鸿沟。“老百姓说‘心脏不舒服’，医生写病历可能写‘胸闷、心悸’。如果数据没有做好语义化处理，Agent根本理解不了。”

第三，Token成本优化。调用大模型的Token费用不便宜。邵兵透露，目前Agent调用大模型时，90%的Token费用都浪费在传输无效上下文上。“你传了一堆无关数据给模型，模型处理了，你也付费了，但什么都没得到。”通过精准的数据检索和过滤，可以大幅降低Token消耗。

慢慢的，行业共识在逐渐形成：没有可信数据，算力、模型、Agent都面临“空转”风险。数据，已经成为AI产业化的“阿喀琉斯之踵”。

跨越“三座大山”

北电数智的“可信数据”新解法

为了解决上面提到的那些问题，北电数智做了大量的探索，并成为最早实践落地可信数据空间的企业之一。红湖·可信数据空间2.0是北电数智在2025年底发布的可信数据底座产品，已通过中国电子技术标准化研究院（电子四院）、赛西实验室的权威检测。同时，北电数智也深度参与了全国数标委《可信数据空间技术架构》标准的制定。

但在本次酒仙桥论坛上，真正的重头戏不是红湖2.0本身——而是基于这一底座能力，在医疗垂类深度落地的产物——清智·药学可信数据空间（TDS）。这是北电数智与北京清华长庚医院联合发布的战略级产品。

接下来，我们就以“清智·药学可信数据空间”为例，来分析可信数据空间，在推动数据要素流转、赋能AI应用落地方面，如何发挥作用。

医疗数据有多敏感，不言而喻。患者隐私、医疗合规、数据安全——每一道都是红线。

但与此同时，药学数据的价值又极其巨大。从合理用药到新药研发，从医保控费到个性化治疗，数据是驱动这一切的核心“燃料”。

传统的做法是：数据脱敏后点对点传输，或者干脆不共享。药企想要获取医院数据做研发，层层审批走下来，周期以年计。大量高价值药学数据被“锁”在医院内部，无法释放其应有价值。

清智·药学可信数据空间（TDS）要解决的，正是这个矛盾。“清智·药学可信数据空间”并非简单的数据库集成，而是一套分布式合规流转基础设施。其核心技术能力包括：

全链路隐私计算沙箱：集成TEE（可信执行环境）与多方安全计算技术，确保原始药学数据始终保留在医院内部服务器，外部算法仅能获取计算结果。数据不出域，但价值可流通。

智能合规审查引擎：系统内置药学行业合规知识库，对每一笔存证交易进行自动化合规审计，确保数据用途不偏离科研与合规边界。

可溯源存证体系：基于区块链技术，实现数据流转全过程的“用途可控、用量可计、收益可分”，为院方数据资产提供坚实的数字化凭证。

相比传统方案，“清智”实现了多个维度的显著提升：

值得指出的是，“清智·药学可信数据空间”不是停留在概念层面，它已经产出了实实在在的应用成果。例如，北电数智与清华长庚医院联合发布了“清智·AI合理用药大模型”，率先在院内投入临床应用。这套模型的技术架构是“1底座+2引擎”——以药学可信数据空间为数据底座，以大模型技术和智能体为双引擎驱动。

它的核心能力在于，突破传统规则审方系统的“机械比对”局限。传统审方系统依赖固定规则——如果A药和B药同时出现，系统就报警。这种方式无法应对复杂临床场景，更无法理解患者的个体差异。而“清智”模型能够准确理解病历、病程记录等自由文本，进行深度推理，精准识别多药联用的配伍禁忌，评估给药合理性，最终生成可解释的循证推荐和个体化方案。

在应用中，它实现了三个“高”：

高适配：破解多药联用、特殊人群等“临床盲区”。针对重度子痫产妇、高龄慢病患者、肾移植术后等高风险人群，模型能够精准识别用药风险，制定安全方案。

高安全：多因素综合评估，整合患者诊断、生理指标、药物特性等多维信息，自动规避禁忌并精准调量。

高合规：前置筛查医保违规及用药隐患，将事后监管转化为事前风险防御。

这标志着药学审方从机械的“规则判断”迈向了深度的“认知推理”，用药模式从“千人一药”走向“千人千方”。

从另一个角度看，“清智”的发布，其价值不止是一个产品的落地。对药学产业而言，它是医药研发效能的“加速器”。通过解决药企用数的“不敢、不能、不愿”，大幅降低创新药的研发成本与临床转化风险。从整个医学生态来看，它是数据要素流转的“中国范式”，为构建全国一体化医疗数据要素市场贡献了“北京方案”。

“清智·药学可信数据空间”的发布，对北电数智也意义重大：它证明了北电数智不仅具备顶级的智算底座能力，更拥有深度解析垂直行业合规逻辑、驱动数据要素价值转化的产品力。从药学产业来看，它是医药研发效能的"加速器"；从整个医学生态来看，它是数据要素流转的"中国范式"，为构建全国一体化医疗数据要素市场贡献了"北京方案"。

从医疗到工业

可信数据空间走向千行百业

需要指出的是，医疗是北电数智可信数据空间落地的标杆行业，但不是唯一行业。在工业领域，北电数智与申菱环境合作打造“菱小智”设备运维智能体，将老师傅的维修经验转化为结构化知识，故障查询从小时级缩短至秒级，自主维修率提升70%以上；在AI for Science领域，北电数智与相关机构合作，通过可信数据空间支撑靶向药研发中的跨机构数据协作。医疗、工业、科研——可信数据空间正在多个行业验证其通用价值，也践行着北电数智作为“AI新国企”的担当。

这恰好呼应了北电数智可信数据产品的品牌——“红湖”。邵兵在采访中解释了这个名字的寓意：“如果数据有颜色，一定是红色的。”“红”代表国企身份带来的可信、安全、可控，“湖”则取自“上善若水”，寓意用智能、流动的方式柔性处理数据。在数据流通这个高度敏感的领域，安全合规底线更高、政策对接更紧密、客户信任度更强——这正是北电数智的独特优势。

从医疗到工业，从数据治理到场景落地，可信数据空间已经证明了自己的价值。但一个更深层的问题随之浮现：数据和Agent，如何才能实现更好的融合？

北电数智给出的答案是——红湖+新天，让Agent既“聪明”又“可信”。红湖·可信数据空间是智能体的“数据底座”——提供高质量、可信的数据，确保数据“可用不可见”。新天·智能体平台是智能体的“开发与运行平台”——提供低代码开发、RAG检索、工具调用等能力。两者结合，让Agent既能调用到丰富、准确的数据（聪明），又能确保数据在调用过程中的安全和合规（可信）。

另一方面，邵兵提到，他们正在用Agent的能力来做数据治理本身——“通过流程加对话的方式，让数据治理的成本降到最低。你告诉系统你的规则，它自动执行，实时根据结果调整。”这形成了一个正循环：可信数据支撑Agent，Agent反过来降低数据治理门槛。

可以说，这种“算力+数据+模型”的闭环协同，正是北电数智“数算模用”一体化系统工程方法论的集中体现——不把算力、数据、模型当作孤立产品来卖，而是用系统工程之力，把它们拧成一个面向产业落地的生产力系统。

每一次技术革命，都有一个被忽视的转折点。

蒸汽机发明近一个世纪后，工业革命才真正点燃——瓶颈不是机器，而是人们对新动力的“信任”。电力也是如此，电灯亮了三十年，电网才铺进工厂和家庭。技术突破只是预告，基础设施的建成才是拐点——能量安全、稳定、按需地流动。AI正在经历同样的时刻。大模型和AI算力足够惊艳，但AI要真正进入工厂、医院、银行，还需要一张“电网”——让数据安全、合规、高效流动的基础设施。

这张“电网”的构建，是一项系统工程：算力调度、数据治理、模型适配、应用落地的全栈协同。北电数智践行的“数算模用”一体化架构，正是这套方法论的核心。北电数智与清华长庚医院联合发布的“清智·药学可信数据空间”，就是这张“电网”上的一个节点。

采访最后，我们问邵兵：如果用一句话总结红湖·可信数据空间的终极价值，你会说什么？他想了想：“让数据从‘沉睡的资源’变为‘流动的资产’。”

从能量的流动，到电力的流动，再到数据的流动——每一次“流动”的突破，都开启了一个新的时代。这一次，也不例外。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.