网易首页 > 网易号 > 正文 申请入驻

驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

0
分享至

机器之心发布

机器之心编辑部

7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型

中国移动希望通过开源共享,降低结构化数据智能应用的技术门槛与研发成本,助力结构化数据大模型的行业演进,推动行业形成协同创新生态,让结构化数据价值在千行百业高效释放。

全方位、多维度、深层次结构化数据体系

表格数据以其结构化、紧凑的特性,承载着海量关键数据,是结构化数据大模型的核心训推数据。

为了支撑模型在表格推理任务上的性能提升,中国移动九天人工智能研究院首创搭建面向表格数据的全方位多维度深层次数据体系。基于表格能力全覆盖、各能力独立不交叉原则,通过开源表格数据收集、实际网络表格爬取和特定领域复杂表格定制等手段,重新整合吸纳多源数据,进行数据清洗、质量判定、全流程多阶段数据筛查,最终形成了涵盖表格推理 6 大能力和 34 项子任务的千万级数据体系

具体来说,中国移动收集和整理了 39 个公开数据集和一部分真实的互联网数据,包括 Web of Science、Wiki、Google Scholar 和 GitHub 等,涵盖了超过 300 个不同领域,如通信、气象、学术、制造业、金融、教育和医疗等。

除此之外,针对现有数据集中表格格式单一、推理任务步数少等问题,中国移动基于自研的复杂推理数据集构造方案,模拟现实世界中的复杂多步表格推理问题,实现了已有表格推理能力扩增,即增加表格高级数据分析能力。

结构化数据体系

全面且可靠的开源基准 TReB

中国移动将此次开源的结构化数据大模型评测基准命名为TReB,是由中国移动九天人工智能研究院精心打造的综合性模型评测体系,旨在全方位、多维度地衡量大模型的表格推理能力。

它主要提供两个部分:

  1. 全面的数据体系,结合了经过清理的公开表格推理数据集、真实的网络表格和专有的复杂数据,涵盖表格推理的 26 项任务,并采用了严格的数据清洗流程,保证每一个表格和问答对的质量;
  2. 一个专为评估大模型在表格推理任务而设计的强大测评框架。它集成了三种独特的思维链推理模式和可靠的评估指标,从而实现精准且多维度的评估。

目前,TReB 的数据集已经在 HuggingFace 和 Modelscope 平台上面向全社会开放,测评代码也已经在 GitHub 和 Gitee 上开源。

  • HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReB
  • Modelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReB
  • GitHub地址:https://github.com/JT-LM/jiutian-treb
  • Gitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb

TReB 开源评测基准

打造结构化数据智能双引擎

九天结构化数据大模型是在中国移动自研的九天基础语言大模型的基础上精调训练而成,专为结构化数据智能处理而设计优化。

中国移动九天人工智能研究院此次开源了结构化数据大模型的完整模型,涵盖模型权重、微调及推理代码、技术报告等,助力结构化数据智能赋能关键行业,推动模型能力在各垂直领域规模化落地。

九天结构化数据大模型完全基于国产 GPU 集群进行训练、推理,具备多表关联分析、可交互式可视化、智能数据大屏生成等智能数据分析功能,真正实现 “让数据说话”。

与语言基础大模型相比,九天结构化数据大模型引入了结构化数据感知机制,能够深入理解结构化数据特点,进而使模型能够基于数据本质进行推理建模。

在处理结构化数据分析推理任务时,九天结构化数据大模型首次引入面向结构化数据的深度思考机制。该机制通过深度解析数据,并模拟人类分析师的递进式推理思维,逐步推导逻辑推理链,不仅使模型能深入洞察数据本质 —— 理解字段间业务逻辑、数据分布及隐含特性,基于数据内在 “语言” 精准建模,更赋予其驾驭复杂关联的能力 —— 主动分析多表关联逻辑,进行多表联合推理,这确保面对多表关联等复杂任务时,能结合数据特点进行深度推理,生成更精准、可信的分析代码与洞察,显著提升分析的准确性和可解释性。

九天结构化数据大模型提出了交互闭环推理架构,针对结构化数据实现工作流优化。模型推理过程中与沙箱环境交互联动,通过动态调用、实时反馈的闭环机制,实现数据观察、数据分析、代码生成与执行结果的协同演进,极大提升了结构化数据分析的准确性和可解释性。同时,模型内置多智能体协作机制,各智能体承担专项任务并不断优化,最终实现多智能体分工配合、协同交互,构建出类人类专家协同的数据分析流程,赋能结构化数据处理更高效、更智能。

结构化数据可交互式可视化示例

结构化数据看板可视化示例

解锁高效化、精准化、可视化的卓越数据分析能力

九天结构化数据大模型在最新的开源评测基准 TReB 中进行测试,结果如图所示。TReB 包含表格推理的 26 项任务,可以系统评估模型在表格理解、表格基础操作、表格计算操作、数据分析和高级数据分析的能力。可以看到,九天结构化数据大模型(JT-DA-8B)在各项能力上与其他的开源模型相比都呈现出更加优秀的性能

九天结构化数据大模型测评结果

在实际应用的过程中,九天结构化数据大模型可以帮助用户更快更准地进行数据感知与理解、数据查询、计算、可视化分析等操作。对于专业的数据分析人员来说,应用九天结构化数据大模型可以大幅减少分析数据的繁琐流程,提高数据分析效率。对于非专业人士来说,在日常的工作生活中,应用九天结构化数据大模型可以快速让其具备专业数据分析师的能力,自动化解决数据分析问题。

目前,九天结构化数据大模型已经在焕新社区、Huggingface 和 Modelscope 等社区完成模型开源,全面向社会开放(https://huggingface.co/JT-LM/JT-DA-8B/, https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),标志着结构化数据大模型完成从模型研发到生态赋能的关键跨越。

目前,九天结构化数据大模型已通过国家网信办境内深度合成服务算法备案,并已在能源、交通、物流等行业场景中发挥重要作用,例如:

在工业生产运行场景中,模型通过对装置关键运行参数的实时预测和分析,实现多样化的生产预警场景覆盖,提升专业人员操作效率和生产过程安全性,优化生产运行管理效率。

在物流仓储调度场景,通过对出入库货物流量进行精准预测,九天结构化数据大模型能够为仓储管理人员提供科学的决策支持,帮助其动态优化库存布局与资源配置,从而显著提升仓储作业效率与运营效益。

未来,中国移动将持续深耕人工智能与行业融合应用,持续开源结构化数据大模型体系,加快推动结构化数据智能技术的规模化落地,共同探索结构化数据智能的无限可能,助力千行百业迈向高质量数字化转型新阶段。

8 月 6 日开始,九天将开展一系列技术直播,重点解析九天基础大模型、开源模型及数据集,锁定“九天人工智能”视频号,获取最新技术干货。

文中视频链接:https://mp.weixin.qq.com/s/ZI98-q8zy0N9y7BdblBkZg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
以色列彻底杀红眼!普京越过内塔胡对美下达通牒,特朗普进退两难

以色列彻底杀红眼!普京越过内塔胡对美下达通牒,特朗普进退两难

书纪文谭
2026-03-25 12:41:34
菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

菲总统候选人莫雷诺:如果当选,我会让菲律宾成为下一个新加坡!

小丸说故事
2026-03-17 14:23:29
圈内大佬刚内涵潜规则,关晓彤鹿晗分手原因就上热搜,真瞒不住了

圈内大佬刚内涵潜规则,关晓彤鹿晗分手原因就上热搜,真瞒不住了

情感大头说说
2026-03-26 10:12:47
大学教授、博导巴曙松被办案机关带走,疑涉非法集资案

大学教授、博导巴曙松被办案机关带走,疑涉非法集资案

TOP大学来了
2026-03-26 00:06:19
3分险胜篮网,勇士狂送26次失误!桑托斯31分创生涯新高强势救主

3分险胜篮网,勇士狂送26次失误!桑托斯31分创生涯新高强势救主

锅子篮球
2026-03-26 12:54:53
奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

奥恰洛夫:我从圈内听说,樊振东明年甚至有可能再换一次俱乐部

懂球帝
2026-03-26 11:24:21
张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

萌神木木
2026-03-25 18:56:27
伊朗做出“重大让步”,送给美国一份大礼,特朗普要得偿所愿了?

伊朗做出“重大让步”,送给美国一份大礼,特朗普要得偿所愿了?

流史岁月
2026-03-26 13:30:07
洪晃谈及母亲章含之的婚恋史,直言不讳:她就是太把男人当回事!

洪晃谈及母亲章含之的婚恋史,直言不讳:她就是太把男人当回事!

飞哥谈史
2026-03-24 16:05:07
加时1胜7负+被逆转13分!火箭吞耻辱被喷上热搜 休媒坐等首轮出局

加时1胜7负+被逆转13分!火箭吞耻辱被喷上热搜 休媒坐等首轮出局

颜小白的篮球梦
2026-03-26 13:20:36
56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

56岁虞美人集团董事长与26岁男友大婚:陪嫁5000万,男方身份被扒

老猫观点
2026-03-19 08:35:09
实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

策略述
2026-03-25 14:07:39
全红婵紧抱谷爱凌,张口就说:你好漂亮啊,整个人闪闪发光

全红婵紧抱谷爱凌,张口就说:你好漂亮啊,整个人闪闪发光

喜文多见01
2026-03-26 09:54:39
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
一场战争彻底将中国打醒!美军作战最毒的是什么?中国用30年明白

一场战争彻底将中国打醒!美军作战最毒的是什么?中国用30年明白

说历史的老牢
2026-03-23 15:32:55
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

大姑姐买了无座票来蹭我的商务座,我退票改飞.老公红着眼说了句话

风起见你
2026-03-20 02:22:40
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
2026-03-26 14:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
家居
游戏
数码
时尚

艺术要闻

哪一座桥不是风景?

家居要闻

傍海而居 静观蝴蝶海

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

2026年了,最好看的还是“这件针织”!

无障碍浏览 进入关怀版