网易首页 > 网易号 > 正文 申请入驻

驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

0
分享至

机器之心发布

机器之心编辑部

7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型

中国移动希望通过开源共享,降低结构化数据智能应用的技术门槛与研发成本,助力结构化数据大模型的行业演进,推动行业形成协同创新生态,让结构化数据价值在千行百业高效释放。

全方位、多维度、深层次结构化数据体系

表格数据以其结构化、紧凑的特性,承载着海量关键数据,是结构化数据大模型的核心训推数据。

为了支撑模型在表格推理任务上的性能提升,中国移动九天人工智能研究院首创搭建面向表格数据的全方位多维度深层次数据体系。基于表格能力全覆盖、各能力独立不交叉原则,通过开源表格数据收集、实际网络表格爬取和特定领域复杂表格定制等手段,重新整合吸纳多源数据,进行数据清洗、质量判定、全流程多阶段数据筛查,最终形成了涵盖表格推理 6 大能力和 34 项子任务的千万级数据体系

具体来说,中国移动收集和整理了 39 个公开数据集和一部分真实的互联网数据,包括 Web of Science、Wiki、Google Scholar 和 GitHub 等,涵盖了超过 300 个不同领域,如通信、气象、学术、制造业、金融、教育和医疗等。

除此之外,针对现有数据集中表格格式单一、推理任务步数少等问题,中国移动基于自研的复杂推理数据集构造方案,模拟现实世界中的复杂多步表格推理问题,实现了已有表格推理能力扩增,即增加表格高级数据分析能力。

结构化数据体系

全面且可靠的开源基准 TReB

中国移动将此次开源的结构化数据大模型评测基准命名为TReB,是由中国移动九天人工智能研究院精心打造的综合性模型评测体系,旨在全方位、多维度地衡量大模型的表格推理能力。

它主要提供两个部分:

  1. 全面的数据体系,结合了经过清理的公开表格推理数据集、真实的网络表格和专有的复杂数据,涵盖表格推理的 26 项任务,并采用了严格的数据清洗流程,保证每一个表格和问答对的质量;
  2. 一个专为评估大模型在表格推理任务而设计的强大测评框架。它集成了三种独特的思维链推理模式和可靠的评估指标,从而实现精准且多维度的评估。

目前,TReB 的数据集已经在 HuggingFace 和 Modelscope 平台上面向全社会开放,测评代码也已经在 GitHub 和 Gitee 上开源。

  • HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReB
  • Modelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReB
  • GitHub地址:https://github.com/JT-LM/jiutian-treb
  • Gitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb

TReB 开源评测基准

打造结构化数据智能双引擎

九天结构化数据大模型是在中国移动自研的九天基础语言大模型的基础上精调训练而成,专为结构化数据智能处理而设计优化。

中国移动九天人工智能研究院此次开源了结构化数据大模型的完整模型,涵盖模型权重、微调及推理代码、技术报告等,助力结构化数据智能赋能关键行业,推动模型能力在各垂直领域规模化落地。

九天结构化数据大模型完全基于国产 GPU 集群进行训练、推理,具备多表关联分析、可交互式可视化、智能数据大屏生成等智能数据分析功能,真正实现 “让数据说话”。

与语言基础大模型相比,九天结构化数据大模型引入了结构化数据感知机制,能够深入理解结构化数据特点,进而使模型能够基于数据本质进行推理建模。

在处理结构化数据分析推理任务时,九天结构化数据大模型首次引入面向结构化数据的深度思考机制。该机制通过深度解析数据,并模拟人类分析师的递进式推理思维,逐步推导逻辑推理链,不仅使模型能深入洞察数据本质 —— 理解字段间业务逻辑、数据分布及隐含特性,基于数据内在 “语言” 精准建模,更赋予其驾驭复杂关联的能力 —— 主动分析多表关联逻辑,进行多表联合推理,这确保面对多表关联等复杂任务时,能结合数据特点进行深度推理,生成更精准、可信的分析代码与洞察,显著提升分析的准确性和可解释性。

九天结构化数据大模型提出了交互闭环推理架构,针对结构化数据实现工作流优化。模型推理过程中与沙箱环境交互联动,通过动态调用、实时反馈的闭环机制,实现数据观察、数据分析、代码生成与执行结果的协同演进,极大提升了结构化数据分析的准确性和可解释性。同时,模型内置多智能体协作机制,各智能体承担专项任务并不断优化,最终实现多智能体分工配合、协同交互,构建出类人类专家协同的数据分析流程,赋能结构化数据处理更高效、更智能。

结构化数据可交互式可视化示例

结构化数据看板可视化示例

解锁高效化、精准化、可视化的卓越数据分析能力

九天结构化数据大模型在最新的开源评测基准 TReB 中进行测试,结果如图所示。TReB 包含表格推理的 26 项任务,可以系统评估模型在表格理解、表格基础操作、表格计算操作、数据分析和高级数据分析的能力。可以看到,九天结构化数据大模型(JT-DA-8B)在各项能力上与其他的开源模型相比都呈现出更加优秀的性能

九天结构化数据大模型测评结果

在实际应用的过程中,九天结构化数据大模型可以帮助用户更快更准地进行数据感知与理解、数据查询、计算、可视化分析等操作。对于专业的数据分析人员来说,应用九天结构化数据大模型可以大幅减少分析数据的繁琐流程,提高数据分析效率。对于非专业人士来说,在日常的工作生活中,应用九天结构化数据大模型可以快速让其具备专业数据分析师的能力,自动化解决数据分析问题。

目前,九天结构化数据大模型已经在焕新社区、Huggingface 和 Modelscope 等社区完成模型开源,全面向社会开放(https://huggingface.co/JT-LM/JT-DA-8B/, https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),标志着结构化数据大模型完成从模型研发到生态赋能的关键跨越。

目前,九天结构化数据大模型已通过国家网信办境内深度合成服务算法备案,并已在能源、交通、物流等行业场景中发挥重要作用,例如:

在工业生产运行场景中,模型通过对装置关键运行参数的实时预测和分析,实现多样化的生产预警场景覆盖,提升专业人员操作效率和生产过程安全性,优化生产运行管理效率。

在物流仓储调度场景,通过对出入库货物流量进行精准预测,九天结构化数据大模型能够为仓储管理人员提供科学的决策支持,帮助其动态优化库存布局与资源配置,从而显著提升仓储作业效率与运营效益。

未来,中国移动将持续深耕人工智能与行业融合应用,持续开源结构化数据大模型体系,加快推动结构化数据智能技术的规模化落地,共同探索结构化数据智能的无限可能,助力千行百业迈向高质量数字化转型新阶段。

8 月 6 日开始,九天将开展一系列技术直播,重点解析九天基础大模型、开源模型及数据集,锁定“九天人工智能”视频号,获取最新技术干货。

文中视频链接:https://mp.weixin.qq.com/s/ZI98-q8zy0N9y7BdblBkZg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:紧急提醒股民,放量普涨,MACD金叉确认,主升浪一触即发!

A股:紧急提醒股民,放量普涨,MACD金叉确认,主升浪一触即发!

云鹏叙事
2026-02-28 00:15:03
刘亦菲100g黄金镯叠戴封神!原来黄金戴对了,高级感拉满

刘亦菲100g黄金镯叠戴封神!原来黄金戴对了,高级感拉满

白宸侃片
2026-02-26 18:05:06
高人预测:十年后长沙,真正值钱的不是房子,而是这5个地段!

高人预测:十年后长沙,真正值钱的不是房子,而是这5个地段!

林子说事
2026-02-27 20:37:40
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
马丁内利要凉?阿森纳截胡曼联利物浦,7500 万抢足坛最快飞翼

马丁内利要凉?阿森纳截胡曼联利物浦,7500 万抢足坛最快飞翼

澜归序
2026-02-28 04:17:43
判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

判了,无期!敛财3.8亿,伪装了7年的励志网红,最终还是露馅了

蜉蝣说
2025-10-21 09:19:12
哈登新伤情出炉:将直接拖累骑士正在成型的化学反应!

哈登新伤情出炉:将直接拖累骑士正在成型的化学反应!

夜白侃球
2026-02-27 14:16:27
重磅!英国前首相苏纳克出任泽连斯基顾问,帮助恢复乌克兰经济

重磅!英国前首相苏纳克出任泽连斯基顾问,帮助恢复乌克兰经济

老马拉车莫少装
2026-02-28 01:36:31
喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

喊话对话遭冷处理后,高市放狠话:绝对不容许中方对日出口管制

策略述
2026-02-27 13:13:49
解放台湾需要多久?解放军中将给出准确答案

解放台湾需要多久?解放军中将给出准确答案

阿七说体育
2026-02-25 13:19:06
押宝小鹏,广州赌一把大的

押宝小鹏,广州赌一把大的

拆神
2026-02-27 11:06:24
涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

财经要参
2026-02-28 00:20:03
建议大家:赶紧自查,冰箱里有“这5样”东西,该扔就扔别心疼!

建议大家:赶紧自查,冰箱里有“这5样”东西,该扔就扔别心疼!

家居设计师苏哥
2026-02-26 12:44:24
55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

林轻吟
2026-02-23 07:16:08
为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

为什么东风-41洲际导弹,拒绝使用“北斗”卫星导航制导?

解锁世界风云
2026-02-28 00:05:03
正在热播的3部烂剧,没有最烂只有更烂,一部没看真是慧眼识珠

正在热播的3部烂剧,没有最烂只有更烂,一部没看真是慧眼识珠

往史过眼云烟
2026-02-27 19:16:56
国际篮联正式致歉!日本媒体点名郭士强,认为中国男篮胜之不武

国际篮联正式致歉!日本媒体点名郭士强,认为中国男篮胜之不武

十点街球体育
2026-02-27 20:17:35
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
初中写作业超过十一点才能搞定的,到高中可能会是第一批掉队的

初中写作业超过十一点才能搞定的,到高中可能会是第一批掉队的

好爸育儿
2026-02-27 22:52:06
马杜罗的辩护律师指责美国政府阻止委政府向他支付律师费 要求主审法官撤销案件

马杜罗的辩护律师指责美国政府阻止委政府向他支付律师费 要求主审法官撤销案件

每日经济新闻
2026-02-28 00:04:30
2026-02-28 06:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142572关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

本地
时尚
教育
艺术
公开课

本地新闻

津南好·四时总相宜

舒淇最爱穿的裙子搭配,真的很适合春天!

教育要闻

写字歪歪扭扭?四线格本轻松搞定!

艺术要闻

王个簃『清供图』

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版