网易首页 > 网易号 > 正文 申请入驻

驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代

0
分享至

机器之心发布

机器之心编辑部

7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型

中国移动希望通过开源共享,降低结构化数据智能应用的技术门槛与研发成本,助力结构化数据大模型的行业演进,推动行业形成协同创新生态,让结构化数据价值在千行百业高效释放。

全方位、多维度、深层次结构化数据体系

表格数据以其结构化、紧凑的特性,承载着海量关键数据,是结构化数据大模型的核心训推数据。

为了支撑模型在表格推理任务上的性能提升,中国移动九天人工智能研究院首创搭建面向表格数据的全方位多维度深层次数据体系。基于表格能力全覆盖、各能力独立不交叉原则,通过开源表格数据收集、实际网络表格爬取和特定领域复杂表格定制等手段,重新整合吸纳多源数据,进行数据清洗、质量判定、全流程多阶段数据筛查,最终形成了涵盖表格推理 6 大能力和 34 项子任务的千万级数据体系

具体来说,中国移动收集和整理了 39 个公开数据集和一部分真实的互联网数据,包括 Web of Science、Wiki、Google Scholar 和 GitHub 等,涵盖了超过 300 个不同领域,如通信、气象、学术、制造业、金融、教育和医疗等。

除此之外,针对现有数据集中表格格式单一、推理任务步数少等问题,中国移动基于自研的复杂推理数据集构造方案,模拟现实世界中的复杂多步表格推理问题,实现了已有表格推理能力扩增,即增加表格高级数据分析能力。

结构化数据体系

全面且可靠的开源基准 TReB

中国移动将此次开源的结构化数据大模型评测基准命名为TReB,是由中国移动九天人工智能研究院精心打造的综合性模型评测体系,旨在全方位、多维度地衡量大模型的表格推理能力。

它主要提供两个部分:

  1. 全面的数据体系,结合了经过清理的公开表格推理数据集、真实的网络表格和专有的复杂数据,涵盖表格推理的 26 项任务,并采用了严格的数据清洗流程,保证每一个表格和问答对的质量;
  2. 一个专为评估大模型在表格推理任务而设计的强大测评框架。它集成了三种独特的思维链推理模式和可靠的评估指标,从而实现精准且多维度的评估。

目前,TReB 的数据集已经在 HuggingFace 和 Modelscope 平台上面向全社会开放,测评代码也已经在 GitHub 和 Gitee 上开源。

  • HuggingFace地址:https://huggingface.co/datasets/JT-LM/JIUTIAN-TReB
  • Modelscope地址:https://modelscope.cn/datasets/JiuTian-AI/JIUTIAN-TReB
  • GitHub地址:https://github.com/JT-LM/jiutian-treb
  • Gitee地址:https://gitee.com/CMCC-jiutian/jiutian-treb

TReB 开源评测基准

打造结构化数据智能双引擎

九天结构化数据大模型是在中国移动自研的九天基础语言大模型的基础上精调训练而成,专为结构化数据智能处理而设计优化。

中国移动九天人工智能研究院此次开源了结构化数据大模型的完整模型,涵盖模型权重、微调及推理代码、技术报告等,助力结构化数据智能赋能关键行业,推动模型能力在各垂直领域规模化落地。

九天结构化数据大模型完全基于国产 GPU 集群进行训练、推理,具备多表关联分析、可交互式可视化、智能数据大屏生成等智能数据分析功能,真正实现 “让数据说话”。

与语言基础大模型相比,九天结构化数据大模型引入了结构化数据感知机制,能够深入理解结构化数据特点,进而使模型能够基于数据本质进行推理建模。

在处理结构化数据分析推理任务时,九天结构化数据大模型首次引入面向结构化数据的深度思考机制。该机制通过深度解析数据,并模拟人类分析师的递进式推理思维,逐步推导逻辑推理链,不仅使模型能深入洞察数据本质 —— 理解字段间业务逻辑、数据分布及隐含特性,基于数据内在 “语言” 精准建模,更赋予其驾驭复杂关联的能力 —— 主动分析多表关联逻辑,进行多表联合推理,这确保面对多表关联等复杂任务时,能结合数据特点进行深度推理,生成更精准、可信的分析代码与洞察,显著提升分析的准确性和可解释性。

九天结构化数据大模型提出了交互闭环推理架构,针对结构化数据实现工作流优化。模型推理过程中与沙箱环境交互联动,通过动态调用、实时反馈的闭环机制,实现数据观察、数据分析、代码生成与执行结果的协同演进,极大提升了结构化数据分析的准确性和可解释性。同时,模型内置多智能体协作机制,各智能体承担专项任务并不断优化,最终实现多智能体分工配合、协同交互,构建出类人类专家协同的数据分析流程,赋能结构化数据处理更高效、更智能。

结构化数据可交互式可视化示例

结构化数据看板可视化示例

解锁高效化、精准化、可视化的卓越数据分析能力

九天结构化数据大模型在最新的开源评测基准 TReB 中进行测试,结果如图所示。TReB 包含表格推理的 26 项任务,可以系统评估模型在表格理解、表格基础操作、表格计算操作、数据分析和高级数据分析的能力。可以看到,九天结构化数据大模型(JT-DA-8B)在各项能力上与其他的开源模型相比都呈现出更加优秀的性能

九天结构化数据大模型测评结果

在实际应用的过程中,九天结构化数据大模型可以帮助用户更快更准地进行数据感知与理解、数据查询、计算、可视化分析等操作。对于专业的数据分析人员来说,应用九天结构化数据大模型可以大幅减少分析数据的繁琐流程,提高数据分析效率。对于非专业人士来说,在日常的工作生活中,应用九天结构化数据大模型可以快速让其具备专业数据分析师的能力,自动化解决数据分析问题。

目前,九天结构化数据大模型已经在焕新社区、Huggingface 和 Modelscope 等社区完成模型开源,全面向社会开放(https://huggingface.co/JT-LM/JT-DA-8B/, https://modelscope.cn/models/JiuTian-AI/JT-DA-8B/),标志着结构化数据大模型完成从模型研发到生态赋能的关键跨越。

目前,九天结构化数据大模型已通过国家网信办境内深度合成服务算法备案,并已在能源、交通、物流等行业场景中发挥重要作用,例如:

在工业生产运行场景中,模型通过对装置关键运行参数的实时预测和分析,实现多样化的生产预警场景覆盖,提升专业人员操作效率和生产过程安全性,优化生产运行管理效率。

在物流仓储调度场景,通过对出入库货物流量进行精准预测,九天结构化数据大模型能够为仓储管理人员提供科学的决策支持,帮助其动态优化库存布局与资源配置,从而显著提升仓储作业效率与运营效益。

未来,中国移动将持续深耕人工智能与行业融合应用,持续开源结构化数据大模型体系,加快推动结构化数据智能技术的规模化落地,共同探索结构化数据智能的无限可能,助力千行百业迈向高质量数字化转型新阶段。

8 月 6 日开始,九天将开展一系列技术直播,重点解析九天基础大模型、开源模型及数据集,锁定“九天人工智能”视频号,获取最新技术干货。

文中视频链接:https://mp.weixin.qq.com/s/ZI98-q8zy0N9y7BdblBkZg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗:要为长期战争做准备

高市早苗:要为长期战争做准备

第一财经资讯
2026-04-27 22:43:49
朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

朝鲜男人烟不离手,金正恩抽什么牌子的香烟?一包烟的价格是多少

番外行
2026-04-16 08:25:40
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
大雷赛西瓜!阿西美女团队新作官宣8月上线Steam

大雷赛西瓜!阿西美女团队新作官宣8月上线Steam

游民星空
2026-04-27 21:15:05
两部门:25个县入选2026年传统村落特色保护区建设工作支持县

两部门:25个县入选2026年传统村落特色保护区建设工作支持县

环球网资讯
2026-04-24 16:40:17
4000万粉丝网红偷税超900万被查,1分钟视频报价132万

4000万粉丝网红偷税超900万被查,1分钟视频报价132万

凤凰网财经
2026-04-28 11:45:34
赵丽颖上海咖啡店吃甜品被偶遇!戴棒球帽和眼镜,“巴掌脸”抢镜

赵丽颖上海咖啡店吃甜品被偶遇!戴棒球帽和眼镜,“巴掌脸”抢镜

明星私服穿搭daily
2026-04-28 07:56:34
63岁李修平独自逛太庙,素颜穿搭太朴素,退休生活太舒心

63岁李修平独自逛太庙,素颜穿搭太朴素,退休生活太舒心

手工制作阿歼
2026-04-28 11:39:42
赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

赢球挨喷!曼联王牌全场灾难性表现,球迷怒了:赶紧甩卖!

奶盖熊本熊
2026-04-28 05:13:59
赖清德迎来两大噩耗!美国对郑丽文态度变了,蔡英文不装了

赖清德迎来两大噩耗!美国对郑丽文态度变了,蔡英文不装了

野史日记
2026-04-27 10:10:18
阿特金森:哈登的训练强度新秀很难跟得上,这就是顶级球星

阿特金森:哈登的训练强度新秀很难跟得上,这就是顶级球星

懂球帝
2026-04-27 16:51:06
意外!新疆6人入选男篮集训 占比近1/3 失败赛季藏逆袭伏笔?

意外!新疆6人入选男篮集训 占比近1/3 失败赛季藏逆袭伏笔?

你看球呢
2026-04-28 10:34:48
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

地理三体说
2026-04-27 22:33:41
世界第一爆冷无缘八强!特鲁姆普12-13惜败,止步世锦赛第2轮

世界第一爆冷无缘八强!特鲁姆普12-13惜败,止步世锦赛第2轮

全景体育V
2026-04-28 05:44:20
显卡,涨到天价了

显卡,涨到天价了

半导体行业观察
2026-04-28 09:31:17
经常“放屁”是肝不好吗?提醒:放屁多很可能与这5种疾病有关!

经常“放屁”是肝不好吗?提醒:放屁多很可能与这5种疾病有关!

芹姐说生活
2026-04-25 16:12:39
毛岸英葬在朝鲜,碑文引毛主席“不满”:少写了一个人的名字

毛岸英葬在朝鲜,碑文引毛主席“不满”:少写了一个人的名字

东哥讲历史1
2025-08-31 12:38:45
托洛茨基之死

托洛茨基之死

深度报
2026-04-27 22:14:36
场均8失误,坎宁安连续三场季后赛累计24个失误,历史最多

场均8失误,坎宁安连续三场季后赛累计24个失误,历史最多

懂球帝
2026-04-28 11:37:50
他错杀袁文才、王佐,使井冈山失守,后饮弹自尽,建国后被评烈士

他错杀袁文才、王佐,使井冈山失守,后饮弹自尽,建国后被评烈士

老谢谈史
2026-04-08 22:51:53
2026-04-28 12:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12874文章数 142638关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

头条要闻

美军事资产被指"损失惨重" 修复费用可能高达50亿美元

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

杨幂险遭蒸汽眼罩毁容!伤照曝光…

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

本地
游戏
亲子
健康
旅游

本地新闻

用青花瓷的方式,打开西溪湿地

唯美末日剧情向冒险游戏《ARIE:月咏》公布售价,5月13日上线!

亲子要闻

你是爹的快递护卫兼人肉配重啊!

干细胞治疗烧烫伤三大优势!

旅游要闻

蒙山、云冈石窟、北岳恒山、悬空寺景区最新公告

无障碍浏览 进入关怀版