网易首页 > 网易号 > 正文 申请入驻

清华崔鹏团队LimiX:首个结构化数据通用大模型,性能超越SOTA

0
分享至

2025 年 8 月 29 日,由清华大学计算机系崔鹏教授团队联合稳准智能共同研发的结构化数据通用大模型「极数」(LimiX)正式宣布开源。

此次发布标志着我国在结构化数据智能处理领域的技术突破与生态开放迈出关键一步,将显著降低千行百业应用结构化数据 AI 技术的门槛,特别是在结构化数据占主导的泛工业领域,「极数」大模型将助力 AI 深度融入工业生产全流程,破解工业数据价值挖掘难题,为实现智能制造与新型工业化提供关键支撑,推动产业技术变革和优化升级。

在泛工业领域,结构化数据是核心资产——工业生产参数、设备运行数据、质量检测数据、科研实验数据等均以结构化数据形式呈现,其智能处理能力直接影响产业效率与科研突破,也是 AI 赋能工业制造的关键突破口。

虽然通用大语言模型(LLM)凭借强大的文本理解与生成能力,已在内容创作、对话交互等领域实现广泛应用,但 LLM 在面对表格、时序等结构化数据时短板明显:数值比较、计算等基础任务易出偏差,更无法胜任数据分类、预测、归因等复杂任务,准确率难以满足真实行业需求。因此,目前工业结构化数据处理依然依赖私有数据 + 专用模型的传统范式。

由于专用模型难泛化、不通用,面对不同场景需要训练多个专用模型,成本高、效果差,且难以发挥数据要素聚集的乘数效应,严重制约了 AI 在工业场景的落地路径。

结构化数据通用大模型(Large Data Model, LDM)则针对性解决这一痛点:不同于 LLM 聚焦文本,LDM 融合结构因果推断与预训练大模型技术,既能捕捉结构化数据的内在关联,又具备强泛化能力,可跨行业适配多类任务。

「极数」大模型可以支持分类、回归、高维表征抽取、因果推断等多达 10 类任务,在工业时序预测、异常数据监测、材料性能预测等场景中,性能达到甚至超越最优专用模型,实现单一模型适配多场景、多任务的通用性突破,为人工智能赋能工业提供了 One-For-All 解决方案。

从技术性能到产业落地,「极数」大模型的核心优势已得到充分验证。

在超过 600 个数据集上的十余项测试结果表明,「极数」大模型无需进行二次训练,已经在准确率、泛化性等关键指标上均能达到或超过专有 SOTA 模型。

而在产业应用层面,「极数」大模型已成功落地多个真实工业场景,无需训练、部署成本低、准确率高、通用性强的特点获得合作企业的高度认可,成为推动工业数据价值转化的实用型技术方案,正加速形成面向泛工业垂直行业核心业务场景的真正智能底座。

研发团队

「极数」模型的研发核心力量,由清华大学计算机系崔鹏教授牵头组建,团队汇聚了学术研究与产业落地的双重优势,其技术突破背后是深厚的科研积淀与前瞻性的方向布局。

作为团队核心,崔鹏教授是我国数据智能领域的顶尖学者:他不仅是国家杰出青年科学基金获得者,更以突出成果两度斩获国家自然科学二等奖,同时获评国际计算机协会(ACM)杰出科学家,其学术影响力获国际学界广泛认可。在基础研究领域,崔鹏教授开创性提出「因果启发的稳定学习」新范式,突破传统机器学习在数据分布偏移场景下的性能局限,为 AI 模型的可靠性与泛化性研究奠定重要理论基础。

2022 年 OpenAI 推出 ChatGPT 引发大模型技术浪潮后,崔鹏教授敏锐洞察到结构化数据方向大模型技术的发展潜力,迅速将研究方向从因果稳定学习拓展至结构化数据通用大模型(LDM)领域。依托既有理论积累,团队攻克结构因果数据合成、模型结构设计、跨场景泛化等核心难题,最终实现「极数」模型在多领域任务中的性能突破,为此次开源奠定关键技术基础。

极数大模型简介

「极数」大模型将多种能力集成到同一基础模型中,包括:分类、回归、缺失值插补、数据密度估计、高维表征抽取、数据生成、因果推断、因果发现和分布外泛化预测等;在拥有优秀结构化数据建模性能的同时,极大提高了模型的通用性。

在预训练阶段,「极数」大模型基于海量因果合成数据学习数据中的因果关系,不同于专用模型在训练阶段记忆住数据特征的模式,「极数」大模型可以直接在不同的上下文信息中捕捉因果变量,并通过条件掩码建模的方式学习数据的联合分布,以适应包括分类、回归、缺失值预测、数据生成、因果推断等各种下游任务。

在推理阶段,极数可直接基于提供的上下文信息进行推理,无需训练即可直接适用于各种应用场景。

模型技术架构

「极数」大模型沿用了 transformer 架构,并针对结构化数据建模和任务泛化进行了相关的优化。

「极数」大模型先对先验知识库中的特征和目标分别进行 embedding;之后在主要模块中,在样本和特征维度上分别使用注意力机制,来聚焦关键样本的关键特征。

最终,提取到的高维特征被分别传入 regression head 和 classification head,实现对不同功能的支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
颜面尽失!日本高层抵华傻眼,中方没有要员接见,高市慌忙搬救兵

颜面尽失!日本高层抵华傻眼,中方没有要员接见,高市慌忙搬救兵

潋滟晴方DAY
2026-05-03 19:34:28
泽连斯基誓言再打3年,虽沦为美代理人,却成为中国复兴的大功臣

泽连斯基誓言再打3年,虽沦为美代理人,却成为中国复兴的大功臣

小噎论事
2026-05-03 18:18:59
这种局面不能再延续下去了,否则中国有点危险

这种局面不能再延续下去了,否则中国有点危险

财经保探长
2026-04-21 21:45:58
广东八强将战北京!赛程正式出炉,首战时间确认,赵睿首战老东家

广东八强将战北京!赛程正式出炉,首战时间确认,赵睿首战老东家

多特体育说
2026-05-04 00:35:03
局中手指磕伤流血,王楚钦向队友索要湿巾:你要没有,你就找去

局中手指磕伤流血,王楚钦向队友索要湿巾:你要没有,你就找去

懂球帝
2026-05-03 20:51:33
76人内线核心:埃奇库姆相当成熟,我完全信任马克西和乔治的能力

76人内线核心:埃奇库姆相当成熟,我完全信任马克西和乔治的能力

稻谷与小麦
2026-05-04 01:48:23
英媒:吴宜泽16岁曾住无窗公寓,如今距世锦赛冠军50万英镑仅一步之遥

英媒:吴宜泽16岁曾住无窗公寓,如今距世锦赛冠军50万英镑仅一步之遥

懂球帝
2026-05-03 14:40:05
贸易战打了一年多,美国发现:只要不碰中国,其他没一个能打的

贸易战打了一年多,美国发现:只要不碰中国,其他没一个能打的

小蔑谈事
2026-05-04 01:22:54
刚刚!“张雪机车”车手突然退赛

刚刚!“张雪机车”车手突然退赛

极目新闻
2026-05-03 20:26:03
班主任的真心话:宁愿孩子普通高中混三年,也别轻易选择技校

班主任的真心话:宁愿孩子普通高中混三年,也别轻易选择技校

户外阿毽
2026-05-03 13:08:00
世界超级摩托车锦标赛匈牙利站:张雪机车车手德比斯第二回合退赛

世界超级摩托车锦标赛匈牙利站:张雪机车车手德比斯第二回合退赛

界面新闻
2026-05-03 20:14:18
顾客用烧烤签给宠物狗撸串喂食,烧烤店主致歉:停业一天,已销毁旧签子和食材

顾客用烧烤签给宠物狗撸串喂食,烧烤店主致歉:停业一天,已销毁旧签子和食材

极目新闻
2026-05-03 17:11:22
梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

姜糖先生
2025-06-08 19:31:00
性能超4060 国产自研6nm显卡即将开卖!售多少你买

性能超4060 国产自研6nm显卡即将开卖!售多少你买

3DM游戏
2026-05-03 06:44:06
喜宝公司投毒案告破:往婴幼儿食品中投放老鼠药,39岁男性嫌疑人在奥地利落网;此前公司回应:中国市场官方渠道销售的产品均不在涉事范围

喜宝公司投毒案告破:往婴幼儿食品中投放老鼠药,39岁男性嫌疑人在奥地利落网;此前公司回应:中国市场官方渠道销售的产品均不在涉事范围

极目新闻
2026-05-03 11:30:25
两性关系激发女性荷尔蒙产生,其实很简单,男人做这四点就够了

两性关系激发女性荷尔蒙产生,其实很简单,男人做这四点就够了

健身狂人
2026-05-04 02:02:38
疑似iPhone 18 Pro真机突然曝光,可能长这样

疑似iPhone 18 Pro真机突然曝光,可能长这样

搞机小帝
2026-05-04 00:03:13
郑丽文难罚徐巧芯背刺,借季麟连震慑难改国民党党纪废弛

郑丽文难罚徐巧芯背刺,借季麟连震慑难改国民党党纪废弛

呼呼历史论
2026-05-03 06:30:48
青岛银行校招350人录取名单泄露:看到学历要求,我沉默了

青岛银行校招350人录取名单泄露:看到学历要求,我沉默了

老满说高考
2026-05-03 20:06:16
主场再胜龙狮,华南虎晋级八强

主场再胜龙狮,华南虎晋级八强

广东华南虎
2026-05-04 00:05:09
2026-05-04 03:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
房产
亲子
艺术
数码

旅游要闻

五一假期,全国最拥堵10个地方出炉:放眼望去一片黑压压的人头

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

亲子要闻

宝蓝和叔叔在家挖了一个洞,来到了一个室内弹床游乐场真有趣~

艺术要闻

看!比利时画家图森特如何用油画定义女性优雅!

数码要闻

自费测评aigoGS11耳机:一篇可能得罪厂商,但必须发出来的真实体验

无障碍浏览 进入关怀版