网易首页 > 网易号 > 正文 申请入驻

登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

0
分享至

来源:市场资讯

(来源:机器之心)


在企业级系统中,数据团队普遍面临一个困境:模型迭代飞速,但数据准备的「老旧管道」却愈发沉重。清洗、对齐、标注…… 这些工作依然深陷于人工规则与专家经验的泥潭。您的团队是否也为此困扰?

  • 数据格式五花八门,正则表达式越写越多,却总有意想不到的「脏数据」出现

  • 跨系统表结构不一致,对齐逻辑复杂,人工映射耗时耗力

  • 海量数据缺少标签和语义描述,分析师「看不懂、用不好」

这背后是数据准备这一经典难题 —— 它占用了数据团队近 80% 的时间与精力,却依然是智能化进程中最顽固的瓶颈。传统方法主要依赖静态规则与领域特定模型,存在三大根本局限:高度依赖人工与专家知识、对任务语义的感知能力有限、在不同任务与数据模态间泛化能力差。

如今,一份引爆 HuggingFace 趋势榜的联合综述指出,大语言模型(Large Language Models,LLMs)正在从根本上改变这一局面,推动数据准备从「规则驱动」向「语义驱动」的范式转变。



来自上海交通大学、清华大学、微软研究院、麻省理工学院(MIT)、上海 AI Lab、小红书、阿里巴巴、港科大(广州)等机构的研究团队,系统梳理了近年来大语言模型在数据准备流程中的角色变化,试图回答一个业界关心的问题:LLM 能否成为下一代数据管道的「智能语义中枢」,彻底重构数据准备的范式?


  • 论文标题:Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

  • arXiv 论文地址:https://arxiv.org/abs/2601.17058

  • Huggingface 论文主页:https://huggingface.co/papers/2601.17058

  • GitHub 项目主页:https://github.com/weAIDB/awesome-data-llm

从「人工规则」到「语义驱动」的数据准备范式转移

传统的数据准备高度依赖人工规则和任务定制模型:正则表达式、字段校验逻辑、领域特定的分类器,不仅构建和维护成本高昂,且一旦数据格式变化或面临跨域集成,整套体系就显得异常脆弱。

研究团队指出,LLM 的引入正在推动这一流程从「规则驱动」向「语义驱动」转变。模型不再仅仅执行预设逻辑,而是尝试理解数据背后的含义,并据此完成检测、修复、对齐和补充等操作。

在这篇综述中,作者从应用层面(Application-Ready)的视角出发,构建了一个以任务为中心的分类框架,将 LLM 增强的数据准备过程拆分为三大核心环节:

  • 数据清洗(Data Cleaning):错误检测、格式标准化、异常修复、缺失值填补等;

  • 数据集成(Data Integration):实体匹配、模式匹配、跨源对齐与冲突消解;

  • 数据增强(Data Enrichment):列类型识别、语义标注、表级与库级画像构建。


图 1:数据准备三大核心任务:数据清洗、集成与增强,分别解决数据的一致性与质量问题、隔离与集成障碍、以及语义与上下文限制

论文中的整体框架展示了 LLM 在数据准备流水线中的多维度角色。研究团队将现有技术路径归纳为三类,这与传统单一方法形成鲜明对比:

  • 基于 prompt 的方法(M1):通过结构化提示和上下文示例,直接引导模型完成标准化、匹配或标注等任务,强调灵活性与低开发成本。

  • 检索增强与混合方法(M2):结合检索增强生成(RAG)、模型调优(如微调)、小型模型或传统规则系统,在成本、规模与稳定性之间寻求平衡。

  • 智能体编排方法(M3):让 LLM 作为协调中枢,调用外部工具和子模型,逐步构建复杂的数据处理工作流,探索自动化与自主决策的边界。


图 2:LLM 增强的数据准备技术全景总览,涵盖数据清洗、数据集成和数据增强三大任务及其细分技术路线

代表性工作与系统:从理论到工程实践

在具体方法层面,论文梳理了近年来一批具有鲜明工程导向特征的代表性工作。例如:

  • 在数据清洗场景中,CleanAgent 引入了能够自主规划的智能体架构,通过调用 Python 库等外部工具动态构建清洗工作流。

  • 在数据集成领域,Jellyfish 探索了「大模型教小模型」的蒸馏范式,利用 GPT-4 的推理轨迹微调轻量级模型,显著降低了大规模匹配的成本。

  • 而在数据增强方向,Pneuma 则结合了 RAG(检索增强生成) 技术,通过检索数据湖中的相关表格与文档,为原始数据补充缺失的语义上下文与元数据。


表 1:LLM 增强的数据准备方法技术概览

论文总结的「技术版图式」对照表(如上方表 1),将不同方法按照技术路径(基于 prompt、RAG、智能体等)与任务环节(清洗、集成、增强) 进行交叉定位。其核心价值在于帮助工程团队进行技术选型:在不同规模、成本约束与任务阶段下,应优先考虑哪类技术路线。

从该表中,研究团队提炼出几条对工程实践极具指导意义的观察:

  • 基于 prompt 的方法适合小规模、高复杂度任务:例如高价值表格的语义修复、复杂实体歧义消解,但在大规模场景中成本和一致性难以控制。

  • RAG 与混合系统成为主流工程选择:通过检索、规则系统或轻量模型分担高频、低难度任务,让 LLM 专注于「难例」和核心语义决策,实现更高的整体性价比。

  • 智能体路线仍处于探索阶段:多步工具调用在复杂工作流中展现出潜力,但其稳定性、调试成本和结果可评估性仍是当前的主要瓶颈。

常用评估数据集与基准

除了代表性方法和系统,论文还整理了当前用于评估 LLM 数据准备能力的代表性数据集与基准(如下方表 2),为工程团队和研究者提供了一份「可复现实验地图」。


表 2:数据准备代表性数据集总览

从任务维度看,这些基准大致覆盖了三类典型场景:

  • 数据清洗(Data Cleaning):常用数据集包括 Hospital 和 Flights,用于评估模型在格式错误修复、值标准化和缺失字段补全等任务中的稳定性与准确性。这类数据集通常包含人为注入或真实采集的噪声模式,适合测试模型在结构性错误下的鲁棒性。

  • 数据集成(Data Integration):在实体匹配和跨源对齐任务中,WDC Products 和 Amazon-Google Products 等电商类数据集被广泛使用,用于检验模型在名称歧义、属性不一致和多对多匹配场景下的语义判别能力。

  • 数据增强(Data Enrichment):表语义标注和列类型识别任务中,研究工作常基于 OpenWikiTable、Public BI 等表格语义数据集,评估模型生成元数据和语义描述的准确性与一致性。

研究团队指出,当前多数基准仍以中小规模表格和结构化数据为主,对于企业级数据湖、日志流和多模态数据场景的覆盖仍然有限,这也在一定程度上限制了不同方法在真实系统中的横向对比能力。

核心洞见、现存挑战与工程指南

在对大量文献与系统进行深入对比后,研究团队给出了贯穿全文的核心洞见,并清晰地指出了迈向真实应用必须跨越的鸿沟:

  • 工程可落地性优先:在真实系统中,吞吐量、延迟、成本控制和结果可回溯性,往往比单次任务的绝对准确率更为关键。这意味着追求极致精度的复杂方法,未必是工程上的最优解。

  • 混合架构是主流方向:短期内,LLM 更可能作为「语义中枢」嵌入传统数据管道,与规则系统、检索引擎和轻量模型形成协同的混合架构,而非完全替代现有基础设施。

  • 评估体系是当前瓶颈:不同研究采用的数据集、指标和任务定义差异较大,缺乏统一、可复现的评估标准,严重制约了技术的横向比较、迭代与工程选型。

然而,走向大规模真实应用,仍面临明确挑战:推理成本与延迟在大规模场景下仍显高昂;稳定性与幻觉问题在要求严苛的清洗、匹配任务中亟待解决;而统一的评估体系建设更是任重道远。

因此,综述指出,更现实的路径并非用大模型完全取代现有设施,而是将其作为 「语义协调者」嵌入关键节点。

这份综述为工程团队提供了一张详尽的技术地图与选型指南。如果你正在搭建或优化企业级数据平台,它可以帮你判断:在哪些环节引入大模型担任「智能语义层」能带来最高性价比,而在哪些部分,经过验证的传统规则系统与数据库内核仍是更可靠、高效的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生发现:吃肉类与衰老之间的关系!过了65岁后,每天吃多少肉?

医生发现:吃肉类与衰老之间的关系!过了65岁后,每天吃多少肉?

岐黄传人孙大夫
2026-02-04 22:20:46
巴拿马断定中国没辙?反制一出,经济瞬间崩盘,秘鲁成最大赢家

巴拿马断定中国没辙?反制一出,经济瞬间崩盘,秘鲁成最大赢家

水泥土的搞笑
2026-02-08 13:48:23
朱艺:希望唐天翼能从以前的事上吸取教训,把心思放在足球上

朱艺:希望唐天翼能从以前的事上吸取教训,把心思放在足球上

懂球帝
2026-02-09 11:55:13
谷爱凌夺冠即创历史 米兰冬奥会开幕后第三比赛日观赛指南→

谷爱凌夺冠即创历史 米兰冬奥会开幕后第三比赛日观赛指南→

北青网-北京青年报
2026-02-09 10:52:03
美智库公布兵推结果,日本一旦出兵台海,解放军首批打击目标浮现

美智库公布兵推结果,日本一旦出兵台海,解放军首批打击目标浮现

補懂事的孩紙
2026-02-09 00:52:53
郑丽文暴露了?高市胜选后,国民党第一时间送上贺电,态度不简单

郑丽文暴露了?高市胜选后,国民党第一时间送上贺电,态度不简单

观星赏月
2026-02-09 17:36:56
辽宁舰退役去向已定?并非卖给俄,若按这招处理,才是美国最怕的

辽宁舰退役去向已定?并非卖给俄,若按这招处理,才是美国最怕的

他想要很多很多的梦
2026-02-07 18:32:46
1995年,丁盛从团职改为副师待遇,回到军队休养,实质问题没变

1995年,丁盛从团职改为副师待遇,回到军队休养,实质问题没变

春秋砚
2025-11-08 18:15:03
轰25+8+5!哈登尽情休息吧,泰伦卢谈伦纳德明牌,他已有万全之策

轰25+8+5!哈登尽情休息吧,泰伦卢谈伦纳德明牌,他已有万全之策

巴叔GO聊体育
2026-02-09 16:03:20
三百名医生提醒:晨起一杯水对胰腺的影响,建议抽空看看

三百名医生提醒:晨起一杯水对胰腺的影响,建议抽空看看

摇感军事
2026-02-07 20:57:40
中国扣押往台岛运送武器船只信号发出?欧洲大国搞定了,中俄通话

中国扣押往台岛运送武器船只信号发出?欧洲大国搞定了,中俄通话

百态人间
2026-02-09 15:36:57
他是武松唯一不敢惹的好汉,后来投靠方腊,宋江一死他就飞黄腾达

他是武松唯一不敢惹的好汉,后来投靠方腊,宋江一死他就飞黄腾达

耳东文史
2026-02-09 00:02:17
小S深夜发文:我爱具先生,好想吻他的唇!

小S深夜发文:我爱具先生,好想吻他的唇!

钱小刀娱乐
2026-02-08 22:04:14
大连湾海域发生2.9级地震 原震区近几日发生破坏性地震可能性不大

大连湾海域发生2.9级地震 原震区近几日发生破坏性地震可能性不大

半岛晨报
2026-02-09 16:51:31
年纪越大越要吃肉?提醒老年人:多吃3种肉,腿脚有力,精力更旺

年纪越大越要吃肉?提醒老年人:多吃3种肉,腿脚有力,精力更旺

江江食研社
2026-01-30 16:30:09
前 Codex 大神倒戈实锤!吹爆 Claude Code:编程提速 5 倍,点破 OpenAl 死穴在上下文

前 Codex 大神倒戈实锤!吹爆 Claude Code:编程提速 5 倍,点破 OpenAl 死穴在上下文

AI前线
2026-02-09 17:21:48
丘成桐:要不是我牛逼,早被那帮人整垮

丘成桐:要不是我牛逼,早被那帮人整垮

深度报
2026-02-07 23:19:01
支付宝用户莫名背上12笔“网商贷” 网商银行仅退本金不退利息,谁办的咋办的说不清

支付宝用户莫名背上12笔“网商贷” 网商银行仅退本金不退利息,谁办的咋办的说不清

信网
2026-02-09 11:11:51
伊朗已被包围,外媒:中国反隐身雷达开机,美以一举一动在掌握中

伊朗已被包围,外媒:中国反隐身雷达开机,美以一举一动在掌握中

補懂事的孩紙
2026-02-08 00:32:56
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
2026-02-09 21:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2157457文章数 5411关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

头条要闻

爱泼斯坦案亚裔受害者:首次见他就与2人发生关系

体育要闻

创中国冬奥最佳战绩!19岁速滑新星含泪向天拉勾

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

旅游
时尚
游戏
健康
公开课

旅游要闻

赶个酉YOUNG年!重庆酉阳全域景区联动打造春节文旅新地标

2026最流行的5种发型,太适合过年了!

马年第一爽!被新倩女追着喂福利的春节,这波“真香”我直接躺赢

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版