网易首页 > 网易号 > 正文 申请入驻

数据准备AI化:从数据工程师到提示工程师

0
分享至

数据工程占据了数据科学过程的很大一部分。在CRISP-DM中,这个过程阶段被称为“数据准备”。它包括数据摄取、数据转换和数据质量保证等任务。在本文中,我们使用ChatGPT和Python解决了典型的数据工程任务。通过这样做,我们探索了数据工程与新的提示工程学科之间的联系。

2022年5月,Stephen Wolfram和Lex Fridman发表了一次富有洞见的演讲,题为“编程是否已死?”他们讨论了高级语言在未来是否仍将被开发人员使用的问题。根据Wolfram的说法,许多编程任务可以通过大型语言模型(LLM)自动化。在撰写本文时,这种模型的最显著例子是ChatGPT。自2022年底推出以来,它产生了惊人的结果。指定由LLM执行的操作被称为“提示工程”。如果Wolfram是对的,至少部分软件开发将从编写代码转变为编写提示。

在数据科学中,数据准备可能是一项耗时且繁琐的任务。那么为什么不尝试使用LLM自动化它呢?在接下来的章节中,我们将使用ChatGPT和Python解决不同的数据工程问题。我们没有自己编写Python代码,而是使用提示工程生成了它。以下案例是基于可用ChatGPT中文版本-知否AI问答(https://chat.cloudwizdom.com)(GPT-3.5)进行。

让我们从一个简单的问题开始,从样本数据集创建一个Pandas数据框架。表1包含了例如世界银行提供的国家指标。

为了从上面的样本创建一个数据框架,我们与ChatGPT开始了一次新的对话,并发布了以下提示:

创建一个 Pandas 表格,数据如下:

大洲,国家,年份,类别,变量,值

亚洲,中国,2022,经济,GDP,18.1

亚洲,中国,2022,人口统计,人口,1412

北美洲,美国,2022,经济,GDP,25.5

北美洲,美国,2022,人口统计,人口,333

欧洲,德国,2022,经济,GDP,3.9

欧洲,德国,2022,人口统计,人口,84

作为回应,模型生成了以下Python代码:

当在python运行以上脚本,输出如下:

尽管我们在实验中使用了一个样本,但下面部分生成的代码原则上也可以处理更大的数据集。

数据框架的透视

对于数据科学来说,我们在第一个提示中创建的表格结构并不理想。相反,所谓的“平面表格”会更方便。在表格1中,指标“GDP”和“人口”由名为“变量”和“值”的两列表示。相比之下,平面表格将为每个指标单独包含列,如表格2所示。

将表格1的格式转换为表格2的格式称为“透视”。让我们尝试使用ChatGPT来解决这个任务。为此,在我们的对话中发布了第二个提示:

将表格转换为以下格式:

大陆,国家,年份,GDP,人口

亚洲,中国,2022,18.1,1412

北美洲,美国,2022,25.5,333

欧洲,德国,2022,3.9,84

上述消息基于所需数据格式的示例。或者,我们也可以用纯语言方式表达我们的请求。与经典编程一样,提示工程可以有多种实现目标的替代解决方案。寻找最佳方法将是一个令人兴奋的近期任务。根据我们的提示,ChatGPT中文版-知否AI问答(https://chat.cloudwizdom.com)将调整Python代码如下:

运行上述代码将输出所需格式的表格:

另一个典型的数据工程任务是通过附加信息来丰富数据集。为此,我们要求ChatGPT通过以下提示将ISO国家代码添加到我们的数据中:

对于上述表格中的每个国家,添加其ISO代码

提示4:添加国家代码

输出结果:

接下来,我们将通过将一个国家的GDP除以其人口数量来衍生出一个新的列"人均GDP"。为此,我发送了以下提示:

通过将一个国家的GDP除以其人口数量来衍生出一个新的列"人均GDP"

提示5: 衍生新列

作为响应,模型调整了代码,如下所示:

输出结果显示脚本产生了预期的结果。

不可否认,我们的实验是基于一个简单的数据集。尽管如此,结果仍然令人瞩目。我们在不编写一行代码的情况下完成了几个数据工程任务。ChatGPT能够在大多数情况下正确实现我们的提示。即使模型犯了错误,它也能够反思并进行修正。和软件开发一样,生成的代码必须经过测试。此外,它可能需要重构和优化。在人工智能时代,仍然建议使用pylint。总结起来,我们必须同意沃尔夫勒姆的观点:未来,数据工程的重要部分将从编码转向提示工程。这种新的方法不会取代数据工程师,而是使他们更加高效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“人造天才”姜萍,一个非常拙劣的谎言

“人造天才”姜萍,一个非常拙劣的谎言

雪千岚
2024-06-17 21:40:36
理发店老板弃店“跑路” 临走前让员工自发经营

理发店老板弃店“跑路” 临走前让员工自发经营

北青网-北京青年报
2024-06-18 08:45:03
是∑还是½,姜萍竟然不认识数学符号?网友扒出姜萍事件最大漏洞

是∑还是½,姜萍竟然不认识数学符号?网友扒出姜萍事件最大漏洞

趣笔谈
2024-06-18 09:18:58
俄军最大外援曝光,1万集装箱满载480万发炮弹,从东亚直发俄罗斯

俄军最大外援曝光,1万集装箱满载480万发炮弹,从东亚直发俄罗斯

铁血战史1927
2024-06-16 14:17:56
欧洲杯转播显示皮球转速遭球迷吐槽:根本没人关心

欧洲杯转播显示皮球转速遭球迷吐槽:根本没人关心

雷速体育
2024-06-18 09:33:08
国足归化反转!宋凯钦点,两核心空降,水平提升2档,18强赛稳了

国足归化反转!宋凯钦点,两核心空降,水平提升2档,18强赛稳了

小金体坛大视野
2024-06-18 11:56:18
塔图姆三数据全队第一却丢FMVP:美媒质疑投票选择 效率或成关键

塔图姆三数据全队第一却丢FMVP:美媒质疑投票选择 效率或成关键

颜小白的篮球梦
2024-06-18 11:29:20
女性手淫与性行为的差异是什么?除了人数,这3点你知道吗?

女性手淫与性行为的差异是什么?除了人数,这3点你知道吗?

今日养生之道
2024-06-18 11:53:02
康辉:我高考分数远超清北,却被人暗中顶替,依靠父亲查明真相!

康辉:我高考分数远超清北,却被人暗中顶替,依靠父亲查明真相!

舞娱天地
2024-06-17 17:13:24
一查就停产,很多大老板开始失眠了

一查就停产,很多大老板开始失眠了

大猫财经Pro
2024-06-17 18:00:38
美军逐渐执行琉球撤军,这意味着什么?美军干预东亚已经越来越难

美军逐渐执行琉球撤军,这意味着什么?美军干预东亚已经越来越难

筹海者张晓东
2024-06-18 11:03:18
波兰总统杜达称,必须满足俄罗斯在乌克兰牺牲更多士兵的期望

波兰总统杜达称,必须满足俄罗斯在乌克兰牺牲更多士兵的期望

山河路口
2024-06-17 23:59:55
霍福德退出群聊!哈登成为现役季后赛出战数最多的0冠球员!

霍福德退出群聊!哈登成为现役季后赛出战数最多的0冠球员!

直播吧
2024-06-18 11:20:22
特大暴雨来了:今年梅雨将非常凶猛,长江一带需特别警惕

特大暴雨来了:今年梅雨将非常凶猛,长江一带需特别警惕

中国气象爱好者
2024-06-18 08:34:35
打脸联盟,布朗历史第1人!塔图姆超级顶薪稳了,却痛失老大之位

打脸联盟,布朗历史第1人!塔图姆超级顶薪稳了,却痛失老大之位

钉钉陌上花开
2024-06-18 11:17:05
深圳一学区房,三年前14万元/平方米,现在4万元/平方米!

深圳一学区房,三年前14万元/平方米,现在4万元/平方米!

每日经济新闻
2024-06-18 00:16:07
马云还是选择了日本,响应岸田文雄新政策,斥资1000亿进军房地产

马云还是选择了日本,响应岸田文雄新政策,斥资1000亿进军房地产

历史有些冷
2024-06-18 08:00:07
人均养老金上调3%,怎么年轻人吵翻了?

人均养老金上调3%,怎么年轻人吵翻了?

牲产队2024
2024-06-17 19:58:08
阿里赛预赛天才少女手写证明过程中的11个严重的错误或极坏的习惯

阿里赛预赛天才少女手写证明过程中的11个严重的错误或极坏的习惯

法制社会报
2024-06-18 13:10:36
“哥哥硬吗”,女儿国国王满嘴虎狼之词,这谁顶得住

“哥哥硬吗”,女儿国国王满嘴虎狼之词,这谁顶得住

一个岛岛
2024-06-16 16:37:59
2024-06-18 14:56:49
知否AI问答
知否AI问答
追踪最新ChatGPT相关应用
69文章数 90关注度
往期回顾 全部

科技要闻

减持比亚迪,巴菲特又出手,持股降至6.9%

头条要闻

牛弹琴:普京罕见访朝一箭三雕 中方回应四两拨千斤

头条要闻

牛弹琴:普京罕见访朝一箭三雕 中方回应四两拨千斤

体育要闻

对于凯尔特人来说,谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

财经要闻

广汽也想“掀桌子”了?

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

旅游
游戏
本地
数码
公开课

旅游要闻

直航加免签,利好中国—古巴旅游往来

魔兽老玩家:他用一部动画,发起网瘾战争,却被万千网友唾弃

本地新闻

能动司法尽“执”履责 ——“交叉执行”高效能

数码要闻

消息称苹果 2024 返校季活动本周启动,首批国家为美国和加拿大

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版