太强了!1 分钟用 ChatGPT 处理数据分析!
一、使用 ChatGPT 进行数据格式化转换
数据格式化是指将原始数据转换为可用于数据分析的格式。常见的格式包括 CSV、Excel、JSON、XML 等。在数据清洗中,数据格式化中进行转换常用的操作包括:
字符串操作:将字符串转换为小写或大写字母形式、删除多余的空格或字符、提取特定的子字符串等。
时间日期格式转换:将不同的时间日期格式转换为统一的格式,如 ISO 8601 标准格式,或者将时间戳转换为可读的日期时间格式。
数值类型转换:将数值型数据转换为不同的数据类型,如整型、浮点型、布尔型等。
数据归一化:将数据缩放到特定的范围内,例如将数据缩放到 0 和 1 之间。
编码转换:将不同的编码格式转换为统一的编码格式,例如将 Unicode 编码转换为 ASCII 编码。
数据结构转换:将数据从一种数据结构转换为另一种数据结构,例如将 JSON 格式的数据转换为 CSV 格式。
这些操作是数据清洗中常用的数据格式化转换操作,可以帮助将不同格式的数据转换为一致的格式,以便进行后续的数据处理和分析。使用 ChatGPT 可以将数据格式化为所需的格式,减少手动操作的复杂度和错误率。以下是一个实例:
假设小明是公司的销售人员,现他手上有一份销售数据,是 JSON 格式的,如以下所示:
JSON 格式的销售数据
现小明需要对这个数据进行处理,以方便整理和分析。他直接通过 ChatGPT 来格式化这个数据,提示语如 2 所示:
ChatGPT 格式化数据提示语
ChatGPT 根据需求,处理后输出的表格如下所示:
图片来源:脑动 AI,地址:ai.fivedata.cn
以上表格是通过对原先的 JSON 数据进行了数据清洗和归一化操作而得到的,对数据进行了以下操作:将 order_date 列转换为日期时间格式、将 total_amount、price 和 quantity 列转换为数字格式、将 state 列中的所有字符转换为大写,使用 str.title()方法将 customer_name 和 shipping_address 列中的所有字符串转换为首字母大写的格式。
图片来源:脑动 AI,访问地址: ai.fivedata.cn
通过这些操作,清洗和规范化了数据,使其更容易被分析和理解,并且能够更好地支持企业决策。最终,处理后的结果被保存为 Excel 文件。
由于 AI 支持连续对话的,因此我们可以继续要求 ChatGPT 生成批处理的代码,提示语如以下所示:
批量格式化数据提示语
ChatGPT 根据需求,给出的处理代码如以下所示:
图片来源:脑动 AI,地址: ai.fivedata.cn
二、使用 ChatGPT 合并不同数据源的数据
在数据分析中,合并不同数据源的数据是非常常见的操作。以下是一些常见的合并数据的方法:
内连接(Inner Join):将两个数据源中相同的记录连接起来,即只保留两个数据源中都有的数据。
左连接(Left Join):将左侧数据源的所有记录都保留,并将右侧数据源中与左侧数据源中记录匹配的数据加入结果集中,如果右侧数据源中没有与左侧匹配的数据,则填充为 NULL 值。
右连接(Right Join):将右侧数据源的所有记录都保留,并将左侧数据源中与右侧数据源中记录匹配的数据加入结果集中,如果左侧数据源中没有与右侧匹配的数据,则填充为 NULL 值。
全连接(Full Outer Join):将两个数据源中所有的记录都保留,并将两个数据源中匹配的记录连接在一起,如果没有匹配的记录,则填充为 NULL 值。
交叉连接(Cross Join):将一个数据源的每一条记录与另一个数据源的所有记录都匹配,生成的结果集会是两个数据源中记录的笛卡尔积。
自然连接(Natural Join):在两个数据源中找到相同的列名,然后以这些列名作为连接条件进行连接,相当于执行内连接操作。
追加(Append):将两个数据源中的记录合并在一起,生成的结果集是两个数据源中所有记录的集合。追加通常用于在数据源的底部添加新的记录。
堆叠(Stacking):将两个数据源中的记录沿着垂直方向堆叠在一起,生成的结果集包含所有记录,并将来自两个数据源的记录堆叠在一起。
这些方法中,内连接、左连接、右连接和全连接是最常见的用于合并数据的方法,它们可以帮助分析人员更好地了解不同数据源之间的关系和数据之间的联系。以下是一个常见的实例:
假设小李是公司的数据分析员,关于近期的订单,他从多个维度收到了几张表。其中订单表记录了订单的详细信息,包括订单编号、下单时间、订单状态等,如表 2 所示:
订单明细表记录了每个订单中的商品明细,包括商品编号、商品名称、单价、数量等,如表 3 所示:
商品表记录了所有商品的信息,包括商品编号、商品名称、所属类别等,如表 4 所示:
用户表记录了所有用户的信息,包括用户编号、用户名、手机号码等,如表 5 所示:
现在需要对这些表进行合并,以便分析订单的销售情况、商品的销售情况、用户购买行为等,因此小李直接利用 ChatGPT 来整合,提示语如以下所示:
合并数据提示语
根据提供的表格信息,ChatGPT 按照订单、订单明细、商品和用户四个维度进行关联,合并成一个完整的表格,如下表所示:
但是 ChatGPT 输出的格式并不是表格,如下:
图片来源:脑动 AI,访问地址: ai.fivedata.cn
我们再次让它以表格形式输出:
图片来源:脑动 AI,地址: ai.fivedata.cn
最终合并后的表格包含了订单的详细信息、订单中的商品明细、商品的类别信息以及下单用户的信息。这个表格可以帮助企业进行订单分析、商品销售分析和用户行为分析等,提供有力的决策支持。
当数据表格比较多的时候,可以利用 ChatGPT 支持连续对话的特性,要求 ChatGPT 生成自动合并的代码,提示语如下所示:
自动合并数据提示语
ChatGPT 根据需求,给出的自动合并代码如以下所示:
图片来源:脑动 AI,地址: ai.fivedata.cn
综上所述,使用 ChatGPT 可以轻松地合并不同数据源的数据,从而实现更全面、准确的数据分析和预测。ChatGPT 是一种基于深度学习的自然语言处理模型,具有强大的语义理解和生成能力,能够对文本数据进行高效、自动化的处理和分析。与传统的数据合并方法相比,使用 ChatGPT 不仅可以避免手动处理数据的繁琐过程,还可以充分利用多样的数据来源,提高数据处理的效率和准确性。
版权声明: 本文为 InfoQ 作者【大数据技术指南】的原创文章。
原文链接:【http://xie.infoq.cn/article/93481f5465eadfa6e5f1f7483】。
本文遵守【CC BY-ND】协议,转载请保留原文出处及本版权声明。
评论