写点什么

太强了!1 分钟用 ChatGPT 处理数据分析!

  • 2023-09-02
    北京
  • 本文字数:4481 字

    阅读完需:约 15 分钟

一、使用 ChatGPT 进行数据格式化转换

数据格式化是指将原始数据转换为可用于数据分析的格式。常见的格式包括 CSV、Excel、JSON、XML 等。在数据清洗中,数据格式化中进行转换常用的操作包括:

  • 字符串操作:将字符串转换为小写或大写字母形式、删除多余的空格或字符、提取特定的子字符串等。

  • 时间日期格式转换:将不同的时间日期格式转换为统一的格式,如 ISO 8601 标准格式,或者将时间戳转换为可读的日期时间格式。

  • 数值类型转换:将数值型数据转换为不同的数据类型,如整型、浮点型、布尔型等。

  • 数据归一化:将数据缩放到特定的范围内,例如将数据缩放到 0 和 1 之间。

  • 编码转换:将不同的编码格式转换为统一的编码格式,例如将 Unicode 编码转换为 ASCII 编码。

  • 数据结构转换:将数据从一种数据结构转换为另一种数据结构,例如将 JSON 格式的数据转换为 CSV 格式。

这些操作是数据清洗中常用的数据格式化转换操作,可以帮助将不同格式的数据转换为一致的格式,以便进行后续的数据处理和分析。使用 ChatGPT 可以将数据格式化为所需的格式,减少手动操作的复杂度和错误率。以下是一个实例:

假设小明是公司的销售人员,现他手上有一份销售数据,是 JSON 格式的,如以下所示:

JSON 格式的销售数据

[  {    "customer_name": "john doe",    "customer_id": 123456,    "shipping_address": "123 main st., anytown, USA",    "state": "ny",    "order_date": "2022-04-01T00:00:00",    "quantity": "2",    "price": "10.99",    "total_amount": "21.98"  },  {  "customer_name": "jane smith",    "customer_id": 654321,    "shipping_address": "456 elm st., anytown, USA",    "state": "ca",    "order_date": "2022-04-02T00:00:00",    "quantity": "",    "price": "23.45",    "total_amount": "46.90"  },  {    "customer_name": "bob jones",    "customer_id": 789012,    "shipping_address": "789 oak st., anytown, USA",    "state": "fl",    "order_date": "2022-04-03T00:00:00",    "quantity": "1",    "price": "",    "total_amount": "17.99"  },  {    "customer_name": "jimmy choo",    "customer_id": "",    "shipping_address": "101 first ave., anytown, USA",    "state": "tx",    "order_date": "04/04/22 12:00:00 AM",    "quantity": "3",    "price": "12.34",    "total_amount": ""  }]

复制代码

现小明需要对这个数据进行处理,以方便整理和分析。他直接通过 ChatGPT 来格式化这个数据,提示语如 2 所示:

ChatGPT 格式化数据提示语

你是一个资深数据分析师,你具备深厚的数据分析技能和丰富的行业经验。你擅长运用各种数据分析工具和技术,对大量数据进行挖掘、整合、分析和解释。你熟练掌握统计学、机器学习、人工智能等领域的理论和应用,能够从数据中发现有价值的信息和洞见,为企业决策提供有力的支持。此外,你还拥有出色的沟通和演示能力,能够将复杂的数据分析结果以简洁、清晰的方式呈现给各级别的管理者和团队成员,帮助他们做出更明智的决策。现在我有一份销售数据,是json格式的,如下:---[  {    "customer_name": "john doe",    "customer_id": 123456,    "shipping_address": "123 main st., anytown, USA",    "state": "ny",    "order_date": "2022-04-01T00:00:00",    "quantity": "2",    "price": "10.99",    "total_amount": "21.98"  },  {    "customer_name": "jane smith",    "customer_id": 654321,    "shipping_address": "456 elm st., anytown, USA",    "state": "ca",    "order_date": "2022-04-02T00:00:00",    "quantity": "",    "price": "23.45",    "total_amount": "46.90"  },  {    "customer_name": "bob jones",    "customer_id": 789012,    "shipping_address": "789 oak st., anytown, USA",    "state": "fl",    "order_date": "2022-04-03T00:00:00",    "quantity": "1",    "price": "",    "total_amount": "17.99"  },  {    "customer_name": "jimmy choo",    "customer_id": "",    "shipping_address": "101 first ave., anytown, USA",    "state": "tx",    "order_date": "04/04/22 12:00:00 AM",    "quantity": "3",    "price": "12.34",    "total_amount": ""  }]---帮我把上面的数据转换归一化操作后,存到一个excel文件中。直接输出你处理好后的表格。
复制代码

ChatGPT 根据需求,处理后输出的表格如下所示:


图片来源:脑动 AI,地址:ai.fivedata.cn

以上表格是通过对原先的 JSON 数据进行了数据清洗和归一化操作而得到的,对数据进行了以下操作:将 order_date 列转换为日期时间格式、将 total_amount、price 和 quantity 列转换为数字格式、将 state 列中的所有字符转换为大写,使用 str.title()方法将 customer_name 和 shipping_address 列中的所有字符串转换为首字母大写的格式。


图片来源:脑动 AI,访问地址: ai.fivedata.cn

通过这些操作,清洗和规范化了数据,使其更容易被分析和理解,并且能够更好地支持企业决策。最终,处理后的结果被保存为 Excel 文件。


由于 AI 支持连续对话的,因此我们可以继续要求 ChatGPT 生成批处理的代码,提示语如以下所示:

批量格式化数据提示语

若本地文件中有n个同格式的json文件,请你帮我写个Python函数,读取这个文件夹下的所有json,格式化后,整合到excel中。直接以代码块的格式给我输出代码。
复制代码

ChatGPT 根据需求,给出的处理代码如以下所示:


图片来源:脑动 AI,地址: ai.fivedata.cn

二、使用 ChatGPT 合并不同数据源的数据

在数据分析中,合并不同数据源的数据是非常常见的操作。以下是一些常见的合并数据的方法:

  • 内连接(Inner Join):将两个数据源中相同的记录连接起来,即只保留两个数据源中都有的数据。

  • 左连接(Left Join):将左侧数据源的所有记录都保留,并将右侧数据源中与左侧数据源中记录匹配的数据加入结果集中,如果右侧数据源中没有与左侧匹配的数据,则填充为 NULL 值。

  • 右连接(Right Join):将右侧数据源的所有记录都保留,并将左侧数据源中与右侧数据源中记录匹配的数据加入结果集中,如果左侧数据源中没有与右侧匹配的数据,则填充为 NULL 值。

  • 全连接(Full Outer Join):将两个数据源中所有的记录都保留,并将两个数据源中匹配的记录连接在一起,如果没有匹配的记录,则填充为 NULL 值。

  • 交叉连接(Cross Join):将一个数据源的每一条记录与另一个数据源的所有记录都匹配,生成的结果集会是两个数据源中记录的笛卡尔积。

  • 自然连接(Natural Join):在两个数据源中找到相同的列名,然后以这些列名作为连接条件进行连接,相当于执行内连接操作。

  • 追加(Append):将两个数据源中的记录合并在一起,生成的结果集是两个数据源中所有记录的集合。追加通常用于在数据源的底部添加新的记录。

  • 堆叠(Stacking):将两个数据源中的记录沿着垂直方向堆叠在一起,生成的结果集包含所有记录,并将来自两个数据源的记录堆叠在一起。


这些方法中,内连接、左连接、右连接和全连接是最常见的用于合并数据的方法,它们可以帮助分析人员更好地了解不同数据源之间的关系和数据之间的联系。以下是一个常见的实例:

假设小李是公司的数据分析员,关于近期的订单,他从多个维度收到了几张表。其中订单表记录了订单的详细信息,包括订单编号、下单时间、订单状态等,如表 2 所示:


订单明细表记录了每个订单中的商品明细,包括商品编号、商品名称、单价、数量等,如表 3 所示:


商品表记录了所有商品的信息,包括商品编号、商品名称、所属类别等,如表 4 所示:


用户表记录了所有用户的信息,包括用户编号、用户名、手机号码等,如表 5 所示:


现在需要对这些表进行合并,以便分析订单的销售情况、商品的销售情况、用户购买行为等,因此小李直接利用 ChatGPT 来整合,提示语如以下所示:

合并数据提示语

你是一个资深数据分析师,你具备深厚的数据分析技能和丰富的行业经验。你擅长运用各种数据分析工具和技术,对大量数据进行挖掘、整合、分析和解释。你熟练掌握统计学、机器学习、人工智能等领域的理论和应用,能够从数据中发现有价值的信息和洞见,为企业决策提供有力的支持。此外,你还拥有出色的沟通和演示能力,能够将复杂的数据分析结果以简洁、清晰的方式呈现给各级别的管理者和团队成员,帮助他们做出更明智的决策。现在我有N份表格,具体内容如下:---订单表(orders): 记录了订单的详细信息,包括订单编号、下单时间、订单状态等。

订单编号 下单时间 订单状态10001 2022-01-01 10:00:00 已完成10002 2022-01-02 11:00:00 已取消10003 2022-01-03 12:00:00 已完成10004 2022-01-04 13:00:00 进行中订单明细表(order_details): 记录了每个订单中的商品明细,包括商品编号、商品名称、单价、数量等。

订单编号 商品编号 商品名称 单价 数量10001 001 商品1 100 210001 002 商品2 200 110002 003 商品3 150 310003 001 商品1 100 210003 002 商品2 200 110004 003 商品3 150 1商品表(products): 记录了所有商品的信息,包括商品编号、商品名称、所属类别等。商品编号 商品名称 商品类别001 商品1 A类商品002 商品2 B类商品003 商品3 A类商品004 商品4 C类商品用户表(users): 记录了所有用户的信息,包括用户编号、用户名、手机号码等。

用户编号 用户名 手机号码001 张三 13812345678002 李四 13987654321003 王五 13788888888004 赵六 13377777777---请从你的专业角度,将我上面的表格合并成一个完整的表格。直接输出最终的表格。

复制代码

根据提供的表格信息,ChatGPT 按照订单、订单明细、商品和用户四个维度进行关联,合并成一个完整的表格,如下表所示:


但是 ChatGPT 输出的格式并不是表格,如下:

图片来源:脑动 AI,访问地址: ai.fivedata.cn

我们再次让它以表格形式输出:



图片来源:脑动 AI,地址: ai.fivedata.cn

最终合并后的表格包含了订单的详细信息、订单中的商品明细、商品的类别信息以及下单用户的信息。这个表格可以帮助企业进行订单分析、商品销售分析和用户行为分析等,提供有力的决策支持。

当数据表格比较多的时候,可以利用 ChatGPT 支持连续对话的特性,要求 ChatGPT 生成自动合并的代码,提示语如下所示:

自动合并数据提示语

从你的专业角度,给我一个python代码,和上面的功能类似,需要读取一个文件夹下面的所有Excel表格,然后整合成一个表格,存到新的文件中。直接以代码块的格式输出。
复制代码

ChatGPT 根据需求,给出的自动合并代码如以下所示:


图片来源:脑动 AI,地址: ai.fivedata.cn

综上所述,使用 ChatGPT 可以轻松地合并不同数据源的数据,从而实现更全面、准确的数据分析和预测。ChatGPT 是一种基于深度学习的自然语言处理模型,具有强大的语义理解和生成能力,能够对文本数据进行高效、自动化的处理和分析。与传统的数据合并方法相比,使用 ChatGPT 不仅可以避免手动处理数据的繁琐过程,还可以充分利用多样的数据来源,提高数据处理的效率和准确性。


发布于: 刚刚阅读数: 3
用户头像

还未添加个人签名 2021-03-07 加入

还未添加个人简介

评论

发布
暂无评论
太强了!1分钟用ChatGPT处理数据分析!_数据分析_大数据技术指南_InfoQ写作社区