写点什么

EXCEL 数据如何去重? Python:这事我比你熟

用户头像
智分析
关注
发布于: 2021 年 02 月 02 日
EXCEL数据如何去重? Python:这事我比你熟

数据出现重复值是我们日常工作中经常会遇到的问题,例如下面这个 EXCEL 表格里,订单编号这一列里出现了多个重复值,这个时候我们就要对数据进行去重了。去重的方法有很多,这里介绍两种方法:1、通过 EXCEL 去重;2、通过 Python 去重。

先给大家说一下在 EXCEL 里去重的基本方法,非常简单,先点击 EXCEL 工具栏上的“删除重复项”:

在弹出的界面里可以对去重的字段进行勾选,默认是全选的状态下,EXCEL 会对所有相同行数的字段进行去重,如果只勾选某一列,EXCEL 会对该列里重复的字段进行去重,这里我们只勾选订单编号这个字段:

点击确定,EXCEL 便会完成去重的操作,这个方法非常简单,相信很多小伙伴都知道如何操作,下面重点给大家介绍一下如何通过 Python 进行去重。

用 Python 做数据分析需要先到官网安装 Python 的程序和 PyCharm 等其他的编辑器,还得安装一些数据分析常见的库,例如 pandas,整个过程需要耗费不少时间。如果嫌麻烦,你也可以不用安装,直接登录智分析的官网并利用 ETL 功能去编写 Python 脚本,一样也可以实现 Python 的全部功能。

话不多说,我们进入智分析的网页端,把数据源上传到网页端,然后进入 ETL 的界面,把关系数据源的组件用鼠标拖拽到中间,这个时候我们需要对数据源进行选择,点击右边的参数,我们可以找到上传到网页端上的数据源文件,执行这个程序,数据源便可以成功加载到 ETL 里:

数据源加载后,我们可以用鼠标点击关系数据源组件对数据源进行预览,我们可以看到这份数据源有 8568 条,并且订单编号这一列是有重复值的:

这个时候我们点击左边脚本模块里的下拉菜单,把 Python 脚本的组件拉拽进来,并与关系数据源的组件进行相连:

点击 Python 脚本的参数设置,便会弹出 Python 的脚本编辑框,以下脚本是系统默认的存在的,已经提前预置的:

我们只需要在最后一句代码里加入 drop_duplicates 这个去重函数,然后指定是哪一列就可以了,这里我们以第一列为去重的目标字段:

最后我们看一下数据去重后的效果,去重后的数据只剩下了 5489 条:

完成去重后,我们可以选择把数据源以 EXCEL 的形式进行输出,这里教大家一个非常方便的方法,在 ETL 里选择已数据集的形式进行输出,然后在 EXCEL 进行调用是最方便的。我们先把数据集的组件拉拽过去,与上面的组件进行相连,并点击执行:

回到 EXCEL 里,打开智分析插件里的数据集面板,搜索刚刚保存成功的数据集,把数据集拉拽到 EXCEL 里,点击刷新,通过 Python 去重后的数据源便会全部显示在 EXCEL 中,是不是非常方便和简单呢?

通过上面的案例,我们可以看到 Python 结合 ETL 的功能去对数据进行清洗是非常方便的,一来是可以节省大量写代码的时间,二来可以利用 ETL 去和 EXCEL 完美地结合起来,真正地让 EXCEL 与其他工具做到无缝连接,在实际工作中真是非常的实用,如果你想学习 Python 但是苦于没有学习的方法的话,就赶紧来学习一下这种新的数据清洗方法吧。

用户头像

智分析

关注

人人都是数据分析师 2020.12.31 加入

全新一代云端数据分析平台

评论

发布
暂无评论
EXCEL数据如何去重? Python:这事我比你熟