EXCEL 数据如何去重? Python:这事我比你熟
数据出现重复值是我们日常工作中经常会遇到的问题,例如下面这个 EXCEL 表格里,订单编号这一列里出现了多个重复值,这个时候我们就要对数据进行去重了。去重的方法有很多,这里介绍两种方法:1、通过 EXCEL 去重;2、通过 Python 去重。
先给大家说一下在 EXCEL 里去重的基本方法,非常简单,先点击 EXCEL 工具栏上的“删除重复项”:
在弹出的界面里可以对去重的字段进行勾选,默认是全选的状态下,EXCEL 会对所有相同行数的字段进行去重,如果只勾选某一列,EXCEL 会对该列里重复的字段进行去重,这里我们只勾选订单编号这个字段:
点击确定,EXCEL 便会完成去重的操作,这个方法非常简单,相信很多小伙伴都知道如何操作,下面重点给大家介绍一下如何通过 Python 进行去重。
用 Python 做数据分析需要先到官网安装 Python 的程序和 PyCharm 等其他的编辑器,还得安装一些数据分析常见的库,例如 pandas,整个过程需要耗费不少时间。如果嫌麻烦,你也可以不用安装,直接登录智分析的官网并利用 ETL 功能去编写 Python 脚本,一样也可以实现 Python 的全部功能。
话不多说,我们进入智分析的网页端,把数据源上传到网页端,然后进入 ETL 的界面,把关系数据源的组件用鼠标拖拽到中间,这个时候我们需要对数据源进行选择,点击右边的参数,我们可以找到上传到网页端上的数据源文件,执行这个程序,数据源便可以成功加载到 ETL 里:
数据源加载后,我们可以用鼠标点击关系数据源组件对数据源进行预览,我们可以看到这份数据源有 8568 条,并且订单编号这一列是有重复值的:
这个时候我们点击左边脚本模块里的下拉菜单,把 Python 脚本的组件拉拽进来,并与关系数据源的组件进行相连:
点击 Python 脚本的参数设置,便会弹出 Python 的脚本编辑框,以下脚本是系统默认的存在的,已经提前预置的:
我们只需要在最后一句代码里加入 drop_duplicates 这个去重函数,然后指定是哪一列就可以了,这里我们以第一列为去重的目标字段:
最后我们看一下数据去重后的效果,去重后的数据只剩下了 5489 条:
完成去重后,我们可以选择把数据源以 EXCEL 的形式进行输出,这里教大家一个非常方便的方法,在 ETL 里选择已数据集的形式进行输出,然后在 EXCEL 进行调用是最方便的。我们先把数据集的组件拉拽过去,与上面的组件进行相连,并点击执行:
回到 EXCEL 里,打开智分析插件里的数据集面板,搜索刚刚保存成功的数据集,把数据集拉拽到 EXCEL 里,点击刷新,通过 Python 去重后的数据源便会全部显示在 EXCEL 中,是不是非常方便和简单呢?
通过上面的案例,我们可以看到 Python 结合 ETL 的功能去对数据进行清洗是非常方便的,一来是可以节省大量写代码的时间,二来可以利用 ETL 去和 EXCEL 完美地结合起来,真正地让 EXCEL 与其他工具做到无缝连接,在实际工作中真是非常的实用,如果你想学习 Python 但是苦于没有学习的方法的话,就赶紧来学习一下这种新的数据清洗方法吧。
评论