写点什么

python DataFrame 数据合并 merge()、concat() 方法,拿下我人生中第 7 个 Offer

作者:程序媛可鸥
  • 2022 年 3 月 17 日
  • 本文字数:2487 字

    阅读完需:约 8 分钟


①方法 1

指定一个参照列,以该列为准,合并其他列。


import pandas as pd


df1 = pd.DataFrame({'id': ['001', '002', '003'],


'num1': [120, 101, 104],


'num2': [110, 102, 121],


'num3': [105, 120, 113]})


df2 = pd.DataFrame({'id': ['001', '002', '003'],


'num4': [80, 86, 79]})


print(df1)


print("=======================================")


print(df2)


print("=======================================")


df_merge = pd.merge(df1, df2, on='id')


print(df_merge)




②方法 2

要实现该合并,也可以通过索引来合并,即以 index 列为基准。将 left_index 和 right_index 都设置为 True


即可。(left_index 和 right_index 都默认为 False,left_index 表示左表以左表数据的 index 为基准, right_index 表示右表以右表数据的 index 为基准。)


import pandas as pd


df1 = pd.DataFrame({'id': ['001', '002', '003'],


'num1': [120, 101, 104],


'num2': [110, 102, 121],


'num3': [105, 120, 113]})


df2 = pd.DataFrame({'id': ['001', '002', '003'],


'num4': [80, 86, 79]})


print(df1)


print("=======================================")


print(df2)


print("=======================================")


df_merge = pd.merge(df1, df2, left_index=True, right_index=True)


print(df_merge)



相比方法①,区别在于,如图,方法②合并出的数据中有重复列。



重要参数

pd.merge(right,how=‘inner’, on=“None”, left_on=“None”, right_on=“None”, left_index=False, right_index=False )


| 参数 | 描述 |


| --- | --- |


| left | 左表,合并对象,DataFrame 或 Series |


| right | 右表,合并对象,DataFrame 或 Series |


| how | 合并方式,可以是 left(左合并), right(右合并), outer(外合并), inner(内合并) |


| on | 基准列 的列名 |


| left_on | 左表基准列列名 |


| right_on | 右表基准列列名 |


| left_index | 左列是否以 index 为基准,默认 False,否 |


| right_index | 右列是否以 index 为基准,默认 False,否 |


其中,left_index 与 right_index 不能与 on 同时指定。

合并方式 left right outer inner

准备数据‘

新准备一组数据:


import pandas as pd


df1 = pd.DataFrame({'id': ['001', '002', '003'],


'num1': [120, 101, 104],


'num2': [110, 102, 121],


'num3': [105, 120, 113]})


df2 = pd.DataFrame({'id': ['001', '004', '003'],


'num4': [80, 86, 79]})


print(df1)


print("=======================================")


print(df2)


print("=======================================")




inner(默认)

使用来自两个数据集的键的交集


df_merge = pd.merge(df1, df2, on='id')


print(df_merge)




outer

使用来自两个数据集的键的并集


df_merge = pd.merge(df1, df2, on='id', how="outer")


print(df_merge)




left

使用来自左数据集的键


df_merge = pd.merge(df1, df2, on='id', how='left')


print(df_merge)




right

使用来自右数据集的键


df_merge = pd.merge(df1, df2, on='id', how='right')


print(df_merge)





2.多对一合并




import pandas as pd


df1 = pd.DataFrame({'id': ['001', '002', '003'],


'num1': [120, 101, 104],


'num2': [110, 102, 121],


'num3': [105, 120, 113]})


df2 = pd.DataFrame({'id': ['001', '001', '003'],


'num4': [80, 86, 79]})


print(df1)


print("=======================================")


print(df2)


print("=======================================")



如图,df2 中有重复 id1 的数据。


合并


df_merge = pd.merge(df1, df2, on='id')


print(df_merge)


合并结果如图所示:



依然按照默认的 Inner 方式,使用来自两个数据集的键的交集。且重复的键的行会在合并结果中体现为多行。




3.多对多合并




如图表 1 和表 2 中都存在多行 id 重复的。


import pandas as pd


df1 = pd.DataFrame({'id': ['001', '002', '002', '002', '003'],


'num1': [120, 101, 104, 114, 123],


'num2': [110, 102, 121, 113, 126],


'num3': [105, 120, 113, 124, 128]})


df2 = pd.DataFrame({'id': ['001', '001', '002', '003', '001'],


'num4': [80, 86, 79, 88, 93]})


print(df1)


print("=======================================")


print(df2)


print("=======================================")



df_merge = pd.merge(df1, df2, on='id')


print(df_merge)





concat()


==============================================================================


pd.concat(objs, axis=0, join=‘outer’, ignore_index:bool=False,keys=None,levels=None,names=None, verify_integrity:bool=False,sort:bool=False,copy:bool=True)


| 参数 | 描述 |


| --- | --- |



如果你也是看准了 Python,想自学 Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析 Python 兼职、就业行情前景的这些事儿。

一、Python 所有方向的学习路线

Python 所有方向路线就是把 Python 常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。


二、学习软件

工欲善其必先利其器。学习 Python 常用的开发软件都在这里了,给大家节省了很多时间。


三、全套 PDF 电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。


四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。



四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。


五、面试资料

我们学习 Python 必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。



成为一个 Python 程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!最后祝你好运!!!

用户头像

Python编程资料加Q群免费领取:419829237 2022.03.14 加入

还未添加个人简介

评论

发布
暂无评论
python DataFrame数据合并 merge()、concat()方法,拿下我人生中第7个Offer_Python_程序媛可鸥_InfoQ写作平台