python DataFrame 数据合并 merge()、concat() 方法,拿下我人生中第 7 个 Offer
①方法 1
指定一个参照列,以该列为准,合并其他列。
import pandas as pd
df1 = pd.DataFrame({'id': ['001', '002', '003'],
'num1': [120, 101, 104],
'num2': [110, 102, 121],
'num3': [105, 120, 113]})
df2 = pd.DataFrame({'id': ['001', '002', '003'],
'num4': [80, 86, 79]})
print(df1)
print("=======================================")
print(df2)
print("=======================================")
df_merge = pd.merge(df1, df2, on='id')
print(df_merge)
![](https://static001.geekbang.org/infoq/3b/3bbbf216be846e76882b24858ee2b06b.png)
②方法 2
要实现该合并,也可以通过索引来合并,即以 index 列为基准。将 left_index 和 right_index 都设置为 True
即可。(left_index 和 right_index 都默认为 False,left_index 表示左表以左表数据的 index 为基准, right_index 表示右表以右表数据的 index 为基准。)
import pandas as pd
df1 = pd.DataFrame({'id': ['001', '002', '003'],
'num1': [120, 101, 104],
'num2': [110, 102, 121],
'num3': [105, 120, 113]})
df2 = pd.DataFrame({'id': ['001', '002', '003'],
'num4': [80, 86, 79]})
print(df1)
print("=======================================")
print(df2)
print("=======================================")
df_merge = pd.merge(df1, df2, left_index=True, right_index=True)
print(df_merge)
![](https://static001.geekbang.org/infoq/4f/4fbbbbb9d6da76f68b1de6d0eaca6bcf.png)
相比方法①,区别在于,如图,方法②合并出的数据中有重复列。
重要参数
pd.merge(right,how=‘inner’, on=“None”, left_on=“None”, right_on=“None”, left_index=False, right_index=False )
| 参数 | 描述 |
| --- | --- |
| left | 左表,合并对象,DataFrame 或 Series |
| right | 右表,合并对象,DataFrame 或 Series |
| how | 合并方式,可以是 left(左合并), right(右合并), outer(外合并), inner(内合并) |
| on | 基准列 的列名 |
| left_on | 左表基准列列名 |
| right_on | 右表基准列列名 |
| left_index | 左列是否以 index 为基准,默认 False,否 |
| right_index | 右列是否以 index 为基准,默认 False,否 |
其中,left_index 与 right_index 不能与 on 同时指定。
合并方式 left right outer inner
准备数据‘
新准备一组数据:
import pandas as pd
df1 = pd.DataFrame({'id': ['001', '002', '003'],
'num1': [120, 101, 104],
'num2': [110, 102, 121],
'num3': [105, 120, 113]})
df2 = pd.DataFrame({'id': ['001', '004', '003'],
'num4': [80, 86, 79]})
print(df1)
print("=======================================")
print(df2)
print("=======================================")
![](https://static001.geekbang.org/infoq/a3/a32e6a91113cc451d90a8f936d40e878.png)
inner(默认)
使用来自两个数据集的键的交集
df_merge = pd.merge(df1, df2, on='id')
print(df_merge)
![](https://static001.geekbang.org/infoq/92/92ef262bfb49fa6494b716aeb647dfed.png)
outer
使用来自两个数据集的键的并集
df_merge = pd.merge(df1, df2, on='id', how="outer")
print(df_merge)
![](https://static001.geekbang.org/infoq/ba/ba00d1a5b1c4b1d72cb051c2b1958fc5.png)
left
使用来自左数据集的键
df_merge = pd.merge(df1, df2, on='id', how='left')
print(df_merge)
![](https://static001.geekbang.org/infoq/b5/b5d3ad9904c84d9977960ee991550c4c.png)
right
使用来自右数据集的键
df_merge = pd.merge(df1, df2, on='id', how='right')
print(df_merge)
![](https://static001.geekbang.org/infoq/4d/4db9f53edaf81d1925b797abaea87c30.png)
import pandas as pd
df1 = pd.DataFrame({'id': ['001', '002', '003'],
'num1': [120, 101, 104],
'num2': [110, 102, 121],
'num3': [105, 120, 113]})
df2 = pd.DataFrame({'id': ['001', '001', '003'],
'num4': [80, 86, 79]})
print(df1)
print("=======================================")
print(df2)
print("=======================================")
![](https://static001.geekbang.org/infoq/41/41d68988ef3714af1af6f0397c11dd31.png)
如图,df2 中有重复 id1 的数据。
合并
df_merge = pd.merge(df1, df2, on='id')
print(df_merge)
合并结果如图所示:
![](https://static001.geekbang.org/infoq/6c/6cf5779c3aa6fae3cacc5272893e3cf5.png)
依然按照默认的 Inner 方式,使用来自两个数据集的键的交集。且重复的键的行会在合并结果中体现为多行。
如图表 1 和表 2 中都存在多行 id 重复的。
import pandas as pd
df1 = pd.DataFrame({'id': ['001', '002', '002', '002', '003'],
'num1': [120, 101, 104, 114, 123],
'num2': [110, 102, 121, 113, 126],
'num3': [105, 120, 113, 124, 128]})
df2 = pd.DataFrame({'id': ['001', '001', '002', '003', '001'],
'num4': [80, 86, 79, 88, 93]})
print(df1)
print("=======================================")
print(df2)
print("=======================================")
![](https://static001.geekbang.org/infoq/20/20e88bcfd4544fb261a7e80fb1b0c136.png)
df_merge = pd.merge(df1, df2, on='id')
print(df_merge)
![](https://static001.geekbang.org/infoq/fd/fd69776381bb6e55bde930590b7969ed.png)
==============================================================================
pd.concat(objs, axis=0, join=‘outer’, ignore_index:bool=False,keys=None,levels=None,names=None, verify_integrity:bool=False,sort:bool=False,copy:bool=True)
| 参数 | 描述 |
| --- | --- |
![](https://static001.geekbang.org/infoq/a7/a74ca620f34c4bb6888d6f206d64adae.png)
如果你也是看准了 Python,想自学 Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析 Python 兼职、就业行情前景的这些事儿。
一、Python 所有方向的学习路线
Python 所有方向路线就是把 Python 常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
![](https://static001.geekbang.org/infoq/e0/e03fd26f6c0917195450c6199bf5a2fd.png)
二、学习软件
工欲善其必先利其器。学习 Python 常用的开发软件都在这里了,给大家节省了很多时间。
![](https://static001.geekbang.org/infoq/74/74032b26d9da5ee03e17a76e12edbb15.png)
三、全套 PDF 电子书
书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。
![](https://static001.geekbang.org/infoq/22/222a67ec7a63430cd1a38da4c40c4d64.png)
四、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
![](https://static001.geekbang.org/infoq/c8/c839377ce45db4a46eaa5f64f5b28871.png)
![](https://static001.geekbang.org/infoq/79/796c29008052d2c5d1a0a30ef3b50e63.png)
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
![](https://static001.geekbang.org/infoq/40/40fc2e4f5073880c93a277921a062e0a.png)
五、面试资料
我们学习 Python 必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
![](https://static001.geekbang.org/infoq/30/3082765585de5293d8850a9ce8389cea.png)
成为一个 Python 程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!最后祝你好运!!!
评论