写点什么

pandas ~ 基础 pandas

用户头像
南辞
关注
发布于: 2020 年 08 月 30 日
pandas ~基础pandas

一:学习契机

目前的工作就是数据分析,随着时间的推进,python似乎是目前最火的数据分析工具,当然之前在工作中也使用一些python书写一些简单的流程处理代码,但是工作中一般用的比较少,所以想还是练手,防止后续需要而没有,所以就书写这个文档,在练习自己的同时希望也能对你有用。

二:pandas 的常用功能

1、pandas导入数据以及查看数据的类型

当然首先需要的是导入盘大师的包

import pandas as pd (一般简写,别人都这么些)

导入数据

df = pd.read_csv(path,sep=',',encoding='') 等信息

运行后的结果

2、导入数据后就可以进行对数据和数据结构的查询

其中属性操作和函数操作需要区分一下,属性操作是在对应的后面没有圆括号的操作,而函数是具有()的操作

例如:

print(type(df)) 就是使用type()函数来看df 的类型

print(df.shape) 就是查看df 的结构类型

print(df.dtypes)就是查看每一列的数据类型

print(df.columns)就是查看数据的列的名称

print(df.info()) 使用info函数查看数据的每一列的数据的类型和空值等情况。

#files 中加载了数据可以看看数据的属性
print(type(files))
#可以看看数据的结构,其中shape 代表是属性,所以不需要括号
print(files.shape)
#当然也可以查看数据的每个列的属性,同样的dtypes也是属性
print(files.dtypes)
#查看数据的列的名称
print(files.columns)
#使用info()函数来获得数据的详细信息
print(files.info())

3、数据的运算

导入数据查看完成数据的结构,接下来当然是需要查看对数据进行操作,这里可以使用对数据进行分组查看和处理数据

分组处理数据使用groupby ,然后简单的聚合计算sum()、mean()

#如果你导入了我的数据,那么你应该操作和我一样的
#我们按照不同年份对pop进行求平均
year_by_pop = files.groupby('year')['pop'].mean()
#当然有时候不仅仅是简单的一个维度,也可能是多了维度,按照国家和年的形式
year_country_by_pop = files.groupby(['year','country'])['pop'].mean()
#我们也可以进行按照州的形式对国家进行计数计算
continent_country_count = files.groupby('continent')['contry'].nunique()
3、matplotlib的形式查看图

当然和盘大师一样需要先导入才可以

import matplotlib.pyplot as plt

然后我们使用上面的continent_country_count的值进行画图

#先导入数据的包
import matplotlib.pyplot as plt
continent_country_count.plot()
plt.show()
#这样一个简单的图就画好了



三:使用matplotlib 绘制简单的图形

1、matplotlib 绘制的套路

使用matplotlib 创建图形是有固定的套路

#使用matplotlib进行作图
import matplotlib.pyplot as plt
import seaborn as sns
#导入你需要的数据,这里使用sns 中的tips 数据
tips = sns.load_dataset('tips')
print(tips.head())
print(tips.describe())
print(tips.info())
print(tips.columns)
print(tips.shape)
#可以设置对应图形的styple
plt.styple.use('ggplot')
#可以使用以上语句对数据做简单的探索
#使用其中的totle_bil做离散型数据展示
hist = plt.figure()
#创建轴域
axis1 =hist.add_subplot(1,1,1)
#然后绘制直方图
axis1.hist(tips['total_bill'],bins=10)
#然后绘制对应的标题
axis1.set_title('Hist of Total_bill')
axis1.set_xlabel('Total_bill')
axis1.set_ylabel('Frequare')
#展示图形
plt.show()



其中绘制直方图的axis1.hist(x,y,s,c,alpha)等,这里可以设置多个类型的,例如大点图,箱图等

打点图

axis1.scatter(x,y) #用于两个连续变量

箱图

axis1.boxplot(数据,labels )

折线图

axis1.plot(x,y)

当然这里还有好多,后续碰到会在来补充,也可以自己补充,查看文档

文档链接:https://www.matplotlib.org.cn/



用户头像

南辞

关注

还未添加个人签名 2020.03.18 加入

还未添加个人简介

评论

发布
暂无评论
pandas ~基础pandas