简介
1912 年 4 月 15 日,号称永不沉没的泰坦尼克号因为和冰山相撞沉没了。因为没有足够的救援设备,2224 个乘客中有 1502 个乘客不幸遇难。事故已经发生了,但是我们可以从泰坦尼克号中的历史数据中发现一些数据规律吗?今天本文将会带领大家灵活的使用 pandas 来进行数据分析。
泰坦尼特号乘客数据
我们从 kaggle 官网中下载了部分泰坦尼特号的乘客数据,主要包含下面几个字段:
下载下来的文件是一个 csv 文件。接下来我们来看一下怎么使用 pandas 来对其进行数据分析。
使用 pandas 对数据进行分析
引入依赖包
本文主要使用 pandas 和 matplotlib,所以需要首先进行下面的通用设置:
from numpy.random import randn
import numpy as np
np.random.seed(123)
import os
import matplotlib.pyplot as plt
import pandas as pd
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4)
pd.options.display.max_rows = 20
复制代码
读取和分析数据
pandas 提供了一个 read_csv 方法可以很方便的读取一个 csv 数据,并将其转换为 DataFrame:
path = '../data/titanic.csv'
df = pd.read_csv(path)
df
复制代码
我们看下读入的数据:
418 rows × 11 columns
调用 df 的 describe 方法可以查看基本的统计信息:
如果要想查看乘客登录的港口,可以这样选择:
0 Q
1 S
2 Q
3 S
4 S
5 S
6 Q
7 S
8 C
9 S
Name: Embarked, dtype: object
复制代码
使用 value_counts 可以对其进行统计:
embark_counts=df['Embarked'].value_counts()
embark_counts[:10]
复制代码
S 270
C 102
Q 46
Name: Embarked, dtype: int64
复制代码
从结果可以看出,从 S 港口登录的乘客有 270 个,从 C 港口登录的乘客有 102 个,从 Q 港口登录的乘客有 46 个。
同样的,我们可以统计一下 age 信息:
age_counts=df['Age'].value_counts()
age_counts.head(10)
复制代码
前 10 位的年龄如下:
24.0 17
21.0 17
22.0 16
30.0 15
18.0 13
27.0 12
26.0 12
25.0 11
23.0 11
29.0 10
Name: Age, dtype: int64
复制代码
计算一下年龄的平均数:
实际上有些数据是没有年龄的,我们可以使用平均数对其填充:
clean_age1 = df['Age'].fillna(df['Age'].mean())
clean_age1.value_counts()
复制代码
可以看出平均数是 30.27,个数是 86。
30.27259 86
24.00000 17
21.00000 17
22.00000 16
30.00000 15
18.00000 13
26.00000 12
27.00000 12
25.00000 11
23.00000 11
..
36.50000 1
40.50000 1
11.50000 1
34.00000 1
15.00000 1
7.00000 1
60.50000 1
26.50000 1
76.00000 1
34.50000 1
Name: Age, Length: 80, dtype: int64
复制代码
使用平均数来作为年龄可能不是一个好主意,还有一种办法就是丢弃平均数:
clean_age2=df['Age'].dropna()
clean_age2
age_counts = clean_age2.value_counts()
ageset=age_counts.head(10)
ageset
复制代码
24.0 17
21.0 17
22.0 16
30.0 15
18.0 13
27.0 12
26.0 12
25.0 11
23.0 11
29.0 10
Name: Age, dtype: int64
复制代码
图形化表示和矩阵转换
图形化对于数据分析非常有帮助,我们对于上面得出的前 10 名的 age 使用柱状图来表示:
import seaborn as sns
sns.barplot(x=ageset.index, y=ageset.values)
复制代码
接下来我们来做一个复杂的矩阵变换,我们先来过滤掉 age 和 sex 都为空的数据:
cframe=df[df.Age.notnull() & df.Sex.notnull()]
cframe
复制代码
332 rows × 11 columns
接下来使用 groupby 对 age 和 sex 进行分组:
by_sex_age = cframe.groupby(['Age', 'Sex'])
by_sex_age.size()
复制代码
Age Sex
0.17 female 1
0.33 male 1
0.75 male 1
0.83 male 1
0.92 female 1
1.00 female 3
2.00 female 1
male 1
3.00 female 1
5.00 male 1
..
60.00 female 3
60.50 male 1
61.00 male 2
62.00 male 1
63.00 female 1
male 1
64.00 female 2
male 1
67.00 male 1
76.00 female 1
Length: 115, dtype: int64
复制代码
使用 unstack 将 Sex 的列数据变成行:
79 rows × 2 columns
我们把同样 age 的人数加起来,然后使用 argsort 进行排序,得到排序过后的 index:
indexer = agg_counts.sum(1).argsort()
indexer.tail(10)
复制代码
Age
58.0 37
59.0 31
60.0 29
60.5 32
61.0 34
62.0 22
63.0 38
64.0 27
67.0 26
76.0 30
dtype: int64
复制代码
从 agg_counts 中取出最后的 10 个,也就是最大的 10 个:
count_subset = agg_counts.take(indexer.tail(10))
count_subset=count_subset.tail(10)
count_subset
复制代码
上面的操作可以简化为下面的代码:
agg_counts.sum(1).nlargest(10)
复制代码
Age
21.0 17.0
24.0 17.0
22.0 16.0
30.0 15.0
18.0 13.0
26.0 12.0
27.0 12.0
23.0 11.0
25.0 11.0
29.0 10.0
dtype: float64
复制代码
将 count_subset 进行 stack 操作,方便后面的画图:
stack_subset = count_subset.stack()
stack_subset
复制代码
Age Sex
29.0 female 5.0
male 5.0
25.0 female 1.0
male 10.0
23.0 female 5.0
male 6.0
26.0 female 4.0
male 8.0
27.0 female 4.0
male 8.0
18.0 female 7.0
male 6.0
30.0 female 6.0
male 9.0
22.0 female 10.0
male 6.0
21.0 female 3.0
male 14.0
24.0 female 5.0
male 12.0
dtype: float64
复制代码
stack_subset.name = 'total'
stack_subset = stack_subset.reset_index()
stack_subset
复制代码
作图如下:
sns.barplot(x='total', y='Age', hue='Sex', data=stack_subset)
复制代码
本文例子可以参考: https://github.com/ddean2009/learn-ai/
本文已收录于 http://www.flydean.com/01-pandas-titanic/
最通俗的解读,最深刻的干货,最简洁的教程,众多你不
欢迎关注我的公众号:「程序那些事」,懂技术,更懂你!
评论