python 数据分析 -pandas 基础(1)
1. 什么是 pandas?
pandas 是处理结构化(表格数据)最常用的工具,是 python 数据分析和数据处理的最成熟的库。pandas 最早是为了处理金融数据而开发的,开放到社区至今,已经广泛应用于各个领域中;pandas 以 numpy 为基础,而 pandas 是其他应用的数据基础,如 Scikit-learn 等。
如果你想;
快速地进行数据的统计分析
像数据库一样做多数据之间的关联
快速地预处理数据(删除脏数据,空数据,数据转换,缺失值处理)
像 Excel 一样的做多维的数据透视,数据分组汇总统计
绘制统计图表
进行数据挖掘
and so on
你需要掌握 pandas!
2. pandas 数据结构
我们先来看看 pandas 的三大数据结构:Series、DataFrame 和 Index
2.1 Series
Series 可以认为是一个一维数组, 但是和数组只有位置索引不同,Series 可以有不同的索引。
从上可知,Series 组成:
数据项
索引 index, 默认为位置索引,即 0 到 N-1
数据类型 dtype,不指定 pandas 会自动判断
数据名称 name
Series 有哪些属性和操作
获取属性:数据项 values 和索引 index 名称 name
按照索引获取指定数据
查询数据和运算
总结下, Series 是按索引组织有序有类型的一维数组。
2.2 DataFrame
DataFrame 可以理解为一个或者多个 Series 组成的表格型的二维结构的数据。
可以通过 info()函数清楚的了解 DataFrame 组成:索引 RangeIndex、数据列 Data columns 和数据类型。有属性来方便获取相应的值。
DataFrame 的每一行和每一列都是 Series, 可以按行和按列访问数据
DataFrame 是非常重要的结构,更多的操作我们在后续陆续分享。
2. 3 Index
从 Series 和 DataFrame 中都可以看到 Index 的身影,可以说 Series 和 DataFrame 都是带索引的数据结构。
如果你对结构化数据库如 Oracle、Mysql 有了解化,索引是一个重要的高效访问的方式。对于 Series 和 DataFrame 来说同样也是。
Series 和 DataFrame 的索引和数据库索引一样,是允许重复值的。
比如设置 state 列为索引
今天我们分享了关于 pandas 的基础结构:Series、DataFrame 和 Index,希望对你有帮助。
版权声明: 本文为 InfoQ 作者【AIWeker】的原创文章。
原文链接:【http://xie.infoq.cn/article/646dce2e2d6f582a150b6795a】。文章转载请联系作者。
评论