【Pandas 学习笔记 02】处理数据实用操作
作者:幻好
来源:恒生LIGHT云社区
Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法。在本文将主要介绍 Pandas 的实用数据处理操作。
系列文章:
概述
Pandas 是基于 NumPy 构建的库,在数据处理方面可以把它理解为 NumPy 加强版,同时 Pandas 也是一项开源项目。它基于 Cython,因此读取与处理数据非常快,并且还能轻松处理浮点数据中的缺失数据(表示为 NaN)以及非浮点数据。在本文中,基本数据集操作主要介绍了 CSV 与 Excel 的读写方法,基本数据处理主要介绍了缺失值及特征抽取,最后的 DataFrame 操作则主要介绍了函数和排序等方法。
数据集基础操作
读取 CSV 格式文件中的数据集
读取 Excel 格式文件中的数据集
获取基本的数据集特征信息
查询数据集基本统计信息
查询所有列的标题名称
使用 DataFrame 对象将数据写入 CSV 文件
数据集的处理
首先定义一个 DataFrame
数据集:
打印数据集:
查询数据操作
使用
df.loc[index, column]
对具体的行和列的数据进行查询
通过
df['column_name']
或df[row_start_index, row_end_index]
对整列或一定范围的行数据进行查询
增加数据操作
向数据集中增加列数据:
向数据集中增加行数据:
修改数据操作
修改列标题
修改数值
删除数据操作
删除行数据
删除列数据
总结
本文主要介绍 Pandas 工具集的实用操作,能够帮助我们解决日常数据处理的基本问题,后续将继续分享高阶技巧,敬请期待。
版权声明: 本文为 InfoQ 作者【恒生LIGHT云社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/e49902a87d302eb294b1ca2b6】。文章转载请联系作者。
评论