【Pandas 学习笔记 02】- 数据处理高阶用法
作者:幻好
来源:恒生LIGHT云社区
Pandas 是一个 Python 软件库,它提供了大量能使我们快速便捷地处理数据的函数和方法。在本文将主要介绍 Pandas 的实用数据处理操作。
系列文章:
概述
Pandas 是基于 NumPy 构建的库,在数据处理方面可以把它理解为 NumPy 加强版,同时 Pandas 也是一项开源项目。它用于数据挖掘和数据分析,同时也提供数据清洗功能。
在本文中,主要介绍 Pandas 在数据处理中的高阶用法,包括:数据的合并、分组和拆分等用法。如果学过数据库的 SQL 语法,本文理解起来会非常快。
数据合并
数据准备
首先定义一个 DataFrame
数据集:
通过 merge()
方法能对 DataFrame 数据集进行合并,通过内连接、外连接、左连接、右连接等方式,如下实例:
merge 方法默认是内连接取交集,通过 how
指定连接类型,on
指定连接字段
数据分组
数据准备
首先定义一个 DataFrame
数据集:
通过 group()
方法能对 DataFrame 数据集进行分组操作,分组后还能进行求和、取平均值等操作,如下实例:
数据拆分
数据准备
首先定义一个 DataFrame
数据集:
通过 split()
方法能对 DataFrame 数据集中某列数据进行拆分操作,如下实例:
数据可视化
在使用 Pandas 处理数据的过程中,为了更直观的展示数据的线性关系,我们可以引入 matplotlib
库将我们的数据变成相关图形
总结
本文主要介绍 Pandas 工具集的高阶操作,操作原理与数据库中的 SQL 有着异曲同工之妙,能够帮助我们解决日常数据的分析处理等操作。
版权声明: 本文为 InfoQ 作者【恒生LIGHT云社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/e95aecab6593f654b99bd9bc6】。文章转载请联系作者。
评论