Python 教程之数据分析(5)—— 使用 Python 进行数据分析和可视化 | 第 2 套
1. 以 CSV 格式存储 DataFrame:
Pandas 提供**to.csv('filename', index = "False|True")
** 了将 DataFrame 写入 CSV 文件的功能。这*filename
是您要创建的 CSV 文件的名称,并index
告诉 DataFrame 的索引(如果默认)是否应该被覆盖。如果我们设置*index = False
,则索引不会被覆盖。默认情况下,索引的值是TRUE
**索引被覆盖。
例子 :
输出 :
geeksforgeeks2.csv
2. 处理缺失数据
数据分析阶段还包括处理数据集中缺失数据的能力,Pandas 也达到了这一预期也就不足为奇了。这就是dropna
和/或fillna
方法发挥作用的地方。在处理缺失数据时,作为数据分析师,您应该删除包含 NaN 值的列(dropna 方法),或者使用整列条目的平均值或众数填充缺失数据(fillna 方法),这个决定是意义重大,取决于数据和影响将在我们的结果中产生。
删除丢失的数据:
考虑这是由以下代码生成的 DataFrame:
输出 :
axis=0
axis=1
填充缺失值:
现在,使用数据的平均值或模式替换任何 NaNfillna
值,它可以根据要求替换特定列甚至整个 DataFrame 中的所有 NaN 值。
输出 :
3. Groupby 方法(聚合):
groupby 方法允许我们根据任何行或列将数据分组在一起,因此我们可以进一步应用聚合函数来分析我们的数据。使用 mapper(dict 或 key 函数,将给定函数应用于组,将结果作为系列返回)或一系列列对系列进行分组。
考虑这是由以下代码生成的 DataFrame:
输出 :
本篇文章到此就结束了,相关文章:
感谢大家的阅读,有什么问题的话可以在评论中告诉我。希望大家能够给我来个点赞+收藏+评论 ,你的支持是海海更新的动力!后面我会持续分享前端 & 后端相关的专业知识。
版权声明: 本文为 InfoQ 作者【海拥(haiyong.site)】的原创文章。
原文链接:【http://xie.infoq.cn/article/dba4feff3e25c8806f74bf79b】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论