写点什么

Python 数据分析:数据可视化(Matplotlib、Seaborn)

  • 2024-08-14
    湖南
  • 本文字数:3141 字

    阅读完需:约 10 分钟

数据可视化是数据分析中不可或缺的一部分,通过将数据以图形的方式展示出来,可以更直观地理解数据的分布和趋势。在 Python 中,Matplotlib 和 Seaborn 是两个非常流行和强大的数据可视化库。本文将详细介绍这两个库的使用方法,并附上一个综合详细的例子。

一、Matplotlib

Matplotlib 是 Python 中最基础也是最强大的数据可视化库之一。它提供了一整套绘图工具,可以创建各种类型的图表,如折线图、柱状图、散点图、饼图等。

1.1 Matplotlib 基础

基本使用

Matplotlib 的基本使用非常简单,只需要导入 matplotlib.pyplot 模块,然后使用其各种绘图函数即可。

import matplotlib.pyplot as plt
# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('简单折线图')plt.show()
复制代码

设置图形属性

我们可以通过设置各种属性来定制图形的外观。

# 设置线条属性plt.plot(x, y, color='green', marker='o', linestyle='dashed', linewidth=2, markersize=12)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('设置线条属性的折线图')plt.show()
复制代码

多图绘制

使用 subplot 函数可以在同一个窗口中绘制多个图形。

# 创建数据x = [1, 2, 3, 4, 5]y1 = [2, 3, 5, 7, 11]y2 = [1, 4, 9, 16, 25]
# 创建子图plt.subplot(2, 1, 1)plt.plot(x, y1, 'r--')plt.title('第一个子图')
plt.subplot(2, 1, 2)plt.plot(x, y2, 'g*-')plt.title('第二个子图')
plt.show()
复制代码

1.2 Matplotlib 高级

图例和标签

我们可以为图形添加图例和标签,以便更好地解释图表内容。

# 创建数据x = [1, 2, 3, 4, 5]y1 = [2, 3, 5, 7, 11]y2 = [1, 4, 9, 16, 25]
# 绘制折线图plt.plot(x, y1, label='质数')plt.plot(x, y2, label='平方数')
# 添加图例和标签plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('添加图例和标签的折线图')plt.legend()plt.show()
复制代码

注释和文本

可以在图表中添加注释和文本,以便更详细地解释图表中的数据点。

# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('添加注释的折线图')
# 添加注释plt.annotate('最高点', xy=(5, 11), xytext=(4, 9), arrowprops=dict(facecolor='black', shrink=0.05))
plt.show()
复制代码

图表样式

Matplotlib 提供了许多内置的样式,可以轻松更改图表的整体外观。

# 使用内置样式plt.style.use('ggplot')
# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('使用ggplot样式的折线图')plt.show()
复制代码

二、Seaborn

Seaborn 是基于 Matplotlib 构建的高级数据可视化库,提供了更简洁的 API 和更美观的默认样式,特别适合用于统计数据的可视化。

2.1 Seaborn 基础

安装和导入

安装 Seaborn 非常简单,可以使用 pip 命令:

pip install seaborn
复制代码

导入 Seaborn 也非常简单:

import seaborn as snsimport matplotlib.pyplot as plt
复制代码

基本使用

Seaborn 的基本使用方法与 Matplotlib 类似,但提供了更简洁的接口和更美观的默认样式。

# 导入数据集tips = sns.load_dataset('tips')
# 绘制散点图sns.scatterplot(x='total_bill', y='tip', data=tips)plt.xlabel('总账单')plt.ylabel('小费')plt.title('总账单与小费的关系')plt.show()
复制代码

绘制不同类型的图表

Seaborn 提供了许多用于绘制不同类型图表的函数,如箱线图、柱状图、热力图等。

# 箱线图sns.boxplot(x='day', y='total_bill', data=tips)plt.xlabel('星期几')plt.ylabel('总账单')plt.title('不同星期几的总账单分布')plt.show()
# 热力图flights = sns.load_dataset('flights')flights_pivot = flights.pivot('month', 'year', 'passengers')sns.heatmap(flights_pivot, annot=True, fmt='d', cmap='YlGnBu')plt.xlabel('年份')plt.ylabel('月份')plt.title('不同年份和月份的乘客数量')plt.show()
复制代码

2.2 Seaborn 高级

调整图表样式

Seaborn 提供了一些函数可以调整图表的样式。

# 设置图表样式sns.set_style('whitegrid')
# 绘制散点图sns.scatterplot(x='total_bill', y='tip', data=tips)plt.xlabel('总账单')plt.ylabel('小费')plt.title('总账单与小费的关系')plt.show()
复制代码

多图绘制

使用 FacetGrid 可以在同一个窗口中绘制多个图形,方便进行对比分析。

# 使用FacetGrid绘制多个图形g = sns.FacetGrid(tips, col='time')g.map(sns.scatterplot, 'total_bill', 'tip')plt.show()
复制代码

三、综合实例

下面是一个综合详细的例子,展示如何使用 Matplotlib 和 Seaborn 进行数据可视化。

3.1 示例数据集

我们将使用一个模拟的数据集,包含一些产品的销售数据。

import pandas as pdimport numpy as np
# 创建数据集np.random.seed(0)dates = pd.date_range('20230101', periods=100)df = pd.DataFrame({ 'date': dates, 'product': np.random.choice(['A', 'B', 'C', 'D'], size=100), 'sales': np.random.randint(50, 200, size=100), 'profit': np.random.randint(20, 100, size=100)})
复制代码

3.2 使用 Matplotlib 进行数据可视化

销售趋势折线图

我们首先使用 Matplotlib 绘制产品销售趋势的折线图。

import matplotlib.pyplot as plt
# 按日期汇总销售数据sales_trend = df.groupby('date')['sales'].sum()
# 绘制折线图plt.figure(figsize=(10, 6))plt.plot(sales_trend.index, sales_trend.values)plt.xlabel('日期')plt.ylabel('销售额')plt.title('销售趋势折线图')plt.show()
复制代码


各产品销售额柱状图

接下来,我们绘制各产品销售额的柱状图。

# 按产品汇总销售数据product_sales = df.groupby('product')['sales'].sum()
# 绘制柱状图plt.figure(figsize=(8, 6))plt.bar(product_sales.index, product_sales.values, color=['red', 'blue', 'green', 'purple'])plt.xlabel('产品')plt.ylabel('销售额')plt.title('各产品销售额柱状图')plt.show()
复制代码


3.3 使用 Seaborn 进行数据可视化

销售和利润的散点图

我们使用 Seaborn 绘制销售和利润的散点图。

import seaborn as sns
# 绘制散点图plt.figure(figsize=(10, 6))sns.scatterplot(x='sales', y='profit', hue='product', data=df)plt.xlabel('销售额')plt.ylabel('利润')plt.title('销售额与利润的关系')plt.show()
复制代码


产品销售分布箱线图

我们使用 Seaborn 绘制各产品销售分布的箱线图。

# 绘制箱线图plt.figure(figsize=(10, 6))sns.boxplot(x='product', y='sales', data=df)plt.xlabel('产品')plt.ylabel('销售额')plt.title('各产品销售分布箱线图')plt.show()
复制代码


3.4 综合实例的输出结果

通过运行上述代码,我们可以得到一系列图表,这些图表直观地展示了销售数据的分布和趋势。

  1. 销售趋势折线图:展示了整个时间段内的销售趋势,帮助我们识别出销售高峰和低谷。

  2. 各产品销售额柱状图:展示了不同产品的销售额对比,帮助我们确定哪些产品最受欢迎。

  3. 销售额与利润的散点图:展示了销售额和利润之间的关系,帮助我们分析销售和利润的相关性。

  4. 各产品销售分布箱线图:展示了不同产品的销售分布情况,帮助我们识别出销售额的集中区域和异常值。


通过这些图表,我们可以更好地理解和解释数据,从而做出更明智的决策。

四、总结

本文详细介绍了 Python 中两个主要的数据可视化库——Matplotlib 和 Seaborn 的使用方法,并通过一个综合实例展示了如何使用这两个库进行数据可视化。Matplotlib 提供了强大的绘图功能和高度的定制性,而 Seaborn 则提供了更简洁的接口和更美观的默认样式。根据不同的需求,我们可以选择合适的库进行数据可视化,从而更好地理解和解释数据。


作者:Rjdeng

链接:https://juejin.cn/post/7399985797540069386

用户头像

欢迎关注,一起学习,一起交流,一起进步 2020-06-14 加入

公众号:做梦都在改BUG

评论

发布
暂无评论
Python数据分析:数据可视化(Matplotlib、Seaborn)_Python_我再BUG界嘎嘎乱杀_InfoQ写作社区