Python 数据分析：数据可视化（Matplotlib、Seaborn）

2024-08-14
湖南
本文字数：3141 字
阅读完需：约 10 分钟

数据可视化是数据分析中不可或缺的一部分，通过将数据以图形的方式展示出来，可以更直观地理解数据的分布和趋势。在 Python 中，Matplotlib 和 Seaborn 是两个非常流行和强大的数据可视化库。本文将详细介绍这两个库的使用方法，并附上一个综合详细的例子。

一、Matplotlib

Matplotlib 是 Python 中最基础也是最强大的数据可视化库之一。它提供了一整套绘图工具，可以创建各种类型的图表，如折线图、柱状图、散点图、饼图等。

1.1 Matplotlib 基础

基本使用

Matplotlib 的基本使用非常简单，只需要导入 matplotlib.pyplot 模块，然后使用其各种绘图函数即可。

import matplotlib.pyplot as plt
# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('简单折线图')plt.show()

复制代码

设置图形属性

我们可以通过设置各种属性来定制图形的外观。

# 设置线条属性plt.plot(x, y, color='green', marker='o', linestyle='dashed', linewidth=2, markersize=12)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('设置线条属性的折线图')plt.show()

复制代码

多图绘制

使用 subplot 函数可以在同一个窗口中绘制多个图形。

# 创建数据x = [1, 2, 3, 4, 5]y1 = [2, 3, 5, 7, 11]y2 = [1, 4, 9, 16, 25]
# 创建子图plt.subplot(2, 1, 1)plt.plot(x, y1, 'r--')plt.title('第一个子图')
plt.subplot(2, 1, 2)plt.plot(x, y2, 'g*-')plt.title('第二个子图')
plt.show()

复制代码

1.2 Matplotlib 高级

图例和标签

我们可以为图形添加图例和标签，以便更好地解释图表内容。

# 创建数据x = [1, 2, 3, 4, 5]y1 = [2, 3, 5, 7, 11]y2 = [1, 4, 9, 16, 25]
# 绘制折线图plt.plot(x, y1, label='质数')plt.plot(x, y2, label='平方数')
# 添加图例和标签plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('添加图例和标签的折线图')plt.legend()plt.show()

复制代码

注释和文本

可以在图表中添加注释和文本，以便更详细地解释图表中的数据点。

# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('添加注释的折线图')
# 添加注释plt.annotate('最高点', xy=(5, 11), xytext=(4, 9),             arrowprops=dict(facecolor='black', shrink=0.05))
plt.show()

复制代码

图表样式

Matplotlib 提供了许多内置的样式，可以轻松更改图表的整体外观。

# 使用内置样式plt.style.use('ggplot')
# 创建数据x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]
# 绘制折线图plt.plot(x, y)plt.xlabel('X轴')plt.ylabel('Y轴')plt.title('使用ggplot样式的折线图')plt.show()

复制代码

二、Seaborn

Seaborn 是基于 Matplotlib 构建的高级数据可视化库，提供了更简洁的 API 和更美观的默认样式，特别适合用于统计数据的可视化。

2.1 Seaborn 基础

安装和导入

安装 Seaborn 非常简单，可以使用 pip 命令：

pip install seaborn

复制代码

导入 Seaborn 也非常简单：

import seaborn as snsimport matplotlib.pyplot as plt

复制代码

基本使用

Seaborn 的基本使用方法与 Matplotlib 类似，但提供了更简洁的接口和更美观的默认样式。

# 导入数据集tips = sns.load_dataset('tips')
# 绘制散点图sns.scatterplot(x='total_bill', y='tip', data=tips)plt.xlabel('总账单')plt.ylabel('小费')plt.title('总账单与小费的关系')plt.show()

复制代码

绘制不同类型的图表

Seaborn 提供了许多用于绘制不同类型图表的函数，如箱线图、柱状图、热力图等。

# 箱线图sns.boxplot(x='day', y='total_bill', data=tips)plt.xlabel('星期几')plt.ylabel('总账单')plt.title('不同星期几的总账单分布')plt.show()
# 热力图flights = sns.load_dataset('flights')flights_pivot = flights.pivot('month', 'year', 'passengers')sns.heatmap(flights_pivot, annot=True, fmt='d', cmap='YlGnBu')plt.xlabel('年份')plt.ylabel('月份')plt.title('不同年份和月份的乘客数量')plt.show()

复制代码

2.2 Seaborn 高级

调整图表样式

Seaborn 提供了一些函数可以调整图表的样式。

# 设置图表样式sns.set_style('whitegrid')
# 绘制散点图sns.scatterplot(x='total_bill', y='tip', data=tips)plt.xlabel('总账单')plt.ylabel('小费')plt.title('总账单与小费的关系')plt.show()

复制代码

多图绘制

使用 FacetGrid 可以在同一个窗口中绘制多个图形，方便进行对比分析。

# 使用FacetGrid绘制多个图形g = sns.FacetGrid(tips, col='time')g.map(sns.scatterplot, 'total_bill', 'tip')plt.show()

复制代码

三、综合实例

下面是一个综合详细的例子，展示如何使用 Matplotlib 和 Seaborn 进行数据可视化。

3.1 示例数据集

我们将使用一个模拟的数据集，包含一些产品的销售数据。

import pandas as pdimport numpy as np
# 创建数据集np.random.seed(0)dates = pd.date_range('20230101', periods=100)df = pd.DataFrame({    'date': dates,    'product': np.random.choice(['A', 'B', 'C', 'D'], size=100),    'sales': np.random.randint(50, 200, size=100),    'profit': np.random.randint(20, 100, size=100)})

复制代码

3.2 使用 Matplotlib 进行数据可视化

销售趋势折线图

我们首先使用 Matplotlib 绘制产品销售趋势的折线图。

import matplotlib.pyplot as plt
# 按日期汇总销售数据sales_trend = df.groupby('date')['sales'].sum()
# 绘制折线图plt.figure(figsize=(10, 6))plt.plot(sales_trend.index, sales_trend.values)plt.xlabel('日期')plt.ylabel('销售额')plt.title('销售趋势折线图')plt.show()

复制代码

各产品销售额柱状图

接下来，我们绘制各产品销售额的柱状图。

# 按产品汇总销售数据product_sales = df.groupby('product')['sales'].sum()
# 绘制柱状图plt.figure(figsize=(8, 6))plt.bar(product_sales.index, product_sales.values, color=['red', 'blue', 'green', 'purple'])plt.xlabel('产品')plt.ylabel('销售额')plt.title('各产品销售额柱状图')plt.show()

复制代码

3.3 使用 Seaborn 进行数据可视化

销售和利润的散点图

我们使用 Seaborn 绘制销售和利润的散点图。

import seaborn as sns
# 绘制散点图plt.figure(figsize=(10, 6))sns.scatterplot(x='sales', y='profit', hue='product', data=df)plt.xlabel('销售额')plt.ylabel('利润')plt.title('销售额与利润的关系')plt.show()

复制代码

产品销售分布箱线图

我们使用 Seaborn 绘制各产品销售分布的箱线图。

# 绘制箱线图plt.figure(figsize=(10, 6))sns.boxplot(x='product', y='sales', data=df)plt.xlabel('产品')plt.ylabel('销售额')plt.title('各产品销售分布箱线图')plt.show()

复制代码

3.4 综合实例的输出结果

通过运行上述代码，我们可以得到一系列图表，这些图表直观地展示了销售数据的分布和趋势。

销售趋势折线图：展示了整个时间段内的销售趋势，帮助我们识别出销售高峰和低谷。
各产品销售额柱状图：展示了不同产品的销售额对比，帮助我们确定哪些产品最受欢迎。
销售额与利润的散点图：展示了销售额和利润之间的关系，帮助我们分析销售和利润的相关性。
各产品销售分布箱线图：展示了不同产品的销售分布情况，帮助我们识别出销售额的集中区域和异常值。

通过这些图表，我们可以更好地理解和解释数据，从而做出更明智的决策。

四、总结

本文详细介绍了 Python 中两个主要的数据可视化库——Matplotlib 和 Seaborn 的使用方法，并通过一个综合实例展示了如何使用这两个库进行数据可视化。Matplotlib 提供了强大的绘图功能和高度的定制性，而 Seaborn 则提供了更简洁的接口和更美观的默认样式。根据不同的需求，我们可以选择合适的库进行数据可视化，从而更好地理解和解释数据。

作者：Rjdeng
链接：https://juejin.cn/post/7399985797540069386

发布于: 刚刚阅读数: 4

我再BUG界嘎嘎乱杀

关注

欢迎关注，一起学习，一起交流，一起进步 2020-06-14 加入

公众号：做梦都在改BUG

发布

暂无评论

创作场景

Python 数据分析：数据可视化（Matplotlib、Seaborn）

一、Matplotlib

1.1 Matplotlib 基础

1.2 Matplotlib 高级

二、Seaborn

2.1 Seaborn 基础

2.2 Seaborn 高级

三、综合实例

3.1 示例数据集

3.2 使用 Matplotlib 进行数据可视化

3.3 使用 Seaborn 进行数据可视化

3.4 综合实例的输出结果

四、总结

我再BUG界嘎嘎乱杀

评论