NumPy 随机数据分布与 Seaborn 可视化详解
随机数据分布
什么是数据分布?
数据分布是指数据集中所有可能值出现的频率,并用概率来表示。它描述了数据取值的可能性。
在统计学和数据科学中,数据分布是分析数据的重要基础。
NumPy 中的随机分布
NumPy 的 random
模块提供了多种方法来生成服从不同分布的随机数。
生成离散分布随机数
choice(a, p, size)
:从数组 a
中随机选择元素,并根据概率 p
进行选择。a
:源数组,包含所有可能值。p
:每个值的概率数组,总和必须为 1。size
:输出数组的形状。
示例:生成 100 个随机数,其中 3 出现的概率为 0.2,5 出现的概率为 0.4,7 出现的概率为 0.3,9 出现的概率为 0.1:
生成连续分布随机数
NumPy 提供了多种方法来生成服从不同连续分布的随机数,例如正态分布、均匀分布、指数分布等。
randn(size)
:生成服从标准正态分布的随机数。rand(size)
:生成服从均匀分布的随机数。beta(a, b, size)
:生成服从 Beta 分布的随机数。gamma(shape, scale, size)
:生成服从 Gamma 分布的随机数。poisson(lam, size)
:生成服从泊松分布的随机整数。
示例:生成 10 个服从标准正态分布的随机数:
随机排列
洗牌数组
shuffle(arr)
:对数组 arr
进行随机洗牌,修改原始数组。
示例:随机洗牌数组 [1, 2, 3, 4, 5]
:
生成数组的随机排列
permutation(arr)
:生成数组 arr
元素的随机排列,不修改原始数组。
示例:生成数组 [1, 2, 3, 4, 5]
的随机排列:
练习
使用
choice
方法生成 200 个随机数,其中 1 出现的概率为 0.1,2 出现的概率为 0.2,3 出现的概率为 0.7。生成 10 个服从指数分布的随机数。
对数组
[10, 20, 30, 40, 50]
进行随机洗牌。生成数组
[6, 7, 8, 9, 10]
元素的随机排列。
解决方案
使用 Seaborn 可视化分布
简介
Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库,用于创建统计图表。它提供了一系列高级绘图函数,可以轻松创建美观且信息丰富的统计图形。
安装 Seaborn
如果您已经安装了 Python 和 pip,可以使用以下命令安装 Seaborn:
如果您使用的是 Jupyter Notebook,可以使用以下命令安装 Seaborn:
绘制分布图
分布图是一种可视化数据分布的图表。它显示了数据集中每个值的出现频率。
在 Seaborn 中,可以使用 sns.distplot()
函数绘制分布图。该函数接受以下参数:
data
:要绘制分布的数据。可以是数组、列表或 Pandas 数据框。hist
:如果为 True
(默认),则绘制直方图;如果为 False
,则只绘制密度曲线。kde
:如果为 True
(默认),则使用核密度估计 (KDE) 来估计数据的分布;如果为 False
,则使用直方图。bins
:用于创建直方图的直方图数量。norm
:用于规范分布的类型。例如,norm='kde'
将使用 KDE 来规范分布。
示例:绘制正态分布
以下示例演示如何使用 Seaborn 绘制正态分布:
该代码将生成 1000 个服从标准正态分布的随机数,并使用 Seaborn 绘制它们的分布图。
示例:绘制自定义分布
以下示例演示如何绘制自定义分布:
该代码将生成一个包含重复值的自定义数据数组,并使用 Seaborn 绘制它们的分布图,不显示直方图或密度曲线。
练习
生成 500 个服从均匀分布的随机数,并绘制它们的分布图。
生成 1000 个服从指数分布的随机数,并绘制它们的分布图。
从以下数据中绘制分布图:
文章转载自:小万哥丶
评论