写点什么

Python 机器学习入门:数据集、数据类型和统计学

作者:小万哥
  • 2023-11-07
    广东
  • 本文字数:1584 字

    阅读完需:约 5 分钟

Python 机器学习入门:数据集、数据类型和统计学

机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。

数据集

在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。


数组的示例:


[99,86,87,88,111,86,103,87,94,78,77,85,86]


数据库的示例:


Carname  Color  Age  Speed  AutoPassBMW  red  5  99  YVolvo  black  7  86  YVW  gray  8  87  NVW  white  7  88  YFord  white  2  111  YVW  white  17  86  YTesla  red  2  103  YBMW  black  9  87  YVolvo  gray  4  94  NFord  white  11  78  NToyota  gray  12  77  NVW  white  9  85  NToyota  blue  6  86  Y
复制代码


通过查看数组,我们可以猜测平均值可能在 80 到 90 之间,我们还能够确定最高值和最低值,但我们还能做什么?


通过查看数据库,我们可以看到最受欢迎的颜色是白色,而最老的车辆为 17 岁,但如果我们能够通过查看其他值来预测车辆是否具有 AutoPass 呢?


这就是机器学习的用途!分析数据并预测结果!


在机器学习中,通常需要处理非常大的数据集。在本教程中,我们将尽量让您尽可能容易地理解机器学习的不同概念,并使用易于理解的小型数据集。

数据类型

要分析数据,重要的是要知道我们正在处理的数据类型。


我们可以将数据类型分为三个主要类别:


  • 数值

  • 分类

  • 顺序


数值数据是数字,并且可以分为两个数值类别:


  1. 离散数据 - 限制为整数的数字。示例:汽车经过的数量。

  2. 连续数据 - 有无限值的数字。示例:物品的价格或大小。


分类数据是不能相互比较的值。示例:颜色值或任何是/否值。


顺序数据类似于分类数据,但可以相互比较。示例:学校成绩,其中 A 好于 B 等等。


通过了解数据源的数据类型,您将能够知道在分析数据时使用哪种技术。


您将在接下来的章节中了解更多有关统计学和数据分析的内容。

机器学习 - 均值、中位数、众数

在观察一组数字时,我们可以学到什么?


在机器学习(以及数学)中,通常有三个值引起我们的兴趣:


  • 均值 - 平均值

  • 中位数 - 中间值

  • 众数 - 出现最频繁的值


示例:我们已经记录了 13 辆车的速度:


speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]


这些速度的平均值、中间值和最常见的速度值是多少呢?

均值

均值是平均值。


要计算均值,找到所有值的总和,并将总和除以值的数量:


(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77


NumPy 模块有一个用于此目的的方法。了解有关 NumPy 模块的信息,请查看我们的 NumPy 教程。


示例:使用 NumPy 的 mean()方法找到平均速度:


import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.mean(speed)
print(x)
复制代码

中位数

中位数是排列所有值后位于中间的值:


77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111


在找到中位数之前,需要确保对数字进行排序。


NumPy 模块有一个用于此目的的方法:


示例:使用 NumPy 的 median()方法找到中间值:


import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
复制代码


如果中间有两个数字,将这些数字的总和除以 2。


77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103


(86 + 87) / 2 = 86.5


示例:使用 NumPy 模块:


import numpy
speed = [99,86,87,88,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
复制代码

众数

众数是出现最频繁的值:


99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86


SciPy 模块有一个用于此目的的方法。了解有关 SciPy 模块的信息,请查看我们的 SciPy 教程。


示例:使用 SciPy 的 mode()方法找到出现最频繁的数字:


from scipy import stats
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = stats.mode(speed)
print(x)
复制代码

最后

为了方便其他设备和平台的小伙伴观看往期文章:公众号搜索Let us Coding,或者扫描下方二维码,关注公众号,即可获取最新文章。


看完如果觉得有帮助,欢迎点赞、收藏关注



发布于: 刚刚阅读数: 3
用户头像

小万哥

关注

代码如人生 2023-02-09 加入

编程爱好者

评论

发布
暂无评论
Python 机器学习入门:数据集、数据类型和统计学_Python_小万哥_InfoQ写作社区