写点什么

机器学习 - 西瓜书小记

  • 2022 年 7 月 12 日
  • 本文字数:826 字

    阅读完需:约 3 分钟

机器学习-西瓜书小记

重翻了周志华老师的那本著名的西瓜书【机器学习】,在这里做下读书笔记。



你可以在本文中看到:

  • 机器学习的基本术语

  • No Free Lunch 理论

  • 偏差-方差分解


1.机器学习的基本术语


  • 学习模型的目的:学习模型对应到训练数据(training data)的潜在规律(hypothesis),尽可能的接近 groud truth

  • 假设空间: 学习过程看做是一个在所有假设(hypothesis)组成的空间中搜索的过程,目的是找到与训练集匹配的假设

  • 样本空间中全体样本服从一个未知的分布,每一个样本都是独立的从这个分布中采样获得的,数据越多,得到的分布的信息就越多,得到的更有泛化能力的模型。

  • 无偏采样: 训练样本为全体样本的一个等比例抽样,为无偏采样;现实中得到的训练数据往往不是无偏采样,数据越多,越丰富,越可能接近无偏采样。

  • 泛化(generalization):新样本的识别能力

  • 归纳偏好:每一个算法都有自己的归纳偏好,是算法本身在假设空间中的自己的启发式选择


2.No Free Lunch 理论

  • “没有免费的午餐”定理由 Wolpert 1996 年提出的,所有算法的训练集外误差都是一样的,即所有学习算法的期望性能都和随机胡猜一样。

  • NFL 理论的前提是所有“问题”都是同等重要的,现实中其实问题并非总是如此。

  • NFL 告诉我们:脱离实际问题,没有最好的算法。要谈算法的优劣,需要针对具体的问题。


3.偏差-方差分解

  • 偏差-方差分解尝试对学习算法的期望的泛化误差率进行拆解。

  • 泛化误差=偏差+方差+噪声; 偏差为算法的期望输出与真实标记的差别,方差为同一算法在不同训练集的性能方差,噪声是训练集标记与实际标记的差别。

  • 另外一种解释:偏差度量的是学习算法本身的拟合能力;方差度量的是训练集变动导致的学习算法性能的变化;噪声度量的是问题本身的难易程度。

  • 偏差-方差对抗:在学习算法,训练初期,算法本身的拟合不够(欠拟合),此时训练数据的变化不会对泛化误差起到影响,偏差占优势;随着拟合能力加深,此时偏差对泛化误差起到主要影响,学习算法如果学习到某个训练集特有的(非全局)的特征,就造成过拟合的现象,反而降低泛化能力。





发布于: 刚刚阅读数: 3
用户头像

公众号:人工智能微客(weker) 2019.11.21 加入

人工智能微客(weker)长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发

评论

发布
暂无评论
机器学习-西瓜书小记_机器学习_AIWeker-人工智能微客_InfoQ写作社区