机器学习笔记 - 概念
机器学习定义:如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。
1:概念
1.1 样本
标记标签的数据。数据的特征(x)及归属标签(y)
类别:训练样本,测试样本
1.2 模型
从输入(x)到输出的映射(y)函数f, f的范围等于假设空间。通常f是一个参数化的函数族。
常见假设空间分类: 线性,非线性
生成模型与判别模型
模型是机器学习最终想得到的结果。
1.3 准则(损失评价)
如何评价具体模型的优劣,需要一个评价标准。
评价标准是损失函数:模型预测值与真实标签间的差异的量化函数
常见的损失函数:
0-1损失函数
平方损失函数:预测Y 为真实的数值
交叉熵损失函数:一般用于分类
经验风险:不知道真实的数据分布,只能计算出经验风险(样本的损失)。
需要的是期望风险最小(在评价标准下对未知数据的预测更准确)
过拟合:一味追求经验风险最小化,导致函数过于复杂,对未知数据的预测偏离更多。经验风险最小可能导致期望风险反而大。常用结构风险(对经验风险引入参数正则化,损失随模型复杂度变高,从而避免过拟合)
1.4 学习算法
求解模型的方法,过程,如何一步步优化得到最终结果的优化算法。
模型的参数与超参数。超参数-组合优化问题,经验性很强。
常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化 分布的参数.
项的系数、神经网络的层数、支持向量机中的核函数等
常见优化算法:梯度下降法,随机梯度下降法,小批量下降
2:机器学习分类
机器学习的三要素:
模型,学习准则,优化算法
三要素的组合
机器学习算法虽然种类繁多,大部分的机器学习算法都可以看作这三个基本要素的不同组
合.
相同的模型也可以有不同的学习算法.比如线性分类模型有感知器、Logistic
回归和支持向量机,它们之间的差异在于使用了不同的学习准则和优化算法.
按样本及信息反馈分类
一般会按样本提供的信息及反馈方式的不同将机器学习算法分为以下几类
监督学习:训练集有标签
根据标签(y)的差异:回归(y连续),分类(y离散),结构化学习(y结构化)
非监督学习:训练集无标签,自动学习到有用的特征
典型的无监督学习问题有聚类、密度估计、特征学习、降维等
强化学习:交互式学习,智能体感知环境的状态,做出决策,并得到环境反馈(奖励),根据反馈调整策略,不断调整学习中获取最大期望回报。阿尔法狗 下棋就是典型的。
3:机器学习过程
完成一项机器学习的步骤(2,3没有顺序依赖)
1: 获取数据---->特征选择,特征抽取,特征提取+标记=>样本
2:设计选择假设空间(模型),f的范围
线性|非线性
3: 选择准则-损失评价
4:设计选择算法,通过样本训练后得出符合准则(损失小)的模型的具体参数。
5:用测试样本进行验证,预测数据。
因此,我们可以将机器学习看作一个从有限、高维、有噪声的数
据上得到更一般性规律的泛化问题.
深度学习
深度学习起初在特征选取与提取时不用人工设计,区别浅度学习。
神经网络是机器学习中模型要素的一种。
目前深度学习主要以神经网络模型为基础
4:理论与定理
PAC学习理论:可能近似正确理论
模型复杂度 正比模型的假设空间
如果泛华错误少:相同假设空间需要更多的样本。
没有免费午餐定理
不存在一种适用所有问题的方法。在某方面有效,在其他某个方面就会低效
丑小鸭定理
相似性没有标准。丑小鸭与白天鹅间的差别和两只白天鹅一样大
参考
学习笔记:邱锡鹏教授《神经网络与深度学习》
评论