机器学习
第一章 绪论
1. 机器学习定义
1.1 什么是机器学习
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法"。
1.2 机器学习常用术语
数据集:所有数据的集合。其中每条数据是关于一个事件或对象的描述,成为“示例”或“样本”。
属性或特征:反映对象或事件在某方面的表现或性质的事项。
训练集:训练模型使用的数据集。
测试集:测试模型使用的数据集。
分类:学习任务是预测离散值。只涉及两个类别的“二分类”,通常称其中一个为“正类”,另一个为“反类”。
回归:学习任务是预测连续值。
监督学习:训练数据有标记信息,如决策树。分类和回归都属于监督学习。
无监督学习:训练数据无标记信息,如聚类。
半监督学习:监督学习与无监督学习相结合的一种学习方法,半监督学习使用大量的未标记数据,以及同时使用标记数据。
泛化能力:学得的模型适用于新样本的能力。
2. 假设空间
一个训练集本身会包含很多假设,把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到于训练集匹配的假设,假设的表示一旦确定,假设空间及其规模大小就确定了。
与训练集一致的假设集合称为版本空间。比如从西瓜的数据集中找到两条规律:根蒂是蜷缩的肯定是好瓜;敲声是沉闷的肯定是坏瓜。这两条假设就是版本空间。
第二章 模型评估与选择
1.经验误差与过拟合
错误率:分类错误的样本占样本总数的比例
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差/ 经验误差:学习器在训练集上的误差
泛化误差:在新样本上的误差
过拟合:由学习能力太过于强大造成,把样本的一些自身特点也学习到,导致泛化性能下降
欠拟合:与过拟合相对应的就是欠拟合,指的是学习器连训练集的一般性质都没有学习到
2. 误差评估方法
留出法
采用留出法将数据集划分为训练集和测试集
划分方式:保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响
划分次数:采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
交叉验证法
通过分层采样的方法将数据集 D 划分为 k 个大小相似的互斥子集(注意分层采样之后的每个子集数据分布具有一致性)
每次用 k − 1 个子集的并集作为训练集,余下的那个子集作为测试集。显然,这样就可以获得 k 组不同的训练集+测试集组合,从而进行 k 次训练和测试,最终返回的是这 k 个测试结果的均值
同留出法,将数据集 D 划分为 k 组有多种不同的方式。为减少由于数据集划分的不同而引入的差别,k 折交叉验证通常要随机使用不同的划分重复 p 次,最终的结果是这 p 次 k 折交叉验证结果的平均值(常见的为 10 次 10 折交叉验证)
3. 性能度量
参考资料
《机器学习》 周志华,清华大学出版社
版权声明: 本文为 InfoQ 作者【i30M】的原创文章。
原文链接:【http://xie.infoq.cn/article/22b5dd7527b02599d5f6802a5】。文章转载请联系作者。
评论