机器学习 - 回归分析
1.什么是回归分析
回归(regression)是一个监督学习
回归用于预测输入和输出变量的关系,回归问题等价于函数拟合
回归分为学习和预测过程,学习样本规律构建 model,预测系统验证学习的 model
回归的起源:
出自高尔顿种豆子的实验,通过大量数据统计,他发现个体小的豆子往往倾向于产生比其更大的子代,而个体大的豆子则倾向于产生比其小的子代,然后高尔顿认为这是由于新个体在向这种豆子的平均尺寸“回归”,大概的意思就是事物总是倾向于朝着某种“平均”发展,也可以说是回归于事物本来的面目。
2. 线性回归
对于数据集(x,y), x 为自变量,y 为因变量。拟合线性方程
计算截距 w0 和系数
使得
最优的求解方法有梯度下降法和最小二乘法。
3.岭回归
对于有 n 个数据量 p 个特征的数据集来说,线性回归模型准确性和 数据量 n 的大小,以及参与回归的特征相关。
如果参与回归的特征存在相关性,模型的精确性就会下降。系数变更很不稳定,模型偏差比较大。主要是因为系数矩阵 X 与它的转置矩阵相乘得到的矩阵不能求得其逆矩阵
如果特征数 p 的数量很大时候。回归模型就会出现过拟合的现象
岭回归(Ridge)就是为了解决这个问题。
岭回归的思路就是在原始回归基础上增加惩罚项(正则化)。通过引入该惩罚项,能够减少不重要的参数。这个技术在统计学上也叫作缩减(shrinkage)。简单的说就是对回归系数做约束,不会使得系数波动太大。
重要参数说明:alpha 正则项系数,大于 0。不同 alpha,有不同的回归系数。
http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge
4.Lasso 回归
Ridge regression,对 w 系数做 L2 范式约束,就是把解约束在一个球半径里面,放缩是对球的半径放缩,因此 w 的每一个维度都在以同一个系数放缩,通过放缩不会产生稀疏的解——即某些 w 的维度是 0。而实际应用中,数据的维度中是存在噪音和冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归预测的准确性和鲁棒性(减少了 overfitting)。
Lasso 回归加入 L1 正则项,允许某些系数为 0,可以起到特征选择的作用,同时解决了过拟合的情况。
重要参数说明:alpha 正则项系数,大于 0。不同 alpha,有不同的回归系数。 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso
5.结语
本文和大家一起梳理了三种回归方式:一般回归,Ridge 回归和 lasso 回归。
总结一下:
Ridge 回归和 lasso 回归是在一般回归基础上加上 L2 正则项和 L1 正则项
同时 lasso 与 Ridge 的不同是,lasso 可以进行特征选择,进行特征稀疏
版权声明: 本文为 InfoQ 作者【AIWeker-人工智能微客】的原创文章。
原文链接:【http://xie.infoq.cn/article/86612b0f066d11bc89fbc6621】。文章转载请联系作者。
评论