李宏毅《机器学习》丨 2. Regression(回归)
Author:AXYZdong
自动化专业 工科男
有一点思考,有一点想法,有一点理性!
定个小小目标,努力成为习惯!在最美的年华遇见更好的自己!
更多精彩文章前往:👉 个人主页
一、回归(Regression)
回归(Regression):找到一个函数 Function,通过输入一个特征 ,输出一个数值 。
应用举例
股市预测(Stock market forecast)
自动驾驶(Self-driving Car)
商品推荐(Recommendation)
Pokemon 精灵攻击力预测(Combat Power of a pokemon):
二、模型步骤
2.1 模型假设 - 线性模型
一元线性模型(单个特征)
模型表示:
多元线性模型(多个特征)
模型表示:
:各种特征(fetrure)
:各个特征的权重
b:偏移量
2.2 模型评估 - 损失函数
单个特征:。
定义 是进化前的 CP 值, 为进化后的 CP 值, 所代表的的是真实值。
收集 10 组真实值,有了这些真实的数据,那我们怎么衡量模型的好坏呢?从数学的角度来讲,我们使用距离。求【进化后的 CP 值】与【模型预测的 CP 值】差,来判定模型的好坏。也就是使用损失函数(Loss function) 来衡量模型的好坏。
将 和 在二维坐标中展示
图中每一个点代表着一个模型对应的 和 ;
颜色越深代表模型更优。
2.3 模型优化 - 梯度下降
单个特征:。
如何筛选出最优模型(即找出使得 Loss Function 最小的 和 )
先从最简单的只有一个参数 入手,定义
步骤 1:随机选取一个
步骤 2:计算微分,也就是当前的斜率,根据斜率来判定移动的方向
大于 0 向右移动(增加 ww)
小于 0 向左移动(减少 ww)
步骤 3:根据学习率移动
重复步骤 2 和步骤 3,直到找到最低点
对于两个参数 和 ,过程与上述的一个参数类似,需要做的也是偏微分。
梯度下降算法在现实世界中面临的挑战
问题 1:当前最优(Stuck at local minima)
问题 2:等于 0(Stuck at saddle point)
问题 3:趋近于 0(Very slow at the plateau)
在线性模型里面都是一个碗的形状(山谷形状),梯度下降基本上都能找到最优点,但是再其他更复杂的模型里面,就会遇到 问题 2 和 问题 3 。
验证模型好坏
使用训练集和测试集的平均误差来验证模型的好坏。
三、过拟合(Overfitting)
在简单的模型基础上,可以进行优化,选择更复杂的模型(一元 N 次线性模型),或者说使用多项式来拟合。
如果我们选择较高次方的模型,在训练集上面表现更为优秀的模型,在测试集上效果可能反而变差了。这就是模型在训练集上过拟合的问题。
四、正则化(Regularization)
对于更多特征,但是权重 可能会使某些特征权值过高,仍旧导致 overfitting,可以加入正则化。
五、总结
Datawhale 组队学习,李宏毅《机器学习》Task2. Regression(回归),主要包括回归的定义、创建模型的步骤、如何优化模型、优化模型过程中可能出现的问题以及使用正则化来解决过拟合的问题。
本次的分享就到这里
如果我的文章对你有帮助、如果你喜欢我的文章内容,请 “点赞” “评论” “收藏” 一键三连哦!
听说 👉 点赞 👈 的人运气不会太差,每一天都会元气满满呦!^ _ ^
码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了👉 关注 👈我哦!
如果以上内容有任何错误或者不准确的地方,欢迎在下面👇留个言。或者你有更好的想法,欢迎一起交流学习~~~
版权声明: 本文为 InfoQ 作者【AXYZdong】的原创文章。
原文链接:【http://xie.infoq.cn/article/79a1162442d85171cf1e6bb70】。文章转载请联系作者。
评论