白话机器学习:什么机器学习模型?
本文适合人群:对机器学习与数据感兴趣的行业外学习者
文章同步公众号:持续学习的杜吉普
本文白话什么:
模型,分类模型,回归模型,监督学习,非监督学习,算法
要想知道什么时候机器学习模型,是不是要先知道什么是机器学习?先不用。
为什么要写这样一篇科普是来源我的个人对于整个行业的认知过程轨迹。在还没有进入行业之前,让我最疑惑的就是数据科学家口中所说的“模型”究竟是什么?所以我觉得我有必要上来就先聊聊什么是“模型”。
1. 什么是模型?
什么是模型?开门见山,用最简单的话来讲就是一个数据中转处理站。输入进中转站的东西是数据,输出的东西是我们想要的结果。而不同的模型他们所使用的场景不同,输入的数据也不同。
1.1 分类模型
从垃圾站铲一桶垃圾,放到我的中转处理站里, 最后经过中转处理站的垃圾被很好的进行了自动化的垃圾分类。那么这样的中转站就叫做分类模型。
1.2 回归模型
同样从垃圾站里铲一桶垃圾,放到我的中转处理站里,但是这回,我的中转处理站不对垃圾进行分类了,而是告诉我每一个垃圾的回收价格是多少。那么这样的中转站就叫做回归模型。对于数值进行预测。
总结一下分类模型和回归模型的本质区别,一个是预测“数值”,一个是预测“类别”,数值是连续的,并且具有数字属性的数。类别就是能够进行分类的类,在统计学上,0 代表男性,1 代表女性,虽然表现形式是数字,但是他们也是“类别”。
2. 训练模型的方法 1:监督学习
那么中转站是如何变得如此智能的?经过了一定程度的学习,中转站的学习方式非常简单——监督学习,我先从垃圾回收站铲出一堆已经进行了由回收站大爷人工分好类的垃圾:干垃圾,湿垃圾,可回收垃圾。然后一个个的将这些垃圾拿给中转站看(这里可以将中转站想象成一个小朋友),接着我用手指着水瓶,然后告诉他, 这个,是可回收垃圾,然后拿出另一个易拉罐告诉他,这个也是可回收垃圾,然后我拿出一条烂菜叶告诉他,这个是湿垃圾。一次往复,每一种垃圾我都向他展示了很多遍,于是他也就慢慢的记住了每一种垃圾的特征。下一次我再随便拿着一个垃圾,他就会回想起我苦口婆心向他展示垃圾的场面,并能够给我一个反馈,告诉我这个新垃圾属于什么类别。
监督学习大概就是上图所示
同样,对于废品价格预测中转站,我只需要告诉他每种垃圾的价格,并且一个一个的向其展示,这个过程就能够让他学习到不同特征废品的价格定价,以此来达到预测新废品回收价格的目的。
很明显,我向他展示的垃圾越多,他学习的质量也就越高,之后为新垃圾进行分类或者对回收价格的预测的可靠性也就越强。
3. 训练模型的方法 2:非监督学习
非监督学习一般用于 cluster 聚类算法,此算法大量的运用在推荐系统,或者是 Customer Segmentation 中;说句人话就是让电脑根据数据的特征,自动的将所有数据归类。例如:给你一些猫猫狗狗的图片,计算机通过猫猫狗狗的不同特征,例如耳朵形状,眼睛大小等特征自动将图片分成两个类别,在整个分类过程中,我们并没有人为为图片打标签(label),告诉哪些机器哪些是猫,哪些是狗,全靠特征的不同自己学习。
就如同婴儿认知世界一样,带着婴儿第一次去宠物商店,他不认识这些宠物,但是通过大量的对宠物的观察,他们虽然不知道哪些叫做猫,哪些叫做狗,哪些叫做乌龟,但是他们肯定能大概根据这些动物的不同特征长相区分出宠物商店有哪几种动物,这个过程就是如同非监督学习。
一些例子
房价预测:将一些房产数据,例如材质,楼层,地区,户型等数据作为输入,输出房屋价格。此为回归模型。
满意度预测:将用户行为数据,交易数据,用户画像数据作为输入,来预测用户对于我们的服务是否满意。此为分类模型。
二手车价预测:将汽车品牌,行驶数据,生产数据,损耗数据等作为输入,来预测二手车的价格。此为回归模型。
心脏病预测:将病人的体检指标数据作为输入,来预测病人是否患有心脏病,此为分类模型。
对于行话来说,模型其实就是 blackbox,这个黑盒能够很好的处理数据,并且将数据转化成我们所要达成的目的结果(预测的结果,分类的结果,聚类的结果)。
4. 什么是算法
算法就是上面这幅图中间的 box,他决定着整个模型能够实现的功能。不同算法可以实现相同的功能,但是原理完全不一样,就如同不同的建筑结构都能够盖成大楼,但是有的是钢筋混凝土,有的是榫卯,有的是木质,虽然算法不同但是要达成的目的相同。
例如:分类是我们要达成的目的,但是分类算法有很多,你可以选择其中一个去实现这个目的,也可以使用多个,融合之后去达到这个目的(模型融合,后面会讲)。分类有分类的算法们,回归预测有回归的算法们,不同的算法之所以不同是因为他们适用于不同的情况下,在后面讲述不同算法时会详细说到他们的应用条件。
--------分割线-------后面听不懂也没有关系-------
当然,我们现在所追求的更多是 responsible ML,也就是可解释机器学习,因为在现实商业中,我们想通过 ML 做的不只是实现结果,还要知道为什么能够实现这个结果。例如在预测满意度时,单单预测满意度并不能给公司带来巨大的价值,ML 这时存在的价值应该是识别出哪些因素能够很好的影响预测结果,影响的强度和正负性是怎样的?公司可以根据这些因素很好的来改善自己服务体系,更好的获取更高的客户满意度。
关于 Responsible ML 的内容,会在比较后期进行讲解,从 Tree Based model 开始会开始涉及 Responsible ML,因为这个概念也是刚刚兴起,所以是一个十分具有价值与发展潜力的部分。
白话 ML 就到这里,下期预告:线形回归算法/模型(一种预测“数(value)”的简单模型)
PS:有任何疑问欢迎留言,本文完全个人浅薄理解,如有缺点欢迎指正
欢迎通过公众号与我取得联系
版权声明: 本文为 InfoQ 作者【杜吉普】的原创文章。
原文链接:【http://xie.infoq.cn/article/8cb869911e98996a898a1c99e】。文章转载请联系作者。
评论