实用机器学习笔记一:概述
前言:
本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记。目前已
经看了三个视频,感觉沐神讲解的非常棒 yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的【这里只是强烈推荐一下这个课程,哈哈。因为讲的太好了】。
机器学习工作流:
工业界落地机器学习和学术界会有一些不同,学术界拿到数据集训练之后,效果有涨点,说明设计的
模型还不错,可能就写个论文发表就完事了。但是工业界要考虑很多因素,要监控上线的模型的预测结果是否符合预期,是否为业务带来了收益,用户的数据分布变化了模型是否依然可用等等问题,因此要持续监控模型的工作情况,然后不断地进行训练调整等。在工业界机器学习的落地工作流可以用下图表示:
从上图中我们可以看到,1. 首先要进行问题建模,不过要切记的是:不是所有的问题都可以建模为机器学习问题,有些很复杂的问题我们可以用机器学习来解决,但是有些比较简单的问题,我们却不能用机器学习来解决。2. 当建模完成之后,就要收集数据,对数据进行处理,做成数据集。3. 解决就要使用数据集来训练模型,并不断微调。4. 模型训练完成之后,就要上线了,让模型服务于公司的某个业务,提高盈利。5. 但是模型上线后不能说不管了,我们还要一直监控模型的运行情况,比如预测是否准确,公司的盈利情况相比以前是否有增长等。并且由于模型是长期服务的,用户群体可能会发生变化,导致数据的分布规律发生变化,这就会影响到模型的准确率,2. 因此还要收集新的数据并处理数据对模型进行重新训练并微调。这是一个不断轮回的过程。
挑战:
问题建模:在工业中,并不是所有可以建模为机器学习的问题都要用机器学习来解决,还要考虑各种成本,只有某些业务的收入占比本来比较高,使用机器学习之后,并可以获得更高收益的,值得用机器学习来解决。也就是说解决最有价值的工业问题。
数据:信息时代,不缺数据,只缺少有用的数据,好的数据。而且数据还涉及到隐私问题。
训练模型:现在的模型是越来越大,需要的数据也是越来越多,训练成本也是越来越高。如何平衡,是一个挑战。
部署模型:繁重的计算量对于实时推理不友好。
监控:数据分布变化,公平性问题(模型是公平的,但是训练模型的数据是有偏好的)
人的角色:
领域专家:有商业领域的知识,知道哪些数据是重要的,以及如何获取,并且可以论证机器学习模型对业务的影响。
数据科学家:主要聚焦于数据挖掘,模型训练和部署。
机器学习专家:训练,选择,调整 SOTA 机器学习模型。
软件开发工程师:打通数据流,训练模型,维护模型(更换模型,重新训练模型等)和代码。
技能提升路径:
主要内容:
如何收集处理数据,数据分布变化
模型验证,融合,超参数调整,迁移学习,多模态
如何部署,性能考虑,设备选择,模型蒸馏
模型公平,模型可解释性
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/d2226ad9c781f391d0abab4e3】。文章转载请联系作者。
评论