写点什么

实用机器学习笔记一:概述

作者:打工人!
  • 2021 年 12 月 02 日
  • 本文字数:1233 字

    阅读完需:约 4 分钟

实用机器学习笔记一:概述

前言:

本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记。目前已

经看了三个视频,感觉沐神讲解的非常棒 yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的【这里只是强烈推荐一下这个课程,哈哈。因为讲的太好了】。

机器学习工作流:

工业界落地机器学习和学术界会有一些不同,学术界拿到数据集训练之后,效果有涨点,说明设计的

模型还不错,可能就写个论文发表就完事了。但是工业界要考虑很多因素,要监控上线的模型的预测结果是否符合预期,是否为业务带来了收益,用户的数据分布变化了模型是否依然可用等等问题,因此要持续监控模型的工作情况,然后不断地进行训练调整等。在工业界机器学习的落地工作流可以用下图表示:

机器学习落地工作流


从上图中我们可以看到,1. 首先要进行问题建模,不过要切记的是:不是所有的问题都可以建模为机器学习问题,有些很复杂的问题我们可以用机器学习来解决,但是有些比较简单的问题,我们却不能用机器学习来解决2. 当建模完成之后,就要收集数据,对数据进行处理,做成数据集。3. 解决就要使用数据集来训练模型,并不断微调。4. 模型训练完成之后,就要上线了,让模型服务于公司的某个业务,提高盈利。5. 但是模型上线后不能说不管了,我们还要一直监控模型的运行情况,比如预测是否准确,公司的盈利情况相比以前是否有增长等。并且由于模型是长期服务的,用户群体可能会发生变化,导致数据的分布规律发生变化,这就会影响到模型的准确率,2. 因此还要收集新的数据并处理数据对模型进行重新训练并微调。这是一个不断轮回的过程。

挑战:

  1. 问题建模:在工业中,并不是所有可以建模为机器学习的问题都要用机器学习来解决,还要考虑各种成本,只有某些业务的收入占比本来比较高,使用机器学习之后,并可以获得更高收益的,值得用机器学习来解决。也就是说解决最有价值的工业问题。

  2. 数据:信息时代,不缺数据,只缺少有用的数据,好的数据。而且数据还涉及到隐私问题。

  3. 训练模型:现在的模型是越来越大,需要的数据也是越来越多,训练成本也是越来越高。如何平衡,是一个挑战。

  4. 部署模型:繁重的计算量对于实时推理不友好。

  5. 监控:数据分布变化,公平性问题(模型是公平的,但是训练模型的数据是有偏好的)

人的角色:

领域专家:有商业领域的知识,知道哪些数据是重要的,以及如何获取,并且可以论证机器学习模型对业务的影响。

数据科学家:主要聚焦于数据挖掘,模型训练和部署。

机器学习专家:训练,选择,调整 SOTA 机器学习模型。

软件开发工程师:打通数据流,训练模型,维护模型(更换模型,重新训练模型等)和代码。

技能提升路径:

技能提升路径

主要内容:

  1. 如何收集处理数据,数据分布变化

  2. 模型验证,融合,超参数调整,迁移学习,多模态

  3. 如何部署,性能考虑,设备选择,模型蒸馏

  4. 模型公平,模型可解释性


发布于: 2021 年 12 月 02 日阅读数: 60
用户头像

打工人!

关注

打工人! 2019.11.10 加入

InfoQ年度最佳内容获得者。 InfoQ签约作者 本人打工人一枚,自动化和控制专业入坑人一枚。目前在研究深度强化学习(DRL)技术。准备入坑互联网小白一枚。喜欢了解科技前沿技术,喜欢拍照。

评论

发布
暂无评论
实用机器学习笔记一:概述