写点什么

实用机器学习笔记九:数据部分总结

作者:打工人!
  • 2021 年 12 月 10 日
  • 本文字数:657 字

    阅读完需:约 2 分钟

实用机器学习笔记九:数据部分总结

前言:


本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。

数据处理流程:


根据下图,在实际工业场景中,开启是一个机器学习应用之后,整个路程是一个不断迭代的过程,整个流程闭环了。在第一次开启应用时,首先是要收集足够的数据,然后对其进行标注,接着进行数据处理,最后训练模型。当训练好的机器学习模型上线之后,它会对业务作出决策等结果,然后会收到用户的反馈,根据模型的精度等监控指标,还要不断收集新的数据,然后对其进行处理,再进行模型的微调,不断重复上述过程,模型会越来越准确,和业务契合度也会越来越高。


数据处理流程

数据方面的挑战:


  • 数据量和标注质量的权衡:

在数据方面也会有挑战:数据量和标注质量之间的平衡。


不同的机器学习问题对以上两个方面的要求不完全一样,特别是深度学习模型,他不仅要求有一定高质量的标注数据,而且数据量的大小和丰富度也很重要。因此,应根据实际情况来平衡两者之间的关系。

  • 数据质量:

  • 多样性:数据集中应包含主题的方方面面。比如无人驾驶的数据集,不同的天气情况和道路场景都应该包含。

  • 数据集非偏:数据集没有对某个方面的偏向性。比如前面提到的房子数据集,收集的都是斯坦福附近的,因此训练出来的模型只适合斯坦福附近的情况,数据集是有偏向的。

  • 公平性:没有区别对待某些特定的人或事物。

  • 大数据的管理:在·实际工业场景中,整个机器学习流程是一个不断迭代的过程,会不断收集添加新的数据,数据会越来越多。因此,数据的存储、处理、版本控制、数据安全都是挑战。


发布于: 4 小时前阅读数: 6
用户头像

打工人!

关注

打工人! 2019.11.10 加入

InfoQ年度最佳内容获得者。 InfoQ签约作者 本人打工人一枚,自动化和控制专业入坑人一枚。目前在研究深度强化学习(DRL)技术。准备入坑互联网小白一枚。喜欢了解科技前沿技术,喜欢拍照。

评论

发布
暂无评论
实用机器学习笔记九:数据部分总结