实用机器学习笔记九:数据部分总结
前言:
本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。
数据处理流程:
根据下图,在实际工业场景中,开启是一个机器学习应用之后,整个路程是一个不断迭代的过程,整个流程闭环了。在第一次开启应用时,首先是要收集足够的数据,然后对其进行标注,接着进行数据处理,最后训练模型。当训练好的机器学习模型上线之后,它会对业务作出决策等结果,然后会收到用户的反馈,根据模型的精度等监控指标,还要不断收集新的数据,然后对其进行处理,再进行模型的微调,不断重复上述过程,模型会越来越准确,和业务契合度也会越来越高。
数据方面的挑战:
数据量和标注质量的权衡:
在数据方面也会有挑战:数据量和标注质量之间的平衡。
不同的机器学习问题对以上两个方面的要求不完全一样,特别是深度学习模型,他不仅要求有一定高质量的标注数据,而且数据量的大小和丰富度也很重要。因此,应根据实际情况来平衡两者之间的关系。
数据质量:
多样性:数据集中应包含主题的方方面面。比如无人驾驶的数据集,不同的天气情况和道路场景都应该包含。
数据集非偏:数据集没有对某个方面的偏向性。比如前面提到的房子数据集,收集的都是斯坦福附近的,因此训练出来的模型只适合斯坦福附近的情况,数据集是有偏向的。
公平性:没有区别对待某些特定的人或事物。
大数据的管理:在·实际工业场景中,整个机器学习流程是一个不断迭代的过程,会不断收集添加新的数据,数据会越来越多。因此,数据的存储、处理、版本控制、数据安全都是挑战。
版权声明: 本文为 InfoQ 作者【打工人!】的原创文章。
原文链接:【http://xie.infoq.cn/article/f89f336ef589a81ced0b7263d】。文章转载请联系作者。
评论