写点什么

实用机器学习笔记二:数据获取

作者:打工人!
  • 2021 年 12 月 03 日
  • 本文字数:1286 字

    阅读完需:约 4 分钟

实用机器学习笔记二:数据获取

前言:

本文是个人在 B 站自学李沐老师的实用机器学习课程【斯坦福 2021 秋季中文同步】的学习笔记,感觉沐神讲解的非常棒 yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及会遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的。

数据获取:

当一个问题建模为机器学习问题之后,就要进行训练了,这就需要大量的数据。那么如何获取数据呢?请看流程图:

数据获取

从上面的流程图中,我们可以看出当没有足够的数据时,我们可以尝试寻找额外的其他数据,并整合到一起作为数据集。如果没有办法获得其他额外的数据,我们还可以使用数据生成方法来增加数据,比如:数据增强(旋转、拉伸等)以及使用 GAN 来生成相似的数据(这就要考虑成本的问题)。

常用数据集:

  - 维基百科中关于数据集的列表 https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 其中收录了一系列的数据集
- MNIST: 手写数字数据集 http://yann.lecun.com/exdb/mnist/
- imageNet : 大规模图片数据集 https://www.image-net.org/
- AudioSet: 油管的声音片段数据 https://research.google.com/audioset/
- Kinetic : 油管人类动作视频片段 https://deepmind.com/research/open-source/kinetics
- KITTI : 无人驾驶数据集 http://www.cvlibs.net/datasets/kitti/
- Amazon Review: 亚马逊用户评价数据 https://s3.amazonaws.com/amazon-reviews-pds/readme.html
- SQuAD: 维基百科问答 https://rajpurkar.github.io/SQuAD-explorer/
- LibriSpeech : 有声书数据集 https://www.tensorflow.org/datasets/catalog/librispeech - Paperswithcodes Datasets : 主要是一些学术文章的常用的数据集 https://paperswithcode.com/datasets - Kaggle Datasets : 机器学习竞赛常用的数据集,用户也会上传自己制作的数据集 https://paperswithcode.com/datasets - Google DataSet search: 实际上是一个搜索引擎,会把网页上的各种数据集搜索出来(需要梯子) https://datasetsearch.research.google.com/ - tensorflow : 深度学习框架里面会自带一些常用的数据集 - huggingface : 专注于做文本transformer模型的数据库 https://huggingface.co/datasets - 一些科技竞赛特别是公司会提供数据集 - Open Data on AWS : 放在亚马逊上的一些原生数据,不如美国气象卫星的数据,通常数据里很大,T来计算 https://registry.opendata.aws/ - 本公司的数据湖
复制代码

数据集优缺点比较:

数据集比较

数据融合:

首先要弄明白我们为什么要对数据进行融合?通常情况下,我们的数据都是放在数据库中,比如 MySQL 中,就会有很多数据表,不同类型的数据放在不同的表中(便于数据更新维护),当我们要做数据集的时候就需要把不同类型的数据查询出来并放在一块,这就是数据融合,一般需要用到 SQL 语句。另外在做数据融合时,还要注意不同的表中数据的单位不一致问题,比如美元和人民币等。

发布于: 2 小时前阅读数: 7
用户头像

打工人!

关注

打工人! 2019.11.10 加入

InfoQ年度最佳内容获得者。 InfoQ签约作者 本人打工人一枚,自动化和控制专业入坑人一枚。目前在研究深度强化学习(DRL)技术。准备入坑互联网小白一枚。喜欢了解科技前沿技术,喜欢拍照。

评论

发布
暂无评论
实用机器学习笔记二:数据获取