Pandas+Numpy+Sklearn 随机取数

公众号:尤而小屋<br>作者:Peter<br>编辑:Peter
大家好,我是 Peter~
本文记录的是如何使用 Python、pandas、numpy、scikit-learn 来实现随机打乱、抽取和切割数据。主要的方法包含:
sample
shuffle
np.random.permutation
train_test_split

导入数据
In [1]:
复制代码
内置数据
采用的是 plotly 库中内置的一份消费数据集:
In [2]:
复制代码

基本信息
In [3]:
复制代码
Out[3]:
复制代码
In [4]:
复制代码
Out[4]:
复制代码
sample 实现
行方向
In [5]:
随机抽取一行记录:
复制代码

随机抽取多行数据:

通过参数 frac 实现按照比例随机抽样:
复制代码

列方向
主要是选择不同数量或者比例的属性;整体的行数量是不变的
In [8]:
复制代码

shuffle 实现
scikit-Learn 的 shuffle
In [9]:
复制代码
In [10]:
复制代码

random 模块的 shuffle
In [11]:
复制代码
Out[11]:
复制代码
In [12]:
复制代码
In [13]:
复制代码
Out[13]:
复制代码
In [14]:
复制代码

numpy 实现
In [15]:
复制代码
Out[15]:
复制代码
In [16]:
复制代码

train_test_split 实现
复制代码
In [18]:
第一份数据是 80%的:
复制代码

剩余的 20%的数据:

版权声明: 本文为 InfoQ 作者【Peter】的原创文章。
原文链接:【http://xie.infoq.cn/article/4342edc05a5dc437ff162a6dc】。文章转载请联系作者。
评论