写点什么

R 语言之处理大型数据集的策略

作者:timerring
  • 2023-08-28
    山东
  • 本文字数:2445 字

    阅读完需:约 8 分钟

文章和代码已经归档至【Github 仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 R 语言 也可获取。


在实际的问题中,数据分析者面对的可能是有几十万条记录、几百个变量的数据集。处理这种大型的数据集需要消耗计算机比较大的内存空间,所以尽可能使用 64 位的操作系统和内存比较大的设备。否则,数据分析可能要花太长时间甚至无法进行。此外,处理数据的有效策略可以在很大程度上提高分析效率。

1. 清理工作空间

为了在数据分析时获得尽可能大的内存空间,建议在启动任何新的分析项目时,首先清理工作空间。


# rm(list = ls(all = TRUE))
复制代码


函数 ls( ) 用于显示当前工作空间中的对象,其中参数 all 默认为 FALSE,这里设为 TRUE 是为清除包括隐藏对象在内的所有对象。


此外,在数据分析的过程中,对于临时对象和不再需要的对象,使用命令 rm(object1,object2, …) 及时将它们清除。

2. 快速读取.csv 文件

.csv 文件占用空间小,可以由 Excel 查看和生成,因此被广泛运用于存储数据。在前面里介绍的函数 read.csv( ) 可以很方便地读取 .csv 文件。但是,对于大型数据集,该函数读取数据的速度太慢,有时甚至会报错。这时,可以使用 readr 包里的 read_csv( ) 函数或者 data.table 包里的 fread( ) 函数读入数据,其中后者的读取速度更快(大约为前者的两倍)


data.table 包提供了一个数据框的高级版本,大大提高了数据处理的速度。该包尤其适合那些需要在内存中处理大型数据集(比如 1GB~100GB)的用户。不过,这个包的操作方式与 R 中其他包相差较大,需要投入一定的时间学习。

3. 模拟一个大型数据集

为了便于说明,下面模拟一个大型数据集,该数据集包含 50000 条记录、200 个变量。


bigdata <- as.data.frame(matrix(rnorm(50000 * 200), ncol = 200))# 使用了嵌套的两个 for 循环语句和 R 的内置常量 letters(小写英文字母)为 200 个变量命名。varnames <- NULL# 外面一层循环语句构建变量名的第一个字符(a~t)for (i in letters[1:20]) {# 里面一层循环语句把数字 1~10 用 `_` 作为分隔符分别连接到这些字母上。  for (j in 1:10) {  # 函数 paste( ) 用于连接字符串。    varnames <- c(varnames, paste(i, j, sep = "_"))  }}names(bigdata) <- varnamesnames(bigdata)
复制代码


如果你不太想使用多个循环,可以考虑


# 可惜 apply 此处会导致多余的空格# apply(expand.grid(1:20, letters[1:20]), 1, function(x) paste(x[2], x[1], sep="_")) # sprintf("%s_%s", expand.grid(1:10,letters[1:20])[,2],expand.grid(1:10,letters[1:20])[,1])
# 或者# as.vector(t(outer(letters[1:20], 1:10, paste, sep="_")))
复制代码

4. 剔除不需要的变量

在进行正式的分析之前,我们需要把暂时用不上的变量剔除以减少内存的负担。dplyr 包的 select 系列函数在这里可以派上用场,尤其是将这些函数与 tidyselect 包的 starts_with( )、ends_with( ) 和 contains( ) 等函数联合使用会带来诸多便利。


先加载这两个包:


library(dplyr)library(tidyselect)
复制代码


接下来举例说明如何使用 select 系列函数选择或剔除变量。


subdata1 <- select(bigdata, starts_with("a"))names(subdata1)# 'a_1''a_2''a_3''a_4''a_5''a_6''a_7''a_8''a_9''a_10'subdata2 <- select(bigdata, ends_with("2"))names(subdata2)#'a_2''b_2''c_2''d_2''e_2''f_2''g_2''h_2''i_2''j_2''k_2''l_2''m_2''n_2''o_2''p_2''q_2''r_2''s_2''t_2'
复制代码


函数 starts_with( ) ends_with( ) 分别表示变量的前缀和后缀。在上面的命令中,subdata1 选取了数据集里所有以 a 开头的变量,而 subdata2 选取了数据集里所有以 2 结尾的变量。


如果要选取所有以 ab 开头的变量,可以使用下面的命令:


# subdata3 <- select(bigdata, c(starts_with("a"), starts_with("b")))subdata3 <- select_at(bigdata, vars(starts_with("a"), starts_with("b"))) # 注意跟 select 语法稍有不同names(subdata3)
复制代码


要选择变量名里包含某些字符的所有变量,可以借助函数 contains( ) 实现。例如,要选择包含字符 1 的所有变量,可以输入下面的命令:


# subdata4 <- select(bigdata, c(contains("1")))subdata4 <- select_at(bigdata, vars(contains("1")))names(subdata4)
复制代码


需要注意的是,所有以 10 结尾的变量也是包含字符 1 的。


如果要剔除某些变量,只需要在函数 starts_with( )、ends_with( ) 和 contains( ) 前面加上 - 号。例如,要剔除以 15 结尾的变量,可以使用下面的命令:


# subdata5 <- select(bigdata, c(-contains("1"), -contains("5")))subdata5 <- select_at(bigdata, vars(-contains("1"), -contains("5")))names(subdata5)
复制代码

5. 选取数据集的一个随机样本

对大型数据集的全部记录进行处理往往会降低分析的效率。在编写代码时,可以只抽取一部分记录对程序进行测试,以便优化代码并消除 bug。


# 参数 size 用于指定行的个数sampledata1 <- sample_n(subdata5, size = 500)nrow(sampledata1)# 参数 size 用于指定占所有行的比例。sampledata2 <- sample_frac(subdata5, size = 0.02)nrow(sampledata2)# 500# 1000
复制代码


函数 sample_n( ) 和 sample_frac( ) 都用于从数据框中随机选取指定数量的行,前者中的参数 size 用于指定行的个数,而后者中的参数 size 用于指定占所有行的比例。


需要说明的是,上面讨论的处理大型数据集的策略只适用于处理 GB 级的数据集。不论用哪种工具,处理 TB 和 PB 级的数据集都是一种挑战。R 中有几个包可以用于处理 TB 级数据集,例如 RHIPE、RHadoop 和 RevoScaleR 等。这些包的学习曲线相对陡峭,需要对高性能计算有一定的了解,有需求的话你可以自行探索,这里不做介绍。


sample_n() 和 sample_frac() 即将退休,包文档中推荐改用 slice_sample( ),用法可查看此处


# 使用 slice_sample( ) 进行处理sampledata1 <- slice_sample(subdata5, n = 500)nrow(sampledata1)sampledata2 <- slice_sample(subdata5, prop = 0.02)nrow(sampledata2)
复制代码


发布于: 2023-08-28阅读数: 17
用户头像

timerring

关注

公众号【AIShareLab】 2022-07-14 加入

他日若遂凌云志

评论

发布
暂无评论
R语言之处理大型数据集的策略_R 语言_timerring_InfoQ写作社区