R 语言之数据导出
文章和代码已经归档至【Github 仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 R 语言 也可获取。
1. 导出数据
由于 R 主要用于数据分析,导入文件比导出文件更常用,但有时我们也需要将数据或分析结果导出。函数 write.table( )
和 write.csv( )
可以分别将数据导出到一个 .txt 文件和 .csv 文件。
此外,函数 save( )
可以将工作空间中的指定对象保存为以 .rdata
为扩展名的 R 数据文件。例如:
rdata 格式文件占用空间小,用 R 读入速度很快。因此,建议用户在导入其他格式的数据并整理好后,将其保存为 rdata 格式。要导入这种格式的数据,只需调用 load( )
函数。
2.用 rio 包导入和导出数据
R 中的 rio 包以提供一个类似万能工具的包为目标,用统一的 import( )
函数和 export( )
函数简化了用户导入和导出数据的工作。此外,该包里的 convert( )
函数可以实现不同文件格式之间的转换。rio 包支持多种文件格式,包括 SAS、SPSS、Stata、Excel、MATLAB、Minitab 等其他软件中使用的数据文件格式。
下面以 datasets 包里面的数据集 infert 为例介绍 rio 包的几个常用功能。
当你在本地加载 rio 包时,如果 R 提示有些建议安装的包没有安装,可以运行
install_formats( )
命令进行安装。
函数 str( )
常用于查看数据集的大小(观测的记录数及变量个数),以及各个变量的类型。从上面的输出可以看出,infert 是一个包含 248 个观测记录、每个记录有 8 个变量的数据框。
运行下面的命令将此数据框导出为 .csv 文件:
在当前工作目录中可以找到刚才导出的名为 infert.csv
的数据文件。运行下面的命令将该文件从 .csv 文件转换成 .sav 文件:
然后用函数 import( )
把上面生成的 .sav 文件导入 R 中,并命名为 infert.data:
比较原始的 infert 数据集和导入的 infert.data 数据集,除了第一个变量 education 的类型不一样,其余没有差别。在 R 中,as 系列函数可以用于实现变量类型的转换。
例如,这里将数据框 infert.data 中的字符型变量 education 转换为因子:
版权声明: 本文为 InfoQ 作者【timerring】的原创文章。
原文链接:【http://xie.infoq.cn/article/c146003b481fa757d649c4f57】。未经作者许可,禁止转载。
评论