R语言学习系列之本地数据获取-CDA数据分析师官网

热线电话：13121318867

R语言学习系列之本地数据获取

2018-06-30

R语言学习系列之本地数据获取

任何数据分析工作之前，都得把数据先读取进来你才能进行后续的分析工作。所以本文简要介绍在R中如何对本地文件进行获取，希望可以给刚刚接触R语言的同学一点启发。
一、控制台的输入与输出
何为控制台的输入与输出呢？你可以简单的理解成在屏幕上进行操作让数据可以直接输入或输出的方法。
一般输入时采用readline（）函数与scan（）函数，它们的区别如下：

如上我们可以发现这两个函数的区别，readline（）只能输入单个数据，可以为数值也可以为字符串，并且最后会将输入的数据转化为字符串的格式。而scan（）可以输入多个数据，但只能是数值，最后会以数值型输出。
一般输出时采用print（）与cat（）的方法，两个方法的区别是cat（）可以将内容粘合起来。如下所示：

如上可以比较，print（）就是直接打印，与别的语言打印语句一致。此外，我们建立一个文件链接，文件名为output.txt，之后再用cat（）向文件输出数据并且使用制表符‘/t’将内容粘合起来。最后关闭文件链接。才看本地文件存入地址。结果如下：

二、数据表的读写

我们还是使用自带的iris数据集做测试，使用write.table（）写入数据，命名为iris.csv ，再使用read.table（）将数据集读回来赋给变量data。
在读数据时有两个小技巧：1、当你在读其他路径下的文件时可以采用
read.table(file.choose(),sep = ',')
这样的方法，R会自动弹出一个选择文件框供你选择。2、Windows操作系统下可以直接对需要的数据部分在Excel中复制然后在R中读取。
data <- read.table('clipboard')
注意此方法适用于小数据集，因为计算机的剪切板容量是有限的。
三、数据库的读写
有时候会出现需要读取MySQL数据库中的数据，这里提供给你一些方法与思路。具体如何去操作百度文库里面多得飞起，我就不一一介绍了（好吧，我还是懒！！！）
有两种方法：1、你可以直接将数据库中的数据写个sql语句读出来存入csv文件，再用之前的方法进行读取。2、R也提供直接能够操作数据库的包‘RODBC’。首先你要安装‘RODBC’包，之后下载MySQL ODBC 驱动，再配置ODBC。一切搞定后在R中调用‘RODBC’包，输入数据库访问参数，再写一个sql语句将你需要的数据读出来即可。
四、读取Excel文件
这里总结一下之前读取Excel文件的方法再介绍一个个人认为比较好用的包‘openxlsx’。这个包的读取速度比较快。
读取Excel文件的方法有：1、数据小时，可以使用直接复制在R中采用‘clipboard’的方法，注意此方法适用于Windows用户。2、数据大的时候，将Excel文件存为csv文件再用read.table（）的方法进行读取。3、若想直接读写，可以调用‘openxlsx’包
library(openxlsx)
data <- read.xlsx(file.choose(),sheet = 1)
五、如何读取SPSS，SAS中的数据文件
当需要读取SPSS，SAS中的数据时，推荐使用‘foreign’包，其中有大量读取外部数据的函数。
library(foreign)
statadata <- read.dta('c/temp/statafile.dta')
spssdata <- read.spss('c/temp/spssfile.sav')
sasdata <- read.xport('c/temp/sasfile.xpt')