手把手教你用R语言读取CSV文件-CDA数据分析师官网

手把手教你用R语言读取CSV文件

2020-08-24

作者：Jared P. Lander

来源：大数据DT（ID：hzdashuju）

编自：《R语言：实用数据分析和可视化技术》（原书第2版）

读取CSV文件最好的方法是使用read.table函数，许多人喜欢使用read.csv函数，该函数其实是封装的read.table函数，同时设置read.table函数的sep参数为逗号(",")。read.table函数返回的结果为data.frame。

read.table函数的第一个参数为文件所在路径，可以是本地文件，也可以是网页上的文件。本书主要是从网页读取文件。

任意CSV文件都可以读取，这里使用read.table函数读取一个简单的文件（地址如下）：

http://www.jaredlander.com/data/TomatoFirst.csv

> theUrl <-"http://www.jaredlander.com/data/TomatoFirst.csv"
> tomato <-read.table(file=theUrl, header=TRUE, sep=",")

利用head命令，我们可以看到下面的结果。

> head(tomato)

如前面所述，第一个参数是文件名（或字符型变量）。注意我们如何显式地使用参数名file、head和sep。函数的参数能够按位置顺序赋值，而不用显式指定参数名，但指定参数名是最佳实践。

第二个参数header，表示数据的第一行，即列名。第三个参数sed，表示数据的分隔符。可以设为“\t”（tab分隔符）或者“;”（分号分隔符），以读取不同类型的文件。

常用但不被熟知的参数是stringAsFactors。将该参数设为FALSE（默认是TRUE）可使字符所在列不被转换成factor列。这样既节省计算时间（当大数据集包含许多字符列，也意味着有许多唯一值），又能保留列为字符。

stringAsFactors参数也可以用在data.frame中。再次创建“Sport”列。

> x <- 10:1
> y <- -4:5
> q <- c("Hockey", "Football", "Baseball", "Curling", "Rugby",
+        "Lacrosse", "Basketball", "Tennis", "Cricket", "Soccer")
> theDF <-data.frame(First=x, Second=y, Sport=q, stringsAsFac=FALSE)
> theDF$Sport

read.table函数还有许多参数，最常用的是quote和colClasses参数，分别设置字符的包围符和每列的数据类型。

类似read.csv函数，也有其他用于read.table的封装函数，也有默认参数。它们主要的区别是sep和dec参数。详细情况见表6-1。

▲表6-1 读取大文本文件的函数及其默认参数

大文件使用read.table函数读取到内存比较慢，幸运的是有解决方案。读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread，前者在readr包中由Hadley Wickham实现，后者在data.table包中由Matt Dowle实现。read_delim和fread运行相当快，因为两者都不把字符数据自动转换成factor。

01、 read_delim函数

readr包提供读取文本文件的一系列函数。最常用的是read_delim函数，读取有分隔符的文件，比如CSV文件。该函数的第一个参数是读取的文件路径或者URL。col_names默认为TRUE，指定文件的第一行为列名。

> library(readr)
> theUrl <- "http://www.jaredlander.com/data/TomatoFirst.csv"
> tomato2 <- read_delim(file=theUrl, delim=',')
Parsed with column specification:
  cols(
    Round = col_integer(),
    Tomato = col_character(),
    Price = col_double(),
    Source = col_character(),
    Sweet = col_double(),
    Acid = col_double(),
    Color = col_double(),
    Texture = col_double(),
    Overall = col_double(),
    `Avg of Totals` = col_double(),
    `Total of Avg` = col_double()
  )

read_delim函数执行后会打印列名和数据类型信息，这些信息也可以使用head.read_delim函数获得。

readr包中的所有数据提取函数返回的是tibble，该数据类型是data.frame的扩展。最明显的变化是打印的元数据，比如行列数和每列的数据类型。tibble会适应屏幕大小打印相应条数的行列数据。

> tomato2

read_delim函数不仅仅读取速度比read.table函数快，而且不需要设置stringAsFactors参数为FALSE。read_csv、read_csv2和read_tsv函数是read.table函数分隔符分别为逗号（,）、分号（;）和tab（\t）的特殊情况。

注意，数据读取为tbl_df对象，它是tbl的扩展，也是data.frame的扩展。tbl是data.frame的特殊类型，它在dplyr包中定义。每列的数据类型显示在列名的下面，这是个很好的功能。

readr包有一些对read_delim函数封装（预置分隔符）的辅助函数，比如read_csv函数和read_tsv函数。

02 、fread函数

另一个读取大量数据的函数是data.table包的fread函数。第一个参数是读取的文件路径或者URL。header参数表示文件的第一行是列名，sep指定分隔符。该函数的stringAsFactors参数默认设为FALSE。

> library(data.table)
> theUrl <- "http://www.jaredlander.com/data/TomatoFirst.csv"
> tomato3 <- fread(input=theUrl, sep=',', header=TRUE)

这里也可以使用head函数查看前几行数据：

> head(tomato3)

该函数读取速度比read.table函数快，结果为data.table对象。data.table对象是data.frame的扩展，其是data.frame的优化。

read_delim或者fread函数读取文件都非常快，具体使用哪个函数取决于dplyr或者data.table包中哪个更适合数据处理。

关于作者：贾里德 P. 兰德（Jared P. Lander），资深数据专家，Lander Analytics公司创始人兼CEO，纽约开放统计编程聚会负责人，哥伦比亚大学统计学兼职教授。在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据 R语言机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇员工一言不合就离职怎么破？我有python员工流失预警模型

下一篇疫情之下，百年名校说倒就倒，教师还是“铁饭碗”吗？

手把手教你用R语言读取CSV文件

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...