用R语言把超大文本文件拆分成几个小文本文件-CDA数据分析师官网

用R语言把超大文本文件拆分成几个小文本文件

2018-07-08

用R语言把超大文本文件拆分成几个小文本文件

近一段时间一直在研究一些医院的数据。前两天遇到一个尴尬：想打开一个仅有3G左右的文本文件（有时候必须要打开，直接传到数据库满足不了需求），破电脑（4G内存的电脑）就是打不开（用的Notepad++）。就是这造型：

上网搜了一些方法，下了一些比较不常用的文本处理工具和其它工具，也不理想。得知好多人在许多场景都需要打开或者拆分8G甚至10G以上的文本文件，于是想着自己研究一下。下面就是我用R来拆分大文本的过程，虽然方法比较笨，但是简单轻巧、思路清晰。

1.首先把你想要拆分的大文本文件放到R的当前工作目录下。我的文件名在这里叫details.txt。

2.用函数split_file()来拆分大文本文件。

split_file()函数是自定义的一个函数，用来拆分超大文本文件。

它总共有两个参数filename和eachfile_lines_num，即split_file(filename，eachfile_lines_num)。

filename是指需要拆分的超大文本的名字，eachfile_lines_num是指拆分完的每一个文件中有多少行数据。

split_file()会返回一个数值，代表了总共拆分成的小文本的数量。

split_file()拆分出来的文件会放置在R当前的工作目录下。

使用如：split_file("details.txt",1000000)，它把名为details.txt的超大文本文件拆分为每个文件只有1000000行的一个个的小文本文件。

split_file()的细节：

	    file_split <- function(filename,eachfile_lines_num){                               #建立函数
    c <- file(filename,"r")                                                    #建立链接
    varnames <- paste("splitfile", 1:1000, sep = "_")                          #建立尽可能多但不要太多的动态变量名
    i <- 1 #初始值
    while(TRUE){
    assign(varnames[i],value = readLines(c,n = eachfile_lines_num))    #分别把从filename中读出来的数据存放在变量中
    write.table(get(varnames[i]),paste(varnames[i],".txt",sep = ""))   #分别把存放在变量中的数据写出到文件中
    if (length(get(varnames[i])) < eachfile_lines_num) break 
    else i <- i + 1 #判断循环停止条件
    }
    return(i)                                                                  #返回文件数量
    }

我执行完file_split("details.txt",500000)之后得到了30多个文件：

3.对拆分的文件进行处理。由于过程中用到了readLines()，因此拆出来的文件每一行是一个字符串，有引号。这好像不符合要求，只需用Windows记事本或notepad++或其他文本处理应用处理一下就行。在notepad++中执行“搜索 -> 替换”把双引号替换成\0就行了。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇准确真实数据决定信息化价值

下一篇基于大数据的视觉搜索应用与组织模式研究

用R语言把超大文本文件拆分成几个小文本文件

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介