R语言解析JSON格式数据文件-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读R语言解析JSON格式数据文件

R语言解析JSON格式数据文件

2018-06-03

R语言解析JSON格式数据文件

由于分析的数据格式为JSON格式，既占空间，而且分析时也非常的不方便，所以，我们需要对JSON格式

的数据进行解析，使其符合R语言分析所需要的数据格式，如data.frame,list等。

在 R语言的包库中，已经有人对JSON格式的解析做了完整的包jsonlite，这极大地减轻了分析人员的工作压力。

jsonlite包中有以下几个函数

1、flatten

其中flatten函数是用来处理JSON中含有内嵌表格的情况，这种JSON文件解析为data.frame时，会在data.frame中

的某一列或多个列中另外包含一个data.frame。flatten函数可以将这种data.frame转换为一个2维的列表结构。通俗

点讲，就是讲内嵌表格的属性作为外置大表格的属性，组成一个维数变大了的表格。例如

上图的x表格，stats为一个内嵌表格，具有3个属性。

经过flatten（x）函数转化后，变为一个表格

2、prettify，minify

prettify是一个美化函数，对json密集的json格式，通过增加空白，对格式进行标准化，这样我们在观察json数据时会比较方便。

例如：

minify是一个压缩函数，与prettify做的事情正好相反，其效果如下

这两个函数使用都非常简单，仅需要一个JSON对象即可，可以从toJSON函数获得

3、rbind.pages

这是一个合并函数，根据官方文档的说法，它可以将多个data.frame合并为1个data.frame。

这个函数非常只能，可以自动识别多个data.frame的属性是否相同，若相同，则按行合并，若不同，则将相同的地方按行合并，不同的属性按列合并

例如：

x <- data.frame(foo = rnorm(3), bar = c(TRUE, FALSE, TRUE))
y <- data.frame(foo = rnorm(2), bar = c("blue", "red"))
rbind.pages(list(x, y))

直接按行合并了。

x <- data.frame(foo = rnorm(3), bar = c(TRUE, FALSE, TRUE))
y <- data.frame(foo = rnorm(2), col = c("blue", "red"))
rbind.pages(list(x, y))

对foo按行合并了，而col属性是按照列合并的，没有的部分用NA代替。

4、serializeJSON

将一个R的对象序列化为一个JSON数据集。

5、stream_in，stream_out

利用流文件来处理JSON格式的数据解析任务。这种方法可以针对数据量非常大的情况。

stream_in(con, handler, pagesize = 500, verbose = TRUE, ...)

其中con为一个连接对象，可以是一个网络ur，也可以是一个文件路径

handler是一个自定义函数，pagesize用来指定我们从文件中要读取的文件行数。

verbose=T，设置是否打印出处理行数

stream_out(x, con = stdout(), pagesize = 500, verbose = TRUE, ...)

x为一个需要输出为json数据集的对象，目前只支持data.frame

5、toJSON，fromJSON

与stream_in和stream_out的功能类似，toJSON是转化为JSON格式，fromJSON是将JSON格式数据集转化为

R中的格式，一般为list.

具体使用方法可以查帮助文档。

其中fromJSON在读取多行JSON数据时会报错，只能单行读取数据。

总结

进行JSON格式数据解析时，没有特殊要求，建议使用stream_in函数。如果希望按照自己的想法来解析，可以使用fromJSON

按行解析，然后对字符串按照自己的想法处理，如加密，解密等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

R语言表结构

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇横向对比分析Python解析XML的四种方式

下一篇区块链目前面临的挑战有哪些

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

R语言解析JSON格式数据文件

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】CDA透视分析核心计算方法：求和、计数、 ...

【CDA干货】客户交易价值分析：核心逻辑、分析方法 ...

从“数据仓库”到“智能取数”：CDA数据分析师视角 ...

CDA持证人专访：黄冬谈数字化运营核心与数据中台建 ...

【CDA干货】市场调查、竞品分析、需求调研的核心区 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】MySQL分表如何查询数据在哪张表？实战方 ...

【CAD干货】业务模型与逻辑模型的概念辨析及实战案 ...

从“零件”到“引擎”：CDA数据分析师视角下的指标 ...

CDA持证人专访：宋利宝谈电销行业数据运营与数据分 ...

【CDA干货】ARIMA时间序列分析方法：核心原理、建模 ...

从“通用基石”到“场景利器”：CDA数据分析师视角 ...

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载