一个使用R语言做数据处理的实例-CDA数据分析师官网

热线电话：13121318867

一个使用R语言做数据处理的实例

2017-04-21

最近一个同学找到我，希望我帮忙处理一份数据。那份数据是这样的：包含了3661行，第一行为各列的名称；包含8列，第一列为专利ID，其余7列为企业ID。

这份数据截图如下所示：

一、问题描述

需要做的数据处理是，求所有专利之间的关系矩阵，这里的关系指的是：当同一个企业同时申请了两个不同的专利，那么就认为这两个专利是有关系的。也就是说，当两个专利对应的企业的集合存在交集，则认为这两个专利存在关系。需要用矩阵表达这3660个专利的相互关系，有关系的两个专利交叉的位置置为1，否则置为0。

比如，上图中的编号4和编号5对应的企业的集合显然存在交集（交集为94和115），那么最终的关系矩阵第四行第五列和第五行第四列就应当用1表示。如果数据就是上边那样的，那么最终输出的关系矩阵就应该为：

二、问题解决

可能因为有段时间没有使用R了，加上之前又正好在用awk, grep, bash这些，所以一直想使用这些工具来解决。不过，想了很久，依然进展不大（主要是许久不用大多也忘了o(╯□╰)o）。后来看到压在桌面上的《R语言实战》，想到这里需要的输出是矩阵，而且主要的逻辑判定为是否有交集，这些不正是R大展拳脚的地方吗？！

于是先用伪代码将整个逻辑梳理了一遍，然后照着伪代码开始写R脚本。由于逻辑并不复杂，所以很快便写好了，代码如下：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

代码是很快写好了，不过执行速度确慢得难以忍受。无奈，找了个办法来缓解下焦急等待程序跑完的心情。到统计之都找到一个用在循环里显示进度条的程序改了改，终于好点了，也大概能算出来程序什么时候能跑完了。

包含显示进度条的程序代码如下：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0

#创建进度条pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data[i, -1][!is.na(data[i, -1])] #读取第i个专利对应的企业编号集合

company_set2 = data[j, -1][!is.na(data[j, -1])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

Sys.sleep(0.00001)

setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

显示效果如下所示：

三、解决优化

虽然比之前好些了，但还是没有解决程序运行缓慢等待时间过长的问题。毫无疑问，这段程序肯定还有很大的优化空间，于是先读取少量的数据，试着使用Rprof分析了一下耗时情况，结果发现[.data.frame 这个操作的耗时占比较大，Google搜索后在这里找到了一个优化的方法，即对源数据读取到到data frame之后再拷贝到一个矩阵中做取行的值的操作。优化后的版本：

data <- read.csv("C:\\Users\\dell\\Desktop\\data.csv") #读取数据

relation_matrix <- matrix(0, 3660, 3660) #创建一个与源数据行数相等的方阵，所有元素初始化为0data_matrix <- data.matrix(data_test[, -1]) #将数据拷贝到一个矩阵中

#创建进度条#pb <- txtProgressBar(min = 0, max = 3660, style = 3)

for (i in 1:3660)

for (j in 1:3660) {

company_set1 = data_matrix[i, ][!is.na(data_matrix[i, ])] #读取第i个专利对应的企业编号集合

company_set2 = data_matrix[j, ][!is.na(data_matrix[j, ])] #读取第j个专利对应的企业编号集合

#如果第i个专利和第j个专利对应的企业有相同的，则将对应位置置为1

if (i != j && length(intersect(company_set1, company_set2)) > 0)

relation_matrix[i, j] = 1

#设置进度条

#Sys.sleep(0.00001)

#setTxtProgressBar(pb, i)

}

write.csv(relation_matrix_test, "C:\\Users\\dell\\Desktop\\result.csv") #将关系矩阵写到文件中

在同样的机器环境下，改进后的程序只需要10min左右，而改进前的版本则需要将近7个小时，执行效率提高了40倍！

四、补充

在做这个数据处理过程中，值得记录的还包括：

R语言程序多个语句的时候记得带上{}，用缩进控制是Python的做法；

源数据读取之前要简单校验下，防止包含异常值影响数据读取的结果（这里包含了#REF!，处理很久才发现）；

在Excel中比较两份格式完全一样的数据是否相同，复制其中一份选择性粘贴“减”操作到另一份数据，选择数据区域看右下角显示的总和是否为0即可。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据处理 R语言异常值

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

一个使用R语言做数据处理的实例

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

一个使用R语言做数据处理的实例

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...