R语言︱集合运算—小而美法则-CDA数据分析师官网

R语言︱集合运算—小而美法则

2017-05-19

R语言︱集合运算—小而美法则

集合运算的一般规则如下：
    union(x,y)    #求并集
    intersect(x,y)    #求交集
    setdiff(x,y)    #求属于x而不属于y的所有元素
    setequal(x,y)    #判断x与y是否相等
    a %in% y    #判断a是否为y中的元素
    choose(n, k)    #n个里面取k个的组合数
    combn(x,n)    #x中的元素每次取n个的所有组合
    combn(x,n,f)     #将这些组合用于指定函数f
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
    > x=c(1,4,5)
    > y=c(2,4,8)
    > union(x,y)    #求并集
    [1] 1 4 5 2 8
    > intersect(x,y)    #求交集
    [1] 4
    > setdiff(x,y)    #求属于x而不属于y的所有元素
    [1] 1 5
    > setequal(x,y)    #判断x与y是否相等
    [1] FALSE
    > x %in% y    #判断a是否为y中的元素
    [1] FALSE TRUE FALSE
union(x,y)可以生成XY的并集，有一定的去重功能；
intersect代表交集，可以找出共有的，在文本挖掘中，词和词之间的对应关系；
setdiff代表去掉x中xy共有的地方；
x %in%y，这个管道函数很有意思，x中xy共有的为TURE，生成了一个逻辑向量，从而可以进行一些文档匹配的操作。
类似的用法sqldf包中的union 也可以实现：

1、情感分析中setdiff和x %in%y的用处
    功能：停用词的清理&词库之间相互匹配。stopword是停用词库，testterm是原序列。
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
    stopword <- read.csv("F:/R语言/R语言与文本挖掘/情感分析/数据/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
    #结果是一个和stopword等长的波尔值向量，“非”函数将布尔值反向
    testterm <- testterm[!testterm$term %in% stopword,]#去除停用词
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
    stopword <- read.csv("F:/R语言/R语言与文本挖掘/情感分析/数据/dict/stopword.csv", header = T, sep = ",", stringsAsFactors = F)
    stopword <- setdiff(stopword$term,posneg$term)
    testterm<- setdiff(testterm$term,stopword)
上面两端代码能实现同样的效果。
2、集合运算应用在数据匹配之上
      集合运算可以较好地应用在数据之间的匹配。而匹配中，%in%的效率最高。是一个很好的匹配的媒介。一些情况要由于merge
3、相等运算
[html] view plain copy
print?在CODE上查看代码片派生到我的代码片
    identical(rownames(dtm_train), train$id)
返回的是逻辑值，如果相等则TRUE。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言文本挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言︱集合运算—小而美法则

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...