R语言卡方检验-CDA数据分析师官网

R语言卡方检验

2017-07-01

R语言卡方检验

卡方检验是一种统计方法，以确定两个分类变量之间有一个显著的相关性。这两项变量应该是从同一个群体，它们应该是分类如 - Yes/No, Male/Female, Red/Green 等。例如，我们可以建立与人的冰淇淋购买模式的观测数据集，并尝试相关的人的性别与冰淇淋他们喜欢的味道。如果找到相关，我们可以通过了解性别的人访问的数目计划适当的口味库存。

语法

用于执行卡方检验的功能，使用函数 chisq.test().

R语言中创建卡方检验的基本语法是：

chisq.test(data)

以下是所使用的参数的说明：

data 是含有在观察变量的计数值的表的形式的数据。

示例

我们将在 “MASS” 库，它代表了不同型号的汽车在1993年销量的 Cars93 数据。

library("MASS")
print(str(Cars93))

当我们上面的代码执行时，它产生以下结果：

'data.frame':   93 obs. of 27 variables:
$ Manufacturer      : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
$ Model             : Factor w/ 93 levels "100","190E","240",..: 49 56 9 1 6 24 54 74 73 35 ...
$ Type              : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...
$ Min.Price         : num 12.9 29.2 25.9 30.8 23.7 14.2 19.9 22.6 26.3 33 ...
$ Price             : num 15.9 33.9 29.1 37.7 30 15.7 20.8 23.7 26.3 34.7 ...
$ Max.Price         : num 18.8 38.7 32.3 44.6 36.2 17.3 21.7 24.9 26.3 36.3 ...
$ MPG.city          : int 25 18 20 19 22 22 19 16 19 16 ...
$ MPG.highway       : int 31 25 26 26 30 31 28 25 27 25 ...
$ AirBags           : Factor w/ 3 levels "Driver & Passenger",..: 3 1 2 1 2 2 2 2 2 2 ...
$ DriveTrain        : Factor w/ 3 levels "4WD","Front",..: 2 2 2 2 3 2 2 3 2 2 ...
$ Cylinders         : Factor w/ 6 levels "3","4","5","6",..: 2 4 4 4 2 2 4 4 4 5 ...
$ EngineSize        : num 1.8 3.2 2.8 2.8 3.5 2.2 3.8 5.7 3.8 4.9 ...
$ Horsepower        : int 140 200 172 172 208 110 170 180 170 200 ...
$ RPM               : int 6300 5500 5500 5500 5700 5200 4800 4000 4800 4100 ...
$ Rev.per.mile      : int 2890 2335 2280 2535 2545 2565 1570 1320 1690 1510 ...
$ Man.trans.avail   : Factor w/ 2 levels "No","Yes": 2 2 2 2 2 1 1 1 1 1 ...
$ Fuel.tank.capacity: num 13.2 18 16.9 21.1 21.1 16.4 18 23 18.8 18 ...
$ Passengers        : int 5 5 5 6 4 6 6 6 5 6 ...
$ Length            : int 177 195 180 193 186 189 200 216 198 206 ...
$ Wheelbase         : int 102 115 102 106 109 105 111 116 108 114 ...
$ Width             : int 68 71 67 70 69 69 74 78 73 73 ...
$ Turn.circle       : int 37 38 37 37 39 41 42 45 41 43 ...
$ Rear.seat.room    : num 26.5 30 28 31 27 28 30.5 30.5 26.5 35 ...
$ Luggage.room      : int 11 15 14 17 13 16 17 21 14 18 ...
$ Weight            : int 2705 3560 3375 3405 3640 2880 3470 4105 3495 3620 ...
$ Origin            : Factor w/ 2 levels "USA","non-USA": 2 2 2 2 2 1 1 1 1 1 ...
$ Make              : Factor w/ 93 levels "Acura Integra",..: 1 2 4 3 5 6 7 9 8 10 ...

上述结果表明，该数据集具有许多可被视为分类变量因子变量。在我们的模型中，我们会考虑的变量："AirBags" 和 "Type". 这里我们的目标是找出车出售的类型和空气包装袋具有的类型之间的显著相关性。如果做了相关性观察，我们可以估算出这类型的汽车，使用什么类型的气囊卖得更好。

# Load the library.
library("MASS")

# Create a data frame from the main data set.
car.data <- data.frame(Cars93$AirBags, Cars93$Type)

# Create a table with the needed variables.
car.data = table(Cars93$AirBags, Cars93$Type) 
print(car.data)

# Perform the Chi-Square test.
print(chisq.test(car.data))

Compact Large Midsize Small Sporty Van
Driver & Passenger       2     4       7     0      3   0
Driver only              9     7      11     5      8   3
None                     5     0       4    16      3   6

        Pearson's Chi-squared test

data: car.data
X-squared = 33.001, df = 10, p-value = 0.0002723

Warning message:
In chisq.test(car.data) : Chi-squared approximation may be incorrect

结论

结果表明小于0.05的p值指示的字符串相关性。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言卡方检验

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...