下面的脚本将每次实验获得的 X 平方分布统计写到一个输出文件以便稍后用图表表示。 清单 2. 将获得的 X 平方分布统计写到输出文件 <?php // simulate.php // Copyright 2003, Paul Meagher // Distributed under LGPL // Set time limit to 0 so script doesn't time out set_time_limit(0); require_once "../init.php"; require PHP_MATH . "chi/Multinomial.php"; require PHP_MATH . "chi/ChiSquare1D.php"; // Initialization parameters $NExps = 10000; $NTrials = 300; $NOptions = 3; $multi = new Multinomial($NExps, $NTrials, $NOptions); $output = fopen("./data.txt","w") OR die("file won't open"); for ($i=0; $i<$NExps; $i++) { // For each multinomial experiment, do chi square analysis $chi = new ChiSquare1D($multi->Outcomes[$i]); // Load obtained chi square value into sampling distribution array $distribution[$i] = $chi->ChiSqObt; // Write obtained chi square value to file fputs($output, $distribution[$i]."\n"); } fclose ($output); ?> 为了使运行该实验所期望获得的结果可视化,对我来说,最简单的方法就是将 data.txt 文件装入开放源码统计包 R,运行 histogram 命令,并且在图形编辑器中编辑该图表,如下所示: x = scan("data.txt") hist(x, 50) 正如您可以看到的,这些 X 平方分布值的直方图与上面表示的 df = 2 的连续 X 平方分布的分布近似。 图 3. 与 df=2 的连续分布近似的值 在下面几节中,我将侧重于说明这个模拟实验中所使用的 X 平方分布软件的工作原理。
通常情况下,X 平方分布软件将用于分析实际的定类尺度数据(例如 Web 民意测验结果、每周的流量报告或者客户品牌偏好报告),而不是您使用的模拟数据。您可能还会对该软件生成的其它输出 ― 例如汇总表和尾数概率 ― 感兴趣。 X 平方分布的实例变量 我开发的基于 php 的 X 平方分布软件包由用于分析频率数据的类构成,频率数据是按照一维或两维(ChiSquare1D.php 和 ChiSquare2D.php)进行分类的。我的讨论将仅局限于说明 ChiSquare1D.php 类的工作原理,以及说明如何将其应用于一维 Web 民意测验数据。 在继续之前,应当说明:按照两维对数据进行分类(例如,按照性别对啤酒偏好进行分类),允许您通过查找列联表单元中的系统关系或条件概率开始说明您的结果。尽管下面的许多讨论将有助于您理解 ChiSquare2D.php 软件的工作原理,但本文未讨论的其它实验、分析和可视化问题也是使用这个类之前必须处理的。
清单 3 研究了 ChiSquare1D.php 类的片段,它由以下部分构成: 1.一个被包含的文件 2.类实例变量 清单 3. 带有被包含的文件和实例变量的 X 平方分布类的片段 <?php // ChiSquare1D.php // Copyright 2003, Paul Meagher // Distributed under LGPL require_once PHP_MATH . "dist/Distribution.php"; class ChiSquare1D { var $Total; var $ObsFreq = array(); // Observed frequencies var $ExpFreq = array(); // Expected frequencies var $ExpProb = array(); // Expected probabilities var $NumCells; var $ChiSqObt; var $DF; var $Alpha; var $ChiSqProb; var $ChiSqCrit; } ?> 清单 3 中这个脚本的顶部包含了一个名为 Distribution.php 的文件。所包含的路径合并了在 init.php 文件中设置的 PHP_MATH 常量,假定 init.php 文件已包含在调用脚本中。 所包含的文件 Distribution.php 包含了为几个常用的抽样分布(T 分布、F 分布和 X 平方分布)生成抽样分布统计信息的方法。ChiSquare1D.php 类必须能够访问 Distribution.php 中的 X 平方分布方法,以计算所得到的 X 平方分布值的尾数概率。 这个类中的实例变量列表值得注意,因为它们定义了由分析过程生成的结果对象。
这个结果对象包含了有关检验的所有重要详细信息,包括三个重要的 X 平方分布统计 ― ChiSqObt、ChiSqProb 和 ChiSqCrit。关于如何计算每个实例变量的详细信息,可以查阅该类的构造函数方法,所有这些值都源自那里。 构造函数:X 平方分布检验的主干 清单 4 给出了 X 平方分布的构造函数代码,它构成了 X 平方分布检验的主干。 清单 4. X 平方分布的构造函数 <?php class ChiSquare1D { function ChiSquare1D($ObsFreq, $Alpha=0.05, $ExpProb=FALSE) { $this->ObsFreq = $ObsFreq; $this->ExpProb = $ExpProb; $this->Alpha = $Alpha; $this->NumCells = count($this->ObsFreq); $this->DF = $this->NumCells - 1; $this->Total = $this->getTotal(); $this->ExpFreq = $this->getExpFreq(); $this->ChiSqObt = $this->getChiSqObt(); $this->ChiSqCrit = $this->getChiSqCrit(); $this->ChiSqProb = $this->getChiSqProb(); return true; } } ?> 构造函数方法中值得注意的四个方面是:
1.构造函数接受一个由观察到的频率组成的数组、alpha 概率断开点(cutoff score)和一个可选的期望概率的数组。
2.前六行涉及了相对简单的赋值和被记录的计算值,以便于完整的结果对象可用于调用脚本。
3.最后四行执行大量的获取 X 平方分布统计的工作,这些统计是您最感兴趣的。
4.该类只实现 X 平方分布检验逻辑。没有与该类相关联的输出方法。 您可以研究本文的代码下载中包含的类方法,以了解关于如何计算每个结果对象值的更多信息(请参阅参考资料)。 处理输出问题 清单 5 中的代码展示了使用 ChiSquare1D.php 类执行 X 平方分布分析是多么容易。
它还演示了输出问题的处理。 该脚本调用一个名为 ChiSquare1D_HTML.php 的包装器脚本。这个包装器脚本的目的是使 X 平方分布过程的逻辑与它的表示方面相分离。_HTML 后缀表明输出针对的是标准的 Web 浏览器或其它显示 HTML 的设备。 包装器脚本的另一个目的是用便于理解数据的方式组织输出。为了达到这个目的,该类包含了两个用于显示 X 平方分布分析结果的方法。showTableSummary 方法显示了在代码后面展示的第一个输出表(表 2),而 showChiSquareStats 显示了第二个输出表(表 3)。
清单 5. 利用包装器脚本组织数据 <?php // beer_poll_analysis.php require_once "../init.php"; require_once PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(285, 250, 215, 250); $Alpha = 0.05; $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 该脚本生成了下列输出: 表 2. 运行包装器脚本而获得的期望频率和方差 Keiths Olands Schooner 其它 合计 观察值 285 250 215 250 1000 期望值 250 250 250 250 1000 方差 4.90 0.00 4.90 0.00 9.80 表 3. 运行包装器脚本获得的各种 X 平方分布统计信息统计 DF 获得值 概率 临界值 X 平方分布 3 9.80 0.02 7.81 表 2 显示了期望频率以及每个单元的方差度量 (O - E)2 / E。方差值的和等于获得的 X 平方分布(9.80)值,这个值显示在汇总表的右下单元中。
表 3 报告了各种 X 平方分布统计信息。它包括了分析中使用的自由度,并再次报告了获得的 X 平方分布值。获得的 X 平方分布值被重新表示成尾数概率值 ― 在本例中是 0.02。这意味着,在虚假设条件下,观察到 X 平方分布极限值 9.80 的概率是 2%(这是一个相当低的概率)。
如果您决定排除虚假设 ― 结果可以按照零分布的随机抽样可变性获得,那么大多数统计师都不会有争议。您的民意测验结果更有可能反映了新斯科舍省的啤酒消费者总体对于啤酒品牌偏好的真正差别。 为了确认这一结论,可以用获得的 X 平方分布值与临界值进行比较。 为什么临界值很重要呢?临界值建立在为该分析设置的某一重要级别(即 alpha 断开级别)之上。alpha 断开值按照惯例被设置为 0.05(上述分析使用的就是该值)。该设置用于查找 X 平方分布的抽样分布中包含尾数区域等于 alpha 断开值(0.05)的位置(或临界值)。 在本文中,获得的 X 平方分布值大于临界值。这意味着超出了保持虚假设说明的阈值。
另一种假设 ― 对象总体中存在着比例差异 ― 在统计上可能更正确。 在数据流的自动化分析中,alpha 断开设置可以为知识-发现算法(例如 X 平方分布自动交互检测(Chi Square Automatic Interaction Detection,CHIAD))设置输出过滤,这样的算法自身在发现真正有用的模式方面无法为人们详细的指导。 重新进行民意测验 单向 X 平方分布检验的另一个有趣应用是重新进行民意测验,以了解人们的回答是否已发生变化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27