假定过一段时间后,您打算对新斯科舍省的啤酒消费者进行另一次 Web 民意测验。您再次询问他们喜爱的啤酒品牌,现在观察到下列结果: 表 4. 新的啤酒民意测验 Keiths Olands Schooner 其它 385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%) 旧的数据如下所示: 表 1. 旧的啤酒民意测验(再一次显示) Keiths Olands Schooner 其它 285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%) 民意测验结果之间的明显区别在于,第一次民意测验有 1,000 个调查对象,而第二次有 1,400 个调查对象。这些额外调查对象的主要影响是,使得每个回答情形的频率计数增加了 100 点。
当准备好对新的民意测验进行分析时,可以利用缺省的方法 ― 计算期望频率来分析数据,也可以利用每个结果的期望概率(基于前一次民意测验所观察到的比例)来初始化分析。在第二种情形中,您将以前获得的比例装入期望概率数组($ExpProb),并使用它们来计算每个回答选项的期望频率值。 清单 6 显示了用于检测偏好变化的啤酒民意测验分析代码: 清单 6. 检测偏好的变化 <?php // beer_repoll_analysis.php require_once "../init.php"; require PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(385, 350, 315, 350); $Alpha = 0.05; $ExpProb = array(.285, .250, .215, .250); $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 表 5 和 6 显示了 beer_repoll_analysis.php 脚本生成的 HTML 输出: 表 5. 运行 beer_repoll_analysis.php 而获得的期望频率和方差 Keiths Olands Schooner 其它 合计 观察值 385 350 315 350 1400 期望值 399 350 301 350 1400 方差 0.49 0.00 0.65 0.00 1.14 表 6. 运行 beer_repoll_analysis.php 所获得的各种 X 平方分布统计信息统计 DF 获得值 概率 临界值 X 平方分布 3 1.14 0.77 7.81 表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。
但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。 这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。
因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。 应用学到的知识 在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。
但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。 在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。
但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。
最后,我演示了如何模拟不同自由度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)― 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。
因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。
考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 ― 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题: *您是否有理由在小 N 条件下进行推论? *模拟有助于您决定在这些环境下获得什么推论吗?
数据分析咨询请扫描二维码
统计学基础 - 理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。 数 ...
2024-11-25数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技 ...
2024-11-25数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数 ...
2024-11-25数据分析师:洞察力量的引擎 数据分析师的兴起 数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。 ...
2024-11-25数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-25数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将 ...
2024-11-25“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、 ...
2024-11-25一、引言 背景介绍 随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业 ...
2024-11-25《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22