一手数据 vs 二手数据
1.一手数据(Primary data)
也称为原始数据。顾名思义,是指直接获取,没有经过加工或者第三方传递获得的数据。比如传统调研中的问卷测评、 小组访谈、面对面沟通等形式获得的数据,或者是互联网时代用户直接填写的个人信息数据以及平台抓取的行为数据等等。
2.二手数据(Secondary data)
主要是相对于一手数据而言,指的是通过第三方或者是现有的数据资料获取的数据。比如国家统计局数据、知名文献中 罗列的数据等等。 一手数据的来源渠道,一般比较固定,往往是和自身直接相关。比如搭建的网站,组织的活动,开 展的 调研等。而二手数据则相对比较多样化,凡是会产出数据相关信息的第三方机构都可以作为来源渠道。
3.优劣势分析
一手数据和二手数据,在实际应用中都是非常重要的。它们不同的优缺点,可以很好地互补,从而帮助企业在效果和效 率间找到比较好的平衡。
在实际项目中,一般会把两类数据进行结 合。总结来看,一手和二手数据的选择, 可以参考右图的形式进行判断。
同时,在一手数据的使用过程,需要特别 注意的是,要对采集回来的数据进行逻辑 合理性验证。
而二手数据,因为收集的过程由第三方完 成。因此数据的可信性和准确度,就依赖 于第三方机构的可信性。
如何获取一手数据?
当我们需要获取一手数据的时候,一种常用的方式就是抽样调查。 抽样调查不止在传统行业中比较常用,在现在互联网企业中也时常会用到。比如一些优惠活动或者特定客群营销等方案的测试,就需要 用 到抽样的方式选择测试群体。 在做抽样调查时,我们都希望尽可能地减少误差,让抽样的样本能够充分代表整体的特征。那么误差和 哪些因素相关呢?抽样误差(Sampling Error)的大小,主要由样本容量的大小和抽样方式来决定。 一般,我们认为抽样可以分类两类:一类我们叫做概率抽样(Probability Sampling),也叫作客观抽样。第二类,我们叫做非概率抽样 (Non-probability Sampling),也叫作主观抽样。下面我们来分别介绍这两种抽样方法。
概率抽样
顾名思义,是一种基于概率的抽样方式,因此也被称为客观抽样。从理论的角度来说,概率抽样是符合科学和统计原则的,抽样误差可 以估计。也是在可能的情况下,最优先被推荐使用的抽样方法。但是,精确度高的方法,往往操作的复杂度和耗费的成本也会相对偏高。 概率抽样,虽然可以避免主观判断带来的谬误,但是它常常受限于项目经费、时间和保密性等原则,从而难以实际使用。
非概率抽样
和概率抽样相反,非概率抽样是一种简单、易使用的抽样方式。它主要通过抽样者的判断,包括对样本特征的判断和对项目成本的考量, 综合特殊的要求或者设定,最终选择合适的样本。因此,这种方法会受到主观因素的影响,不符合统计科学的原则,抽样误差是无法估 计和计算的。但是在实际应用中,大量的案例还是证明了非概率误差依然有一定的有效性。在样本量充足的前提下,通过设定简单的配 比,以及选择有经验的抽样者,基本上可以保证抽样结果的有效性。而且由于非概率抽样比较容易重复操作,因此用非概率抽样反复进 行同一试验,结果往往也有趋同性。另外,这一抽样方式,虽然无法衡量抽样误差,但是由于抽样过程可以进行设计和控制,因此可以 更简单有效地控制非抽样误差(Non-sampling Error)。
总结来说,概率抽样和非概率抽样,我们可以通过以下的表格进行区别:
介绍了概率抽样和非概率抽样之后,我们重点来看一下概率抽样方法。常用的概率抽样方法主要有以下4种:
分层抽样(Stratified Sampling)
正如之前提到的,简单随机抽样的假设并不总是成立。如果总体可以按照一些特征分成若干层。层与层之间差异明显,每个层内部的个 体特征相近,那么我们可以对每个层做简单随机抽样。抽样结果合并的集合,就是我们最终确认的抽样样本。 在实际操作中,我们可以按照每一层的个体数量来决定抽取数量,使得每个层抽取的比例都相等,这样的抽样我们叫做按比例分层抽样。 一般,如果每层重要性差不多,数量差异也不是很大的情况下,我们都是这样操作的。 而如果有一些层非常重要,或者有些层的个体数非常少,那么我们就要采取非按比例分层抽样的方法。 如果总体中个体间呈现明显的几类,那么使用分层抽样可以更好地反映总体。避免简单随机抽样可能带来的样本集中或者特征缺失的情 况。因此,在概率抽样中,分层抽样也是使用最多的一种。我们在对城市,或者是大型的业务线进行研究的时候,都可以采用分层抽样。
系统抽样(Systematic Sampling)
除了分层抽样之外,系统抽样也对简单随机抽样,进行了改进。使用系统抽样的时候,仍然需要将个体进行编号,然后根据抽样样本容 量决定抽样的间距。因此又叫做等距抽样或者机械抽样。这种方法,减少了抽样过程中的人力和时间消耗。不过,系统抽样一般很少作 为单独的抽样方法使用,通常是配合其他方法一起进行。
分段抽样(Multi-stage Sampling)
前面提到的,都是一次性抽取完成样本的方法,这些方法可以统称为单阶段抽样。然而在有些情况下,我们并不能一 次性完成样本的抽取,比如在全国范围内选择一定数量的用户作为试点调查。这个时候我们需要分阶段地去完成抽样 过程,这种方法,我们叫做分段抽样。 分段抽样中,我们首先把总体划分成一些大小差不多的群体。在这些群体中随机抽取几个。被抽中的群体,就作为下 一步进行随机抽样的“总体”。 因此,在学习过程中,一定要注意区分分段抽样和分层抽样。虽然两者都是对总体进行了一定的划分。但是分层抽样 是按照一定特征进行划分,划分的目的是为了避免特征的过分集中和缺失。抽取的过程也是一步完成的,只有在分层 之后才会进行随机抽样。而分段抽样则不同,它是由于总体太大,无法直接进行抽取,所以才需要进行多步抽样。每 一次对总体的划分是为了进行随机抽取,而抽取后,下一步的“总体”就会得到一定程度的减小。
如何选择抽样方法?
1. 二手数据的特点是( )。
A. 数据缺乏可靠性
B. 不适合自己的研究需要
C. 采集数据的成本低,但搜集比较困难
D. 采集数据的成本低,搜集比较容易
2. 与概率抽样相比,非概率抽样的缺点是( )。
A. 调查成本比较高
B. 不适合探索性的研究
C. 样本统计量的分布是确定的
D. 无法使用样本的结果对总体相应的参数进行推断
3. 为了估计A市愿意坐地铁上下班的人数的比例,在收集数据时,最有可能采用的数据搜集方法是?
A. 普查
B. 实验
C. 随机抽样
D. 公开发表的资料
更多考试介绍及备考福利请点击:CDA 认证考试中心官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30