数据分析的前提是需要明确等待分析数据的特点和形态,根据数据本质的属性,确定一个有效的数据分析策略。从不同的视角,数据有不同的类型,下面介绍最常用的两种数据分类方式。
首先,数据被分为总体数据与样本数据。如果能够直接获取全部的数据,当然最好,但是,由于各种客观原因,研究者无法或不便于获取全体研究对象的整体数据。于是基于某一规则抽取具有代表性的一些数据,以这些数据作为研究样本并开展研究。
其次,数据可以被分为定类数据、定序数据和定距数据。数据的类型很多,这样的分类方式在用分析软件进行数据分析时起到举足轻重的作用。例如,某个学校的学生数据表,“姓名”、“性别”和“班级”是字符串类型,而“语文”、“数学”等成绩则是数值型。在数据分析软件中,要求待处理的数据最好是数值型数据。为此,常常需要对字符型数据进行数值化编码,以便根据其特点采取有效的数据分析策略。数值型数据主要分为三种不同的类型:
定类数据,是指负责对个案实施分类的数值型数据,这类数据只能取整数型数值,而且其取值的大小没有实际意义,也不能进行取均值、计算方差等运算。例如,对性别进行数值化转码,以数值1代表男生,数值2代表女生;还有在同性恋里,0和1分别代表不同角色,嘿嘿!
定序数据,是指依据某个属性对个案进行分级标记的数值型数据。比如,在问卷调查里,用1代表“很不满意”、2代表“不满意”、3代表“一般”、4代表“满意”、5代表“很满意”。这里的数值1~5代表5个等级。
定距数据,是指根据取值范围为连续取值的数值数据。例如,考试成绩、学生身高等都是连续数值。定距数据的取值即可以是整数,也可以是实数。
暂无数据