SPSS = 数据测量的类型-CDA数据分析师官网

SPSS = 数据测量的类型

2018-01-11

SPSS = 数据测量的类型

数据测量类型

查看IBM SPSS Modeler 帮助文档，解释如下：

• 默认值。具有未知存储类型和值的数据（例如，由于其尚未被读取)将显示为<默认值>。

• 连续。用于描述数字值，如范围 0 - 100 或 0.75 - 1.25。连续值可以是整数、实数或日期/时间。

• 分类。用于字符串值（可取的值的确切数量未知时）。这是一种非实例化数据类型，表示有关数据存储类型和用法的所有可用信息均未知。读取数据后，测量级别将为标志、名义或无类型，具体取决于“流属性”对话框中指定的最大名义字段数量。

• 标志。标志字段用于显示具有两个不同值的数据。

表示存在或不存在一个特性，如 true 和 false、Yes 和 No 或 0 和 1。所用值可能有所不同，但其中总会有个值代表“真”值，另一个代表“假”值。标志的存储类型数据可表示为文本、整数、实数、日期、时间或时间戳。

真。指定条件成立时字段的标志值。假。指定条件不成立时字段的标志值。

标签。为标志字段中的每个值指定标签。这些标签将按照您在“流属性”对话框中选择的选项出现在多个位置，如图形、表格、输出和模型浏览器中。

扩展：“字段选项”—“导出”设置导出为“标志”选项

Derive Flag 节点用于指明特定条件，如高血压或客户帐户停用。对于每条记录都会创建一个标志字段，当条件为真时，会在字段中添加代表真的标志值。

真值。指定针对满足以下指定条件的记录要在标志字段中包括的值。缺省值为 T。

假值。对于那些不满足以下指定条件的记录，指定其标志字段中的值。缺省值为 F。

以下情况时为真。指定某个 CLEM 条件，用于评估每条记录的某些值，并为记录赋予真值或假值（定义如上）。请注意，对于非假数字值，会将真值赋予记录。

注意：要返回空字符串，您应该输入一对引号，并且中间不包含任何内容，如 ""。例如，空字符串通常可用作假值，以使真值在表中更为明显。类似地，如果希望某个字符串值在其他情况下被视为数值，应使用引号

• 名义。用于描述具有多个不同值的数据，其中的每个值都被视为集合的一个成员，如 small/medium/large。名义数据可具有任何存储—数值、字符串或日期/时间。请注意，将测量级别设置为名义不会自动将值更改为字符串存储。
扩展：设置派生名义选项

Derive Nominal 节点用于执行一组 CLEM 条件，以确定每条记录满足的条件。当每条记录满足某个条件时，会将一个值（指示满足哪组条件）添加到新的导出字段。

缺省值。指定不满足任何条件时要使用的值。

将字段设置为。指定满足某个特定条件时要在新字段中输入的值。列表中的每个值都有一个关联条件，该条件由用户在相邻列中指定。
若此条件为真。为集合字段中要列出的每个成员指定条件。使用表达式构建器在可用的函数和字段中进行选择。可以使用箭头和删除按钮对条件进行重新排序或删除。

条件的工作原理是对数据集中特定字段的值进行检验。检验每个条件时，都会为新字段分配上述指定值，以指示满足哪个条件（如果有）。如果不满足任何条件，则会使用缺省值。

• 有序。用于描述具有顺序固定的不同值的数据。例如，工资类别或满意度排序可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如，1, 3, 5 是某个整数集合的默认排列顺序，而 HIGH, LOW, NORMAL（按字母升序）是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据，以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序（如 IBM® SPSS® Statistics）。您可以在任何能够使用名义字段的位置使用有序字段。此外，可以将任何存储类型（实数、整数、字符串、日期、时间等等）的字段定义为有序。

• 无类型。用于不属于任何上述类型的数据，具有单个值的字段，或集合的成员数超过定义的最大值的名义数据。当测量级别为包含许多成员（如帐号）的集合时，这种类型也将十分有用。当您为字段选择无类型时，角色将自动设为无，记录 ID 作为唯一的替代项。默认的集合最大容量为 250 个唯一值。可在“流属性”对话框（可通过“工具”菜单访问）的“选项”选项卡上调整或禁用该数字。

可以手动指定测量级别，也可以由软件读取数据并根据所读取的值确定其测量级别。
此外，如果有多个连续数据字段需视为类别数据，可以选择一个选项来转换它们。请参阅主题转换连续数据详细信息。

字段角色设置：
字段的角色用于指定其在模型构建过程中的用法 - 例如，字段是输入还是目标（预测的对象）。

注意：“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。

可用的角色如下：

输入。字段将用作机器学习的输入（预测变量字段）。

目标。字段将用作机器学习的输出或目标（模型将尝试预测的字段之一）。

两者。字段将被 Apriori 节点同时用作输入和输出。所有其他建模节点都将忽略该字段。

无。机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。

分区。指明字段用于将数据分区为单独的样本（用于训练、测试，也可用于验证）。该字段必须属于实例化集合类型，具有两个或三个可能值（在“字段值”对话框中定义）。第一个值表示训练样本，第二个值表示测试样本，第三个值（如果存在）表示验证样本。所有其他值都将被忽略，且不能使用标志字段。请注意，要在分析中使用分区，必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时，会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段，那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段，您可以使用“分区”节点或“派生”节点进行创建。请参阅主题分区节点，了解更多信息。

分割。（仅名义、有序和标志字段）指定为字段的每个可能值构建一个模型。

频率。（仅数字字段）设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能；所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上，选择使用频率权重以启用频率加权。

记录标识。此字段将用作唯一记录标识。大多数节点都会忽略此特征；但它受线性模型支持，并且是 IBM Netezza 数据库内挖掘节点所必需的。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

字段机器学习特征 Apriori

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Excel/SPSS相关性及显著性水平分析

下一篇广告访问量平均数差异的显著性检验

SPSS = 数据测量的类型

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...