一、单选题
1.统计图中的散点图主要用来( A )。
A.观察变量之间的相关关系 B.主要用来表示总体各部分所占的比例
C.主要用来表示次数分布 D.主要用来反映分类数据的频数分布
2.抽样误差是指( D )
A.在调查过程中由于观察、测量等差错所引起的误差
B.人为原因所造成的误差
C.在调查中违反随机原则出现的系统误差
D.随机抽样而产生的代表性误差
3.检查异常值常用的统计图形:( B )
A、条形图
B、箱体图
C、帕累托图
D、线图
4.线性回归里的残差分析不可能用于诊断( D )
A、残差独立性
B、变量分布
C、异常值侦察
D、最大迭代次数
5.拟合logistic回归模型时有两个分类变量,分别是Gender(水平为female和male),Class(水平为1 、2和3),下表为输出结果,下面哪个选项的说法是正确的?(C)
A.变量Gender和Class采用效应编码
B.变量Gender采用引用编码,引用水平为female
C.变量Class采用引用编码,引用水平为3
D.变量Gender和Class采用全量编码
6.因子分析的主要作用:( A )
A、对变量进行降维
B、对变量进行判别
C、对变量进行聚类
D、以上都不对
7.关于K-means 聚类过程正确的是:( A )
A、使用的是迭代的方法
B、均适用于对变量和个案的聚类
C、对变量进行聚类
D、以上都不对
8.东北人养了一只鸡和一头猪。一天鸡问猪:"主人呢?"猪说:"出去买蘑菇了。"鸡听了撒丫子就跑。猪说:"你跑什么?"鸡叫道:“有本事主人买粉条的时候你小子别跑!"
以上对话体现了数据分析方法中的( A )
9.已知甲班学生“统计学”的平均成绩为86分,标准差是12.8分,乙班学生“统计学”的平均成绩是90分,标准差是10.3分,下列表述正确的是( A )
A. 乙班平均成绩的代表性高于甲班
B. 甲班平均成绩的代表性高于乙班
C. 甲、乙两班平均成绩的代表性相同
D. 甲、乙两班平均成绩的代表性无法比较
10.根据样本资料估计得出人均消费支出Y对人均收入X的回归模型,表明人均收入每增加1%,人均消费支出将增加( B )
A. 0.2% B. 0.75% C. 2% D. 7.5%
11.某企业根据对顾客随机抽样的信息得到对该企业产品表示满意的顾客比率的95%置信度的置信区间是(56%,64%)。下列正确的表述是( A )
A.总体比率的95%置信度的置信区间为(56%,64%)
B.总体真实比率有95%的可能落在(56%,64%)中
C.区间(56%,64%)有95%的概率包含了总体真实比率
D.由100次抽样构造的100个置信区间中,约有95个覆盖了总体真实比率
12.以下哪个语句可以将字符型数值date(示例:“2001-02-19”)转换为数值类型? ( A )
A、INPUT(date,YYMMDD10.)
B、PUT(date,YYMMDD10)
C、INPUT(date,YYMMDD10.)
D、PUT(date,YYMMDD10)
13. ,取值范围在[0,1],反映回归曲线的拟合优度,当
趋近于0,则回归曲线拟合优度( B )
A.越好 B. 越差 C. 适中 D. 以上都不对
14.分析购买不同产品的频次时,使用以下哪个任务? ( D )
A、列表数据
B、汇总表
C、汇总统计量
D、单因子频数
15.当你用跑步时间(RunTime)、年龄(Age)、跑步时脉搏(Run_Pulse)以及最高脉搏(Maximum_Pulse)作为预测变量来对耗氧量(Oxygen_Consumption )进行回归时,年龄(Age)的参数估计是-2.78. 这意味着什么?( B )
A、年龄每增加一岁,耗氧量就增大2.78.
B、年龄每增加一岁,耗氧量就降低2.78.
C、年龄每增加2.78岁,耗氧量就翻倍。
D、年龄每减少2.78岁,耗氧量就翻倍。
16.ROC曲线凸向哪个角,代表模型约理想?( A )
A、左上角
B、左下角
C、右上角
D、右下角
17.在所有两位数(10-99)中任取一两位数,则此数能被2或3整除的概率为 ( B )
A. 6/5 B. 2/3 C. 83/100 D.均不对
18.对事件A和B,下列正确的命题是 ( D )
A.如A,B互斥,则,
也互斥
B. 如A,B相容,则,
也相容
C. 如A,B互斥,且P(A)>0,P(B)>0,则A.B独立
D. 如A,B独立,则,
也独立
19.掷二枚骰子,事件A为出现的点数之和等于3的概率为 ( B )
A.1/11 B. 1/18 C. 1/6 D. 都不对
20.A和B两事件,若 P(AUB)=0.8,P(A)=0.2,P()=0.4 则下列 ( B )成立。
A. P()=0.32 B. P(
)=0.2
C. P(AB)=0.4 D. P()=0.48
21.随机地掷一骰子两次,则两次出现的点数之和等于8的概率为 ( C )
A. 3/36 B. 4/36 C. 5/36 D. 2/36
22.抽样推断中,可计算和控制的误差是 ( D )
A.登记误差 B.系统性误差(偏差)
C.抽样实际误差 D.抽样平均误差
23.假设检验中显著性水平是 ( B )
A.推断时犯取伪错误的概率 B.推断时犯取伪弃真的概率
C.正确推断的概率 D.推断时视情况而定
24.抽样调查中,无法消除的误差是 ( A )
A.随机误差 B.工作误差 C.登记误差 D.偏差
25.当时,两个相关变量 ( C )
A.低度相关 B.中度相关
C.高度相关 D.不相关
26.描述一组对称(或正态)分布资料的离散趋势时,最适宜选择的指标是(B)
A.极差 B.标准差 C.均数 D.变异系数
27.以下指标中那一项可用来描述计量资料离散程度(D)
A.算术均数 B.几何均数 C.中位数 D.极差
28.偏态分布资料宜用下面那一项描述其分布的集中趋势(C)
A.算术均数 B.标准差 C.中位数 D.四分位数间距
29.下面那一项可用于比较身高和体重的变异度(C)
30.正态曲线下,横轴上从均数到+∞的面积为(C)
A.97.5% B.95% C.50% D.5%
31.横轴上,标准正态曲线下从0到1.96的面积为: (D)
A.95% B.45% C.97.5% D.47.5%
32.下面那一项分布的资料,均数等于中位数。(D)
A.对数正态 B.左偏态 C.右偏态 D.正态
33.K-均值类别侦测要求输入的数据类型必须是( B )。
A整型 B数值型 C字符型 D逻辑型
34.某一特定的X水平上,总体Y分布的离散度越大,即σ2越大,则( A )。
A.预测区间越宽,精度越低 B.预测区间越宽,预测误差越小
C 预测区间越窄,精度越高 D.预测区间越窄,预测误差越大
35.如果X和Y在统计上独立,则相关系数等于( C )。
A.1 B.-1 C.0 D.∞
36.根据决定系数R2与F统计量的关系可知,当R2=1时,有( D )。
A.F=1 B.F=-1 C.F=0 D.F=∞
37.假设两变量线性相关,两变量是等距或等比的数据,但不呈正态分布,计算它们的相关系数时应选用( B )。
A. 积差相关 B.斯皮尔曼等级相关
C.二列相关 D.点二列相关
38.回归模型中,关于检验
所用的统计量
,下列说法正确的是( D )。
A.服从 B.服从
C.服从 D.服从
39.下面有关HAVING子句描述错误的是(B)。
A:HAVING子句必须与GROUP BY 子句同时使用,不能单独使用
B:使用HAVING子句的同时不能使用WHERE子句
C:使用HAVING子句的同时可以使用WHERE子句
D:使用HAVING子句的作用是限定分组的条件
40. 是( C )分布的密度函数。
A.指数 B. 二项 C. 均匀 D. 泊松
41.根据判定系数R2与F统计量的关系可知,当R2=1时有( C )。
A.F=1 B.F=-1 C.F=∞ D.F=0
42.在SQL查询时,使用WHERE子句指出的是(C)。
A:查询目标
B:查询结果
C:查询条件
D:查询视图
43.SQL查询语句中HAVING子句的作用是(C)。
A:指出分组查询的范围
B:指出分组查询的值
C:指出分组查询的条件
D:指出分组查询的字段
44.SQL的数据操作语句不包括(D)。
A:INSERT
B:UPDATE
C:DELETE
D:CHANGE
45.SQL语句中查询条件短语的关键字是(A)。
A:WHERE
B:FOR
C:WHILE
D:CONDITION
A:MODIFY TABLE
B:MODIFY STRUCTURE
C:ALTER TABLE
D:ALTER STRUCTURE
47.SQL语句中删除表的命令是(A)。
A:DROP TABLE
B:DELETE TABLE
C:ERASE TABLE
D:DELETE DBF
二、多选题
48.相关有以下几种(ABC)。
A.正相关 B.负相关 C.零相关 D.常相关
49.相关系数的取值可以是(ABC)。
A. 0 B.-1 C. 1 D. 2
50.某种产品的生产总费用2003年为50万元,比2002年多2万元,而单位产品成本2003年比2002年降低5%,则( ACDE )
A、生产费用总指数为104.17% B、生产费用指数为108.56%
C、单位成本指数为95% D、产量指数为109.65%
E、由于成本降低而节约的生产费用为2.63万元
51.三个地区同一种商品的价格报告期为基期的108%,这个指数是( BE )
A、个体指数 B、总指数 C、综合指数
D、平均数指数 E、质量指标指数
52.有关数据库的说法正确的是(ABCD)
A.元数据是描述数据的数据
B.使用索引可以快速访问数据库中的数据,所以可以在数据库中尽量多的建立索引
C.数据库中一行叫做记录
D.数据库中的每一个项目叫做字段
53.统计数据按来源分类,可以分为(BD)
A.类别数据 B.二手数据
C.序列数据 D.一手数据
E.数值数据
53.以下哪些变量代表RFM方法中的M:( AB )
A.最近3期境外消费金额
B.最近6期网银平均消费金额
C.信用卡的消费额度
D.距最近一次逾期的月数
54.在作逻辑回归时,如果区域这个变量,当Region=A时Y取值均为1,无法确定是否出现的是哪个问题?(ABD)
A. 共线性
B. 异常值
C. 拟完全分离(Quasi-complete separation)
D. 缺失值
55.下列Z值( BCD )可以被认为是异常值。
A、0 B、-3 C、6 D、10
56.下列问题( ABC )使用参数检验分析方法。
A、评估灯泡使用寿命 B、检验食品某种成分的含量
C、全国小学一年级学生一学期的平均课外作业时间 D、全国省市小康指数高低
57.两独立样本t检验的前提( ABC )
A、样本来自的总体服从或近似服从正态分布 B、两样本相互独立
C、两样本的数量可以不相等 D、两样本的数量相等
58.两配对样本t检验的前提( ABD )
A、样本来自的总体服从或近似服从正态分布 B、两样本观察值的先后顺序一一对应
C、两样本的数量可以不相等 D、两样本的数量相等
59.下面给出的t检验的结果,( CD )表明接受原假设,显著性水平为0.05。
A、0.000 B、0.039 C、0.092 D、0.124
60.方差分析的基本假设前提包括( AC )
A、各总体服从正态分布 B、各总体相互独立
61.下列( ABC )属于多选项问题。
A、购买保险原因调查 B、高考志愿调查
C、储蓄原因调查 D、各省市现代化指数分析
A、凝聚方式聚类 B、分解方式聚类 C、Q型聚类 D、R型聚类
——学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得社会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ + Level Ⅱ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
CDA Level II >了解更多<
▷ 报考条件:获得CDA Level Ⅰ认证证书;
▷ 考试时间:随报随考。
CDA Level III >了解更多<
▷ 报考条件:获得CDA Level Ⅱ认证证书;
▷ 考试时间:一年四届 3月、6月、9月、12月的最后一个周六。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06