
听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说!
先说结论,大多数情况下的学不会都不是知识本身难,而是被知识的传播者劝退的。
比如大佬们授课,虽逻辑严谨、思维缜密,但你只能望其项背,因为大佬们往往无法体会菜鸟的痛苦。再比如一些照本宣科的老师,他们没有深入研究这些知识,无法用通俗的语言帮你解释,只能貌似努力地帮你认真地读完所有PPT……
究其本质而言,这种情况多半是按 “是什么、有什么用,怎么用” 的方式在学,而对在大多数人而言,第一步就学懂“是什么”,或许难度有点大,因为得从定义出发,了解性质,推导出原理,一套流程下来直接劝退了,反而最关心的有什么用、怎么用的问题没有解决。
所以接下来的内容我将用“MVP(最小可行化产品)” 的思路来筛选重点内容,帮你厘清哪些内容是不可或缺及必须要学的。然后以 “有什么用,怎么用,是什么” 的顺序展开,快速提升当你急需Get某个技能时候的学习效率。
另外教程的标题既然含有“极简入门”,那么至少有2个原则:
说“尽量”是因为有些时候,不得不说些废话才能引起你的注意,比如以上内容…
好,我们正式开始!首先来看第一个问题:
我们都知道,一般数据可以分为两类,即定性数据(类别型数据)和定量数据(数值型数据)
(1). 定性数据, 表示研究对象的类别。很好理解,这里的表示类别用的数字没有大小之分,不能进行算术四则运算。
定性数据可以分为:
① 定类数据
表现为类别,但不区分顺序,是由定类尺度计量形成的。一般可以从非数值型数据中编码转换而来,数值本身没有意义,只是为了区分类别做出的数值型标识
例如性别用1代表男性,用2代表女性;血型用1,2,3,4来表示A、B、AB及O四种;
② 定序数据
表现为类别,但有顺序,是由定序尺度计量形成的。运算符也没有意义,
例如受教育程度用 文盲 = 1,半文盲 = 2,小学 = 3,初中 =4,高中 = 5,大专 = 6,本科 = 7,(研究生)硕士 = 8,(研究生)博士 = 9表示。
(2). 定量数据, 表示的是研究对象的数量特征,如人群中人的身高、体重等。
定量数据可以分为以下几种:
① 定距数据
表现为数值,可进行加、减运算,是由定距尺度计量形成的。定距数据的特征是没有绝对的零点,例如温度,不能说10摄氏度的一倍是20摄氏度。因此乘、除法对于定距数据来说也是没有意义的。
② 定比数据
表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。定比数据存在绝对的零点。例如价格,100元的2倍就是200元。
先看一个例子,这里有一组数据 2,23,4,17,12,12,13,16
,请思考你要怎么描述它?
你可能会说他们的平均数是12.375,中位数是12.5,最大值是23,最小值是2,等等。
没错,这里其实你已经在用平均数、中位数、最大值、最小值的来描述这组数据。
那么用几个数来描述一堆数就是统计学的基本概念:统计学是一门将 数据汇总为统计量或图表的学问。
Tips:通俗来说就是,数据太多记不住且不好描述,需要简化为更少的数字或图表,于是有了统计学和统计图表
知道了统计学的定义再接着看:
通常我们把统计学分为两大方向,通过计算出来的统计量来概括已有数据叫做描述统计学,通过样本获取总体特征的叫做推断统计学
Tips:“算”出来的统计量,比如 中位数、平均值、众数 这些;“猜”出来的叫推断统计学,比如通过样本数据来推断总体的数字特征。
下面这张图展示了统计学两大分支:描述统计与推断统计。其中推断统计又分两大学派,频率学派与贝叶斯学派。这些内容大家先知道就行,后面再展开。
这里分享一个你一定用得到的小程序——CDA数据分析师考试小程序。
它是专为CDA数据分析认证考试报考打造的一款小程序。可以帮你快速报名考试、查成绩、查证书、查积分,通过该小程序,考生可以享受更便捷的服务。
扫码加入CDA小程序,与圈内考生一同学习、交流、进步!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09