决策树决策树(decision tree)是一种基本的分类与回归方法决策树由结点(node)和有向边(directed edge)组成结点类型:根结点(root node),内部结点(internal node)和叶结 点(leaf node)决策树:可以把决策树看成一个if-else规则的集合由决策树的根结点到叶结点的每一条路径构建一条规则路径上内部结点的特征对应着规则的条件,而叶结点的类对应着
于家崎
2020-08-26
聚类聚类(Clustering):将数据集划分为若干相似对象组成的多个组(group) 或簇(cluster)的过程,使得同一组中对象间的相似度最大化,不同组 中对象间的相似度最小化。或者说一个簇(cluster)就是由彼此相似的 一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低聚类分析指将物理或抽象对象的集合分组为由类似的对象 组成的多个类的分析过程。它是一种重要的人类行为。聚类源于很
于家崎
2020-08-25
K近邻算法K最近邻(kNN,k-Nearest Neighbor):工作原理:存在一个样本数据集合,也称作为训练样本集,并且样 本集中每个数据都存在标签,即每一个数据与所属分类的一一对应 关系。输入没有标签的新数据后,将新的数据的每个特征与样本集 中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻) 的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻 算法中k的出
于家崎
2020-08-24
算法特征汇总最小二乘法 (1)多元回归中,ols 可以处理多个自变量的情况,寻求残差平方和最小化; (2)将数据视为矩阵,利用线性代数寻求系数最优化,对内存要求很高; (3)大数据场景下,存在线性和内存约束问题。 (4)小数据情况的常用算法; 正则化法——约束 (1)一方面寻求最小化模型误差,另一方面可以减少模型复杂度(取 L1 绝对值),如自 变量个数很多的时候,选择较少的重要变量来表示
于家崎
2020-08-18
PYECHARTS介绍pyecharts 中⽂⽂档 https://pyecharts.org/#/zh-cn/ github 主⻚ https://github.com/pyecharts/ pyecharts新版本修改说明https://github.com/pyecharts/ pyecharts/issues/1033
于家崎
2020-08-14
数据可视化——Matplotlib风格style查看风格:style.available使用风格:style.use("风格")设置支持中文字体显示:windows电脑 Matplotlib 支持中文plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsemac电脑正常显示中文plt.r
于家崎
2020-08-13
DataFrameDataFrame 是一个带有索引的二维数据结构,每列可以有自己的名字,并且可以有不同的数据类型。你可以把它想象成一个 excel 表格或者数据库中的一张表,DataFrame 是最常用的 Pandas 对象。创建在构建 DataFrame 的时候,主要有两种思路数据为字典类的格式, 是以列的方式进行组织, 字典的 key 将会作为列名,字典的值value作为列的数据.数据为列表
于家崎
2020-08-11
Panads介绍Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中.在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作.Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。在Pandas中, 最重要的两种数据结构是1维
于家崎
2020-08-11
NumpyNumpy 是 Python 的一个科学计算包,包含了多维数组以及多维数组的操作。Numpy 的核心是 ndarray 对象,这个对象封装了同质数据类型的n维数组。起名 ndarray 的原因就是因为是 n-dimension-array 的简写。ndaarray:只能有一种数据类型,而且每个元素占用内存空间大小相同。import numpy as np 加载numpy包Numpy 常见
于家崎
2020-08-10
函数函数的基本构成:def function_name(parameter): function_body1.在定义函数的时候,python是允许函数功能为空的,也就是我们上面第一个例子。2.同样,我们的小括号“( )”中的参数也可以为空,换句话说,就是当我们调用这个函数的时候,函数会直接执行函数包裹的代码块。3.含参数的函数,即将同样的参数名称的传入值代码块相应位置,参
于家崎
2020-08-06
代码结构1.if else条件判断语句:if 条件: #(若条件成立,所执行的语句)else(这里的条件省略,因为与if条件互斥“非彼即此”): #(若条件不成立,所执行的语句)2.if elif else条件判断语句:if 条件1: #(满足条件1时执行的语句)elif 条件2: #(满足条件2时执行的语句) #...elif 条件n-1: #(满足条件n-1时执行的
于家崎
2020-08-05
基本容器容器:列表、元组、字典以及集合。Python还有两种序列结构:元组和列表。他们都可包含零个或者多个元素。1.列表[ ]列表是一个有序的序列结构2.元组( )与列表类似,元组也是由任意类型元素组成的序列。与列表不同的是,元组是不可变的,这意味着一旦元组被定义,将无法再进行增加、删除或修改元素等操作。因此,元组就像是一个常量列表。3.字典{key:value }字典(dictionary),与
于家崎
2020-08-04
Python基础Python中最基本的数据类型:>> 1. 布尔类型(bool):表示真假的类型,仅包含True(真)和False(假)两种取值> 2. 整型(int):表示整数,例如1,2,1000,10000> 3. 浮点型(float):表示小数,例如3.1415;或是科学记数法表示的数字,例如:3.14e3(3.14的乘以10的3次方)> 4. 字符串类型(str):表示字符组成的有序序列
于家崎
2020-08-03
列联分析用来分析定性数据对定性数据的影响。相当于检验多总体比例是否一致。理论数=行合*列合/总合Excel中使用CHITEST 进行列联分析,注意数据的排法不同带来的自由度也不同。(需要先计算期望数据)列联分析主要有两大作用:拟合优度检验和独立性检验。方差分析用来分析定性数据对定量数据是否有影响。组内比较SSE组间比较SSA所有数据一起比较SST可以证明得到:SST=SSE+SSA进一步计算方差组
于家崎
2020-07-29
假设检验——已知部分信息但不知道是否正确假设检验的概念(1)假设(hypothesis) 一般定义:对事物未知事实的一种陈述。统计学定义:对总体参数的的数值所作的一种陈述。(2)假设检验(hypothesis testing)1)定义:事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立;2)地位:是统计方法(描述性统计和推断性统计)中推断性统计(参数估计和假设检验)的两大方
于家崎
2020-07-28
推断统计估计均值、标准差包含了一组数据的大部分主要信息;我们可以借助均值、标准差进行进一步的估计。参数估计:已知或假定分布。非参数估计:未知且无法假定(常借用“秩”进行估计,即数据的大小顺序)。参数估计的四步骤:1.选定参数——确定需要估计的参数2.选定统计量——确定估计参数的统计量3.抽样分布——已知或假定模型分布4.估计——得出结果一.选定参数1.总体均值的估计:单总体均值,两总体均值之差2.
于家崎
2020-07-27
什么是统计学统计学是一门收集,处理,分析,解释并从中得出结论的科学。核心:数据数据分析步骤:收集数据=》处理数据=》分析数据=》解释数据统计学运用在分析数据的方法分为两大类:描述性数据方法。总体规模、对比关系、集中趋势、离散程度、偏态、 峰态、......推断性数据分析方法。估计、假设检验、列联分析、方差分析、相关分析、 回归分析、......统计学的对象是数据数据有两种形式:数字和文字。如何区分
于家崎
2020-07-24
销售漏斗对整个销售业务有着巨大的价值控制销售过程,有针对性的快速解决销售问题了解销售情况,准确预测销售业绩及时指导及监督销售人员工作,避免客户流失,提高赢单率实现营销管理的最高境界 ---- 标准化管理销售漏斗数据要求应保证销售漏斗数据的准确性与时效性1.准确性销售阶段内容准确:销售阶段内容应严格依据销 售阶段定义如实录入系统商机金额准确:应如实估算商机金额,尽量做到 商机金额与最终成交金额相同角
于家崎
2020-07-21
销售管理分析: 销售漏斗管理模型概念介绍销售运营与数据分析:数据驱动销售运营业务,实现销售利润最大化为目。1.了解及把握过去及现在的销售情况2.可视化呈现销售数据趋势3.迅速把握与战略相关重要KPI指标情况4.为制定应对决策提供客观数据依据5.提前预测销售趋势走向6.检验过往销售策略的得失销售管理分析的重要性:对于销售人员:1.改善销售行为、预测业务达成率、管理商机进度2.提前掌握风险商机,及时制
于家崎
2020-07-20
电商案例 – 流量分析电商黄金公式: 销售额 = 流量 * 转化率 * 客单价流量相关重要指标:流量数量重要指标:1.访客数(UV):到达店铺页面的非重复用户数2.浏览量(PV):店铺内浏览和查看页面的累加次数3.访问次数(Visits):一个会话内被用户连续访问的次数(登录访问后退出,再次访问)4.新访客数: 新进访客数流量质量重要指标:1.平均访问深度:浏览量 / 访问次数2.跳失率:跳出次数
于家崎
2020-07-17