常用的机器学习&数据挖掘知识(点）-CDA数据分析师官网

常用的机器学习&数据挖掘知识(点）

2015-12-20

常用的机器学习&数据挖掘知识(点）

Basis(基础)：

MSE(Mean Square Error 均方误差)，

LMS(LeastMean Square 最小均方)，

LSM(Least Square Methods 最小二乘法)，

MLE(MaximumLikelihood Estimation最大似然估计)，

QP(Quadratic Programming 二次规划)，

CP(Conditional Probability条件概率)，

JP(Joint Probability 联合概率)，

MP(Marginal Probability边缘概率)，

Bayesian Formula(贝叶斯公式)，

L1 /L2Regularization(L1/L2正则，

以及更多的，现在比较火的L2.5正则等)，

GD(GradientDescent 梯度下降)，

SGD(Stochastic Gradient Descent 随机梯度下降)，

Eigenvalue(特征值)，

Eigenvector(特征向量)，

QR-decomposition(QR分解)，

Quantile (分位数)，

Covariance(协方差矩阵)。

Common Distribution(常见分布)：

Discrete Distribution(离散型分布)：

BernoulliDistribution/Binomial(贝努利分布/二项分布)，

Negative BinomialDistribution(负二项分布)，

MultinomialDistribution(多项式分布)，

Geometric Distribution(几何分布)，

HypergeometricDistribution(超几何分布)，

Poisson Distribution (泊松分布)。

Continuous Distribution (连续型分布)：

UniformDistribution(均匀分布)，

Normal Distribution /Guassian Distribution(正态分布/高斯分布)，

ExponentialDistribution(指数分布)，

Lognormal Distribution(对数正态分布)，

GammaDistribution(Gamma分布)，

Beta Distribution(Beta分布)，

Dirichlet Distribution(狄利克雷分布)，

Rayleigh Distribution(瑞利分布)，

Cauchy Distribution(柯西分布)，

Weibull Distribution (韦伯分布)。

Three Sampling Distribution(三大抽样分布)：

Chi-squareDistribution(卡方分布)，

t-distribution(t-distribution)，

F-distribution(F-分布)。

Data Pre-processing(数据预处理)：

Missing Value Imputation(缺失值填充)，

Discretization(离散化)，Mapping(映射)，

Normalization(归一化/标准化)。

Sampling(采样)：

Simple Random Sampling(简单随机采样)，

OfflineSampling(离线等可能K采样)，

Online Sampling(在线等可能K采样)，

Ratio-based Sampling(等比例随机采样)，

Acceptance-RejectionSampling(接受-拒绝采样)，

Importance Sampling(重要性采样)，

MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法：Metropolis-Hasting& Gibbs)。

Clustering(聚类)：

K-Means，

K-Mediods，

二分K-Means，

FK-Means，

Canopy，

Spectral-KMeans(谱聚类)，

GMM-EM(混合高斯模型-期望最大化算法解决)，

K-Pototypes，CLARANS(基于划分)，

BIRCH(基于层次)，

CURE(基于层次)，

DBSCAN(基于密度)，

CLIQUE(基于密度和基于网格)。

Classification&Regression(分类&回归)：

LR(Linear Regression 线性回归)，

LR(LogisticRegression逻辑回归)，

SR(Softmax Regression 多分类逻辑回归)，

GLM(GeneralizedLinear Model 广义线性模型)，

RR(Ridge Regression 岭回归/L2正则最小二乘回归)，

LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归)，

RF(随机森林)，

DT(DecisionTree决策树)，

GBDT(Gradient BoostingDecision Tree 梯度下降决策树)，

CART(ClassificationAnd Regression Tree 分类回归树)，

KNN(K-Nearest Neighbor K近邻)，

SVM(Support VectorMachine)，

KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、

Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、

String KernelFunction 字符串核函数)、

NB(Naive Bayes 朴素贝叶斯)，BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)，

LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别)，

EL(Ensemble Learning集成学习Boosting，Bagging，Stacking)，

AdaBoost(Adaptive Boosting 自适应增强)，

MEM(MaximumEntropy Model最大熵模型)。

Effectiveness Evaluation(分类效果评估)：

Confusion Matrix(混淆矩阵)，

Precision(精确度)，Recall(召回率)，

Accuracy(准确率)，F-score(F得分)，

ROC Curve(ROC曲线)，AUC(AUC面积)，

LiftCurve(Lift曲线) ，KS Curve(KS曲线)。

PGM(Probabilistic Graphical Models概率图模型)：

BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络)，

MC(Markov Chain 马尔科夫链)，

HMM(HiddenMarkov Model 马尔科夫模型)，

MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型)，

CRF(ConditionalRandom Field 条件随机场)，

MRF(MarkovRandom Field 马尔科夫随机场)。

NN(Neural Network神经网络)：

ANN(Artificial Neural Network 人工神经网络)，

BP(Error BackPropagation 误差反向传播)。

Deep Learning(深度学习)：

Auto-encoder(自动编码器)，

SAE(Stacked Auto-encoders堆叠自动编码器，

Sparse Auto-encoders稀疏自动编码器、

Denoising Auto-encoders去噪自动编码器、

Contractive Auto-encoders 收缩自动编码器)，

RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机)，

DBN(Deep Belief Network 深度信念网络)，

CNN(ConvolutionalNeural Network 卷积神经网络)，

Word2Vec(词向量学习模型)。

DimensionalityReduction(降维)：

LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别，

PCA(Principal Component Analysis 主成分分析)，

ICA(IndependentComponent Analysis 独立成分分析)，

SVD(Singular Value Decomposition 奇异值分解)，

FA(FactorAnalysis 因子分析法)。

Text Mining(文本挖掘)：

VSM(Vector Space Model向量空间模型)，

Word2Vec(词向量学习模型)，

TF(Term Frequency词频)，

TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率)，

MI(MutualInformation 互信息)，

ECE(Expected Cross Entropy 期望交叉熵)，

QEMI(二次信息熵)，

IG(InformationGain 信息增益)，

IGR(Information Gain Ratio 信息增益率)，

Gini(基尼系数)，

x2 Statistic(x2统计量)，

TEW(TextEvidence Weight文本证据权)，

OR(Odds Ratio 优势率)，

N-Gram Model，

LSA(Latent Semantic Analysis 潜在语义分析)，

PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析)，

LDA(Latent DirichletAllocation 潜在狄利克雷模型)。

Association Mining(关联挖掘)：

Apriori，

FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法)，

AprioriAll，

Spade。

Recommendation Engine(推荐引擎)：

DBR(Demographic-based Recommendation 基于人口统计学的推荐)，

CBR(Context-basedRecommendation 基于内容的推荐)，

CF(Collaborative Filtering协同过滤)，

UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐)，

ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。

Similarity Measure&Distance Measure(相似性与距离度量)：

Euclidean Distance(欧式距离)，

ManhattanDistance(曼哈顿距离)，

Chebyshev Distance(切比雪夫距离)，

MinkowskiDistance(闵可夫斯基距离)，

Standardized Euclidean Distance(标准化欧氏距离)，

MahalanobisDistance(马氏距离)，

Cos(Cosine 余弦)，

HammingDistance/Edit Distance(汉明距离/编辑距离)，

JaccardDistance(杰卡德距离)，

Correlation Coefficient Distance(相关系数距离)，

InformationEntropy(信息熵)，

KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。

Optimization(最优化)：

Non-constrainedOptimization(无约束优化)：

Cyclic VariableMethods(变量轮换法)，

Pattern Search Methods(模式搜索法)，

VariableSimplex Methods(可变单纯形法)，

Gradient Descent Methods(梯度下降法)，

Newton Methods(牛顿法)，

Quasi-NewtonMethods(拟牛顿法)，

Conjugate Gradient Methods(共轭梯度法)。

ConstrainedOptimization(有约束优化)：

Approximation Programming Methods(近似规划法)，

FeasibleDirection Methods(可行方向法)，

Penalty Function Methods(罚函数法)，

Multiplier Methods(乘子法)。

Heuristic Algorithm(启发式算法)，

SA(SimulatedAnnealing，

模拟退火算法)，

GA(genetic algorithm遗传算法)。

Feature Selection(特征选择算法)：

Mutual Information(互信息)，

DocumentFrequence(文档频率)，

Information Gain(信息增益)，

Chi-squared Test(卡方检验)，

Gini(基尼系数)。

Outlier Detection(异常点检测算法)：

Statistic-based(基于统计)，

Distance-based(基于距离)，

Density-based(基于密度)，

Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序)：

Pointwise：McRank；

Pairwise：RankingSVM，RankNet，Frank，RankBoost；

Listwise：AdaRank，SoftRank，LamdaMART。

Tool(工具)：

MPI，Hadoop生态圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…

以及一些具体的业务场景与case等。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

特征神经网络协同过滤最小二乘 SVM Apriori 正态分布逻辑回归

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

常用的机器学习&数据挖掘知识(点）

Basis(基础)：

Deep Learning(深度学习)：

Tool(工具)：

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...