cda

数字化人才认证

首页 > 行业图谱 >

机器学习算法需要注意的一些问题

机器学习算法需要注意的一些问题
2016-05-05
机器学习算法需要注意的一些问题 对于机器学习的实际运用,光停留在知道了解的层面还不够,我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。 1 数据不平衡问 ...

随机森林(RF, RandomForest)介绍

随机森林(RF, RandomForest)介绍
2016-05-04
随机森林(RF, RandomForest)介绍 随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本 ...
机器学习中的随机森林模型
2016-04-21
机器学习中的随机森林模型 01 树与森林 在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合问题。过拟合一般由数据中的噪声和离群点 ...

机器学习—海量数据挖掘解决方案

机器学习—海量数据挖掘解决方案
2016-04-12
机器学习—海量数据挖掘解决方案 大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺 ...

大数据挖掘技术之DM经典模型(下)

大数据挖掘技术之DM经典模型(下)
2016-04-07
大数据挖掘技术之DM经典模型(下) 接着上篇大数据挖掘技术之DM经典模型(上)文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。 4、朴素贝叶斯模型 表查询模型简单有效 ...

R语言与机器学习(分类算法)支持向量机

R语言与机器学习(分类算法)支持向量机
2016-03-26
R语言与机器学习(分类算法)支持向量机 说到支持向量机,必须要提到july大神的《支持向量机通俗导论》,个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道 ...
实现大数据,从小样本中筛选海量样本
2016-01-21
实现大数据,从小样本中筛选海量样本 从小样本到大数据:概念与误区 最近两年产生并记录的数据,总量占到人类文明以来所有数据总和的90%。我们源源不断记录着一切有价值的信息,世界和万物的变化数据变成一 ...

大数据精准营销中的个性化推荐与应用

大数据精准营销中的个性化推荐与应用
2015-12-24
大数据精准营销中的个性化推荐与应用 亚马逊通过个性化推荐所获取的交易额占总交易额的20%;双十一期间,天猫和淘宝通过对数据的挖掘,使用了“千人千面”的个性化推荐;阿里CEO张勇在之后的媒体沟通会上肯 ...

欠拟合产生的原因有哪些?应该如何解决?

欠拟合产生的原因有哪些?应该如何解决?
2020-07-23
对于机器学习或者是深度学习模型来说,我们既希望这个模型能在训练数据中表现良好(训练误差),又希望这个模型在测试集中也能有良好的表现(泛化误差)。而过拟合和欠拟合就是用来描述泛化误差的。欠拟合问题与过拟合 ...

正则化---提高深度学习模型的泛化能力

正则化---提高深度学习模型的泛化能力
2020-07-23
前面文章小编简单给大家介绍了泛化能力的一些基础知识,今天给大家带来的是提高模型泛化能力的方法--正则化。 一、首先来回顾一下什么是泛化能力 泛化能力(generalization ability),百科给出的定义是:机器 ...

机器学习中的偏差和方差是什么?有哪些区别?

机器学习中的偏差和方差是什么?有哪些区别?
2020-07-20
偏差与方差是我们在机器学习中经常遇到的两个概念,而且在有关机器学习的面试中,偏差与方差也经常拿来考验面试者的机器学习的基础知识。偏差与方差这两者看似简单,但要真正弄清楚两者之间的联系与区别,必须要下 ...

决策树剪枝,常用这2种方法

决策树剪枝,常用这2种方法
2020-07-09
前面我们了解了决策树的概念,现在来了解一下决策树剪枝。可能会有人问:为什么要剪枝?答案是:如果一棵决策树完全生长,那么这棵决策树所对应的每一个叶节点中只会包含一个样本,就很有可能面临过拟合问题,因此 ...
XGBoost算法的这3类参数,你知道吗?
2020-07-09
XGBoost是诞生于2014年2月的一种专攻梯度提升算法的机器学习函数库,它有很好的学习效果,速度也非常快,与梯度提升算法在另一个常用机器学习库scikit-learn中的实现相比,XGBoost的性能可以提升10倍以上。还有,X ...
随机森林(Random Forest)算法的优点和缺点都有哪些?
2022-12-23
随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问题。下面小编整理了随机森林的优点和缺点,希望对大家有所帮助。 随机森林有许多优 ...

3种常见集成算法模型的详细理解

3种常见集成算法模型的详细理解
2020-07-08
集成算法(Emseble Learning)是构建多个学习器,然后通过一定策略将这些学习器组合起来,让它们来完成学习任务的,通常可以获得比单一学习显著优越的学习器。 常见的集成算法模型有:Bagging、Boosting、Stack ...

对于KNN算法概念以及原理的简单理解

对于KNN算法概念以及原理的简单理解
2020-07-09
KNN的全称是K-Nearest Neighbors,具体意思为K个最近的邻居。KNN算法可以说是机器学习算法中最简单、最基础的算法了。既能用于分类,也能用于回归。是通过测量不同特征值之间的距离来进行分类。 KNN的基本思路 ...

如何理解欠拟合?常用的处理方法有哪些?

如何理解欠拟合?常用的处理方法有哪些?
2020-07-08
一、欠拟合概念及理解 机器学习中欠拟合是一个常见的问题,简单来说就是模型在训练和预测时表现都欠佳的情况。一个欠拟合的机器学习模型不是一个良好的模型并且在训练数据上表现不好这是显而易见的。 图 ...

最大后验估计MAP是什么?它是怎么推导出来的?

最大后验估计MAP是什么?它是怎么推导出来的?
2020-07-08
最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中,最大后验估计是通过利用经验数据获得对未观测量的点态估计。 与极大似然估计类似,不同的是,在似然函数后面多乘了一 ...
特征工程是什么?常用的方法有哪些?
2020-07-07
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...
SVM和LR有哪些相同点和不同点
2020-07-03
SVM和LR是机器学习中常用的算法,今天就让我们来看一下这两者有哪些相同点和不同点吧。 SVM和LR的相同点: 1.LR和SVM都是有监督的学习 2.LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在 ...

OK