cda

数字化人才认证

首页 > 行业图谱 >

数据清洗中常用的异常值检测的几种方法
2020-06-30
异常值是指样本中的个别值,其数值明显偏离它(或它们们)所属样本的其余观测值。异常值分析目的是检验是否有录入错误的数据以及是否含有不合常理的数据时。如果对异常值的存在忽视不见,在数据的计算分析过程中把异 ...
机器学习里的无监督学习是什么?
2020-06-30
无监督学习是机器学习里的一种学习方式,下面将给大家具体解释一下无监督学习到底是什么? 首先我们可以对照监督学习来对比理解一下无监督学习的概念。 机器学习中,监督学习是一种明确的训练方式,你能够很 ...

机器学习中,线性与非线性的区别

机器学习中,线性与非线性的区别
2020-06-30
在机器学习中经常会遇到两个概念:线性、非线性。今天就让我们一起来看以下线性与非线性的。 一、一般在线性代数中,线性有以下两个特征: 齐次性:f(a*x)=a*f(x); 可叠加行:f(x+y)=f(x)+f(y)。 只要 ...

12306验证码为什么那么变态?都是这项深度学习应用给逼的

12306验证码为什么那么变态?都是这项深度学习应用给逼的
2020-06-29
作者:莫凡 来源:大数据DT(ID:hzdashuju) 导读:12306为什么要设置那么复杂的验证码机制呢?就是因为OCR。 今天聊OCR。 OCR是人工智能、机器学习特别是深度学习,在图像识别方向最为重要的应用之一。 ...
机器学习是什么?怎么理解?
2020-06-29
科技创新是经济发展的根本动力。在如今这一时代,AI人工智能就是推动经济发展的最重要的科技动力。特别是近些年来行业与AI人工智能的结合,释放了行业的潜力,重塑着人们的日常工作和生活。在AI人工智能备受关注、 ...

什么是数字化转型?来自IBM、微软、阿里的精华观点和实践

什么是数字化转型?来自IBM、微软、阿里的精华观点和实践
2020-06-28
作者:付晓岩 来源:大数据DT(ID:hzdashuju) 导读:众多企业管理者都将“数字化转型”视为战略核心,那么“数字化转型”应该已经有了一个清晰的概念才对,但实际上却并非如此。经过笔者多方收集,似乎大家 ...
数据仓库中元数据的概念及作用
2020-06-28
不知道大家有没有接触过“元数据”一词,元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。 下面,就让我们来看一下什么是“元数据”。 按照传统的定义,元 ...
用户画像是什么?有什么作用?
2020-06-28
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、 ...

手把手教你用直方图、饼图和条形图做数据分析(Python代码)

手把手教你用直方图、饼图和条形图做数据分析(Python代码)
2020-06-24
导读:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。 作者:张良均 谭立云 刘名军 江建明 来源:大数据DT(ID:hzdashuju) 内容摘编自《Python数据 ...

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?
2020-06-24
导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个 ...

机器学习数据降维方法:PCA主成分分析

机器学习数据降维方法:PCA主成分分析
2020-06-16
PCA在机器学习中很常用,是一种无参数的数据降维方法。PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 求出协方差矩阵 求 ...

ML基础:无监督学习之协方差矩阵

ML基础:无监督学习之协方差矩阵
2020-06-16
在翻译sklearn文档 2.无监督学习 部分过程中,发现协方差矩阵几乎贯穿整个章节,但sklearn指导手册把协方差部分放在了这一章节偏后的部分,作为机器学习一个基础概念,在这篇文章中,想把协方差矩阵的相关知识以及 ...

交叉验证:评估模型的泛化能力表现

交叉验证:评估模型的泛化能力表现
2020-06-16
注明:本文章所有代码均来自scikit-learn官方网站 在实际情况中,如果一个模型要上线,数据分析员需要反复调试模型,以防止模型仅在已知数据集的表现较好,在未知数据集上的表现较差。即要确保模型的泛化能力 ...

朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve)

朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve)
2020-06-10
算法回顾 图片来源:https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5 贝叶斯分类算法属于有监督机器学习(Su ...

Kmeans优化算法:二分K-means聚类算法

Kmeans优化算法:二分K-means聚类算法
2020-05-29
算法的理解 Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代 ...

非参数统计检验中的假设检验是指什么?

非参数统计检验中的假设检验是指什么?
2020-05-29
1980年代末,汉斯拉伊大学(Hansraj College)经济学荣誉毕业生的平均薪酬约为每年100万印度卢比。这一数字大大高于80年代初或90年代初毕业的人们。 他们平均水平如此之高的原因是什么呢?沙鲁克·汗是印度收入最 ...

使用python构建一个推荐系统需要几步?

使用python构建一个推荐系统需要几步?
2020-05-29
在我看来,作为一位中国人的我们不管做什么决定都在面临多种选择。例如,如果我这个时候想要买一本书,但是我却不知道我想看什么书、不知道类型、不知道方向,那么这个时候打开各种进行软件搜索可能会出现各种各样 ...

机器学习的数据清理以及数据标准化!

机器学习的数据清理以及数据标准化!
2020-05-29
没有干净的原始数据,为了满足机器学习怼数据的要求,必须过滤数据。例如, 1、查看数据,并排除所有缺少大量数据的列。 2、再次查看数据,然后选择要用于预测的列(特征选择)。进行迭代时,可能需要 ...

机器学习中的有监督和无监督都包括些什么?

机器学习中的有监督和无监督都包括些什么?
2020-05-29
机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测 ...

深度学习算法:CNN、RNN、LSTM、TensorFlow等之间的关系!

深度学习算法:CNN、RNN、LSTM、TensorFlow等之间的关系!
2020-05-27
用于实际问题的深度神经网络可能具有10层以上的隐藏层。它的拓扑可能很简单,也可能很复杂。网络中的层越多,它可以识别的特征就越多。不幸的是,网络中的层越多,计算所需的时间就越长,并且训练起来就越困难。 ...

OK