cda

数字化人才认证

首页 > 行业图谱 >

123456789 6/9

一文读懂聚类算法

一文读懂聚类算法
2018-01-11
一文读懂聚类算法 1. 聚类的基本概念 1.1 定义 聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中 ...

数据科学的基本内容

数据科学的基本内容
2018-01-08
数据科学的基本内容 什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不同?作为一门新兴的学科,数据科学依赖两个因素:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都 ...

克服大数据集群的挑战

克服大数据集群的挑战
2018-01-04
克服大数据集群的挑战 数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步,存储数据不再是关键问题。如今,数据科学家所面临的最大问题是数据收集。 集群化使得大数据分析更容易。然而,集群也给数 ...

奇异值分解(SVD)原理详解及推导

奇异值分解(SVD)原理详解及推导
2017-12-22
奇异值分解(SVD)原理详解及推导 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Deco ...

奇异值分解SVD的理解与应用

奇异值分解SVD的理解与应用
2017-12-22
奇异值分解SVD的理解与应用 为更好的理解这篇文章,现在这里列出几个文中出现的概念,想要更深的理解这些概念,可以看我的另一篇文章:关于特征值的理解。 向量的内积:两向量a=[a1,a2,…,an]和b=[b1,b2,…, ...

数据挖掘中,分类与聚类的区别

数据挖掘中,分类与聚类的区别
2017-12-11
数据挖掘中,分类与聚类的区别 本文对数据挖掘中,极为常见的两类算法:分类与聚类,做个梳理。 首先,来看看分类和聚类各自的一些定义描述。 分类(classification ): 分类算法需要学习,它通过学习找出描述 ...

数据挖掘中的分类和聚类

数据挖掘中的分类和聚类
2017-12-11
数据挖掘中的分类和聚类 分类(classification ):有指导的类别划分,在若干先验标准的指导下进行,效果好坏取决于标准选取的好坏。 它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标 ...

利用spark做文本分类(朴素贝叶斯模型)

利用spark做文本分类(朴素贝叶斯模型)
2017-12-10
利用spark做文本分类(朴素贝叶斯模型) 朴素贝叶斯模型 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基 ...
R语言中样本平衡的几种方法
2017-12-06
R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。在不平衡的数据中,任一算法都没法从样本量少的类中 ...

数据预处理和挖掘究竟该怎么做

数据预处理和挖掘究竟该怎么做
2017-11-24
数据预处理和挖掘究竟该怎么做 在这个充斥着怀疑和谎言的网络世界中,数据即真相。海量的原始数据正以惊人的速度增长,其中大部分都是非结构化的,但是通过运用分析我们可以发现其中重要的规律和线索以及隐藏在 ...

CDA邀你体验Datacastle国际大师赛

CDA邀你体验Datacastle国际大师赛
2017-08-10
流言蜚语中,我们如何找到谣言传播的引爆源?传染疾病肆虐,我们如何搜索超级传播者?金融危机中,如何发现风险的源头?...... 为了进一步探讨以上问题,数据科学竞赛平台DataCastle于6月13 ...

机器学习之深度学习

机器学习之深度学习
2017-07-25
机器学习之深度学习 本文基于台大机器学习技法系列课程进行的笔记总结。 一、主要内容 topic 1  深度神经网络结构 从类神经网络结构中我们已经发现了神经网络中的每一层实际上都是对前一层进 ...

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱
2017-07-24
机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱 本文主要解释一些关于机器学习模型评价的主要概念,与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验(Hold-out validation) ...

R语言主成分分析

R语言主成分分析
2017-07-18
R语言主成分分析 解决自变量之间的多重共线性和减少变量个数 根据主成分分析的原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法;另一 ...

【spss典型相关分析】数学建模__SPSS_典型相关分析

【spss典型相关分析】数学建模__SPSS_典型相关分析
2017-04-30
【spss典型相关分析】数学建模__SPSS_典型相关分析 典型相关分析 在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相 ...

简单易学的机器学习算法—Rosenblatt感知机

简单易学的机器学习算法—Rosenblatt感知机
2017-04-03
简单易学的机器学习算法—Rosenblatt感知机 一、感知机的概念     感知机是一种二类分类的线性模型,输入实例的特征向量,输出为实例的类别,即+1或者-1。感知机模型是神经网络和支持向量机的基 ...

简单易学的机器学习算法—谱聚类(Spectal Clustering)

简单易学的机器学习算法—谱聚类(Spectal Clustering)
2017-03-28
简单易学的机器学习算法—谱聚类(Spectal Clustering) 一、复杂网络中的一些基本概念 1、复杂网络的表示 在复杂网络的表示中,复杂网络可以建模成一个图,其中,V表示网络中的节点的集合,E表示的是连 ...

简单易学的机器学习算法—主成分分析(PCA)

简单易学的机器学习算法—主成分分析(PCA)
2017-03-24
简单易学的机器学习算法—主成分分析(PCA) 一、数据降维     对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维 ...

简单易学的机器学习算法—SVD奇异值分解

简单易学的机器学习算法—SVD奇异值分解
2017-03-24
简单易学的机器学习算法—SVD奇异值分解 一、SVD奇异值分解的定义     假设M是一个的矩阵,如果存在一个分解: 其中的酉矩阵,的半正定对角矩阵,的共轭转置矩阵,且为的酉矩阵。这样的分解称 ...

在R中使用支持向量机(SVM)进行数据挖掘(下)

在R中使用支持向量机(SVM)进行数据挖掘(下)
2017-03-18
在R中使用支持向量机(SVM)进行数据挖掘(下) 第二种使用svm()函数的方式则是根据所给的数据建立模型。这种方式形式要复杂一些,但是它允许我们以一种更加灵活的方式来构建模型。它的函数使用格式如下(注意 ...
123456789 6/9

OK