cda

数字化人才认证

首页 > 行业图谱 >

机器学习数据降维方法:PCA主成分分析

机器学习数据降维方法:PCA主成分分析
2020-06-16
PCA在机器学习中很常用,是一种无参数的数据降维方法。PCA步骤: 将原始数据按列组成n行m列矩阵X 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 求出协方差矩阵 求 ...

pandas数据处理:常用却不甚了解的函数,pd.read_excel()

pandas数据处理:常用却不甚了解的函数,pd.read_excel()
2020-06-01
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这 ...

数据管理框架中的元数据管理是什么?

数据管理框架中的元数据管理是什么?
2020-05-14
大数据时代下,凭借数据管理框架中的重要管理职能,元数据管理也越来越频繁的出现在大家的视野中。 元数据及应用也是数据仓库的重要组成部分,它是描述数据的数据(data about data),描述数据的属性信息,可以帮助 ...

如何用Python实现数据透视表?解除你对透视表的疑惑!

如何用Python实现数据透视表?解除你对透视表的疑惑!
2020-05-09
相信接触过Excel的小伙伴都知道,Excel有一个非常强大的功能“数据透视表”,使用数据透视表可以自由选择不同字段,用不同的聚合函数进行汇总,并建立交叉表格,用以从不同层面观察数据。这么强大的功能,在Python ...

R语言dplyr包学习笔记(详细版)

R语言dplyr包学习笔记(详细版)
2020-05-07
R语言dplyr包主要用于数据清洗和整理,主要功能有:行选择、列选择、统计汇总、窗口函数、数据框交集等是非常高效、友好的数据处理包,学清楚了,基本上数据能随意玩弄,对的,随意玩弄,简直大大提高数据处理及分 ...

千亿数据优化,如何绕过数据倾斜这头拦路虎?

千亿数据优化,如何绕过数据倾斜这头拦路虎?
2020-04-21
作者:dantezhao 前言: 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将 ...

一文读懂非关系型数据库(NoSQL)

一文读懂非关系型数据库(NoSQL)
2020-04-20
NoSQL(NoSQL = Not Only SQL ),意即\"不仅仅是SQL\"。 现代计算系统每天在网络上都会产生庞大的数据量。这些数据有很大一部分是由关系型数据库管理系统(RDBMSs)来处理,其严谨成熟的数学理 ...

HBase 的表结构

HBase 的表结构
2020-04-17
HBase 是一个NoSQL数据库,用于处理海量数据,可以支持10亿行百万列的大表,下面就了解一下数据是如何存放在HBase表中的 关系型数据库的表结构 为了更好的理解HBase表的思路,先回顾 ...

转行还是得趁早——数据分析师职场图鉴,全方位为您梳理

转行还是得趁早——数据分析师职场图鉴,全方位为您梳理
2020-04-09
随着大数据和人工智能时代的到来,传统企业开始向数据化和智能化转型。由此,数据分析师相关岗位的需求量逐年递增,近两年呈现出供不应求的状况,在未来很长一段时间这种需求还将继续保持下去。作为过 ...

Python数据分析入门教程(五):数据运算

Python数据分析入门教程(五):数据运算
2020-03-31
两列相加的具体实现如下图所示: 两列相乘的具体实现如下图所示: ...

Python数据分析入门教程(四):数值操作

Python数据分析入门教程(四):数值操作
2020-03-30
作者 | CDA数据分析师 我们把菜品挑选出来以后,就可以开始切菜了。比如要做凉拌黄瓜丝,把黄瓜找出来以后,那就可以把黄瓜切成丝了。 一、数值替换 数值替换就是将数 ...

Python数据分析入门教程(二):数据预处理

Python数据分析入门教程(二):数据预处理
2020-03-27
作者 | CDA数据分析师 从菜市场买来的菜,总有一些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品,拿到以后都要 ...

Python数据分析基础入门(一):获取数据源

Python数据分析基础入门(一):获取数据源
2020-03-27
作者 | CDA数据分析师 俗话说,巧妇难为无米之炊。不管你厨艺有多好,如果没有食材,也做不出香甜可口的饭菜来,所以想要做出饭菜来,首先要做的就是要买米买菜。而数据分析就好比是做饭, ...

R语言与tableau集成之可视化应用

R语言与tableau集成之可视化应用
2020-04-16
tableau是一款非常棒的数据可视化商业软件,通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库,在处理大型数据时一点都不逊色。缺点是其无法从事数据分析和挖掘工作,幸运的是,从tab ...

如何通过分类数据执行特征选择?

如何通过分类数据执行特征选择?
2020-03-09
作者 | Jason Brownlee 编译 | CDA数据分析师 特征选择是识别和选择与目标变量最相关的输入特征子集的过程。 使用实值数据(例如使用Pearson的相关系数)时,特征选择通常很简单,但是 ...

深度学习编码分类变量的3种方法

深度学习编码分类变量的3种方法
2020-03-09
作者 | CDA数据分析师 像Keras中的机器学习和深度学习模型一样,要求所有输入和输出变量均为数字。 这意味着,如果你的数据包含分类数据,则必须先将其编码为数字,然后才能拟合和评估模型。 两 ...

为什么统计学在机器学习中如此重要?

为什么统计学在机器学习中如此重要?
2020-03-02
作者 | Jason Brownlee 整理 | CDA数据分析师 统计学和机器学习是两个密切相关的领域。实际上,两者之间的界限有时可能非常模糊。但是,有一些方法显然属于统计领域,不仅在机器学习项目 ...

《囧妈》口碑扑街?Python告诉你,为何这次观众不买账了

《囧妈》口碑扑街?Python告诉你,为何这次观众不买账了
2020-02-05
CDA数据分析师 出品 【导语】:今天我们就来聊聊另类春节档的唯一一部电影《囧妈》,Python技术部分可以直接看第三部分。 2020年的春节档之前被誉为神仙打架,各显神通,可以说是史上最强的春节档, ...

Python数据分析入门教程(五):数据运算

Python数据分析入门教程(五):数据运算
2020-01-16
作者 | CDA数据分析师 进行到这一步就可以算是开始正式的烹饪了,在这部分之前的数据操作部分我们列举了一些不同维度的分析指标,这一章我们主要看看这些指标都是怎么计算出来的。 一、算术运算 ...

Python数据分析入门教程(四):数值操作

Python数据分析入门教程(四):数值操作
2020-01-16
作者 | CDA数据分析师 我们把菜品挑选出来以后,就可以开始切菜了。比如要做凉拌黄瓜丝,把黄瓜找出来以后,那就可以把黄瓜切成丝了。 一、数值替换 数值替换就是将数值A替换成B,可以用在异常值 ...

OK