cda

数字化人才认证

首页 > 行业图谱 >

pandas数据结构:Series

pandas数据结构:Series
2020-06-16
pandas有Series和DataFrame两种数据结构,我们之前已经讲过了DataFrame,接下来给大家介绍下另一种数据结构Series。 什么是Series? # 自定义Series索引 arr = np.random.rand(5) s = pd.Series(arr, ind ...

百闻不如一练:随机森林等可视化调试模型超参数

百闻不如一练:随机森林等可视化调试模型超参数
2020-06-10
以下使用scikit-learn中数据集进行分享。 如果选用随机森林作为最终的模型,那么找出它的最佳参数可能有1000多种组合的可能,你可以使用使用穷尽的网格搜索(Exhaustive Grid Seaarch)方法,但时间成本将会很 ...

加快python算法的四个方法:Dask篇

加快python算法的四个方法:Dask篇
2020-06-08
CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下python的计算时间,减少大家在算法上的等待 ...

加快python算法的四个方法:数据并行化篇

加快python算法的四个方法:数据并行化篇
2020-06-09
CDA数据分析师 出品 相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已,接下来我们围绕四个方法来帮助大家加快一下Python的计算时间,减少大家在算法上的等待 ...

pandas数据处理:常用却不甚了解的函数,pd.read_excel()

pandas数据处理:常用却不甚了解的函数,pd.read_excel()
2020-06-01
人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这 ...

你了解matplotlib吗?多类别条形图篇

你了解matplotlib吗?多类别条形图篇
2020-05-29
这篇文章来探索下多类别条形图比如各学校包含语文、数学、英语三科成绩的条形图怎样绘制。在绘图之前,先来复习一下条形图函数中主要参数的含义: x控制的是每个条在x轴方向上的位置; height控制的是 ...

Kmeans优化算法:二分K-means聚类算法

Kmeans优化算法:二分K-means聚类算法
2020-05-29
算法的理解 Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代 ...

使用python来绘制漂亮的图表:pandas篇!

使用python来绘制漂亮的图表:pandas篇!
2020-05-27
使用Python绘制数据,可以使用三种不同方式,它们分别是pandas,Seaborn和Plotly。 我们将通过利用《 2019年世界幸福报告》中的数据来做到这一点。我用Gapminder和Wikipedia的信息丰富了《世界幸福报告》数据,以便 ...

超详细教程 | pandas合并之append和concat

超详细教程 | pandas合并之append和concat
2020-05-27
本篇文章主要介绍了pandas中对series和dataframe对象进行连接的方法:pd.append()和pd.concat(),文中通过示例代码对这两种方法进行了详细的介绍,希望能对各位python小白的学习有所帮助。 一、df.append(d ...

Kmeans算法精简版(无for loop循环)

Kmeans算法精简版(无for loop循环)
2020-05-27
大家在学习算法的时候会学习到关于Kmeans的算法,但是网络和很多机器学习算法书中关于Kmeans的算法理论核心一样,但是代码实现过于复杂,效率不高,不方便阅读。这篇文章首先列举出Kmeans核心的算法过程 ...

机器学习python应用,简单机器学习项目实践!

机器学习python应用,简单机器学习项目实践!
2020-05-25
上一篇文章中介绍了机器学习的简单知识,还有python中进行机器学习实践需要的生态环境,接下来将会通过鸢尾花分类这个例子对机器学习做一个简要的介绍。通过一步一步地实现这个项目来介绍以下内容。 导入和 ...

Python可视化工具推荐:图片交互性行极佳的Plotly

Python可视化工具推荐:图片交互性行极佳的Plotly
2020-05-25
1、 简单介绍 一般大家在学习python机器学习的时候,用的最多Python可视化的包就是matplot和seaborn, 这2个可视化的优点在于门槛低,代码容易理解,并且容易上手。唯一的可能的缺点就是画出来的图不能交互 ...

kmeans优化算法:二分K-means聚类算法

kmeans优化算法:二分K-means聚类算法
2020-05-21
Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢?就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代的过程中消失的 ...

sparkSQL和spark有什么区别?

sparkSQL和spark有什么区别?
2020-05-14
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。 sparkSQL提供了一 ...

Python可视化工具:Plotly

Python可视化工具:Plotly
2020-05-09
一般大家在学习python机器学习的时候,用的最多的可视化的包就是matplot和seaborn, 这2个可视化的优点在于门槛低,代码容易理解,并且容易上手。唯一的可能的缺点就是画出来的图不能交互,简单来说就是matplot和se ...

全国多地新冠病例0增长,教你用Python画出当下疫情最火玫瑰图!

全国多地新冠病例0增长,教你用Python画出当下疫情最火玫瑰图!
2020-04-28
CDA数据分析师 出品 近日,新冠肺炎防控成果的好消息不断。 今天我们聊聊,惊艳的疫情直观图。 据国家卫健委数据统计, 截止至3月10日24时,31省区市累计治愈出院病历超6 ...

Python数据分析之pandas数据结构

Python数据分析之pandas数据结构
2020-03-31
作者 | CDA数据分析师 之前的文章写了Python的基础知识,从这部分内容开始正式进入到正式的数据分析过程中,主要讲述每个数据分析过程都会用到什么操作,这些操作用Excel是怎样实现 ...

Python数据分析入门教程(五):数据运算

Python数据分析入门教程(五):数据运算
2020-03-31
两列相加的具体实现如下图所示: 两列相乘的具体实现如下图所示: ...

Python数据分析基础入门(一):获取数据源

Python数据分析基础入门(一):获取数据源
2020-03-27
作者 | CDA数据分析师 俗话说,巧妇难为无米之炊。不管你厨艺有多好,如果没有食材,也做不出香甜可口的饭菜来,所以想要做出饭菜来,首先要做的就是要买米买菜。而数据分析就好比是做饭, ...

如何通过分类数据执行特征选择?

如何通过分类数据执行特征选择?
2020-03-09
作者 | Jason Brownlee 编译 | CDA数据分析师 特征选择是识别和选择与目标变量最相关的输入特征子集的过程。 使用实值数据(例如使用Pearson的相关系数)时,特征选择通常很简单,但是 ...

OK