Kmeans算法属于无监督学习的一种聚类算法,这种算法的目的为:在数据所属类别及类别数量不明确的前提下,依据数据自身的特点对数据进行聚类。聚类过程中,对于类别数量k的选取,需要一定的先验知识,也可根据“类 ...
2020-07-08最大后验估计(maximum a posteriori probability estimate), 简称为MAP。在贝叶斯统计学中,最大后验估计是通过利用经验数据获得对未观测量的点态估计。 与极大似然估计类似,不同的是,在似然函数后面多乘了一 ...
2020-07-08矩阵特征值与特征向量在机器学习算法中经常会用到,每次出现都有着其独特的意义,如果不能深入理解特征值和特征向量两个概念,对我们机器学习的实际应用会有很大影响。小编今天整理了特征值和特征向量的概念计算以 ...
2020-07-08召回率(Recall),也被称为 查全率,或者True Positive Rate,R= TP/(TP+FN) ; 反映了所有真正为正例的样本中被分类器判定出来为正例的比例。 精度,或者叫做精确率(precision):P = TP/(TP+FP);反映了被分类器 ...
2020-07-08混淆矩阵(confusion matrix),又被叫做错误矩阵(error matrix)。矩阵的每一列代表分类器对于样本的类别预测,矩阵的每一行代表版本所属的真实类别。 ’混淆矩阵‘这个名字来源于,它能够很容易的看到机器学习是 ...
2020-07-08数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。在python对数据的处理方式中,数据挖掘和数据分析是两个重要的方式,目 ...
2020-07-07anaconda是一个用于科学计算的python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。anaconda利用工具/命令conda来进行 ...
2020-07-07“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器 ...
2020-07-07假设检验是根据一定的假设条件,由样本推断总体的一种方法。 假设检验问题是统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总 ...
2020-07-07重复值处理是python数据清洗过程中的重要步骤,小编今天给大家整理了重复值检测及重复值处理的方法,希望对大家有所帮助。 python重复值处理的常用方法是删除,用duplicates(subset,keep,inplace)方法对进行重 ...
2020-07-07数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是 ...
2020-07-07虚拟机是什么?这可能对于没有一定计算机基础的小伙伴很难理解。虚拟机就是虚拟的年脑?其实这样理解也不错。虚拟机是在虚拟硬件上运行的虚拟操作系统(或应用程序环境,如JVM),它的硬盘是在一个文件中虚拟出来的, ...
2020-07-07Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,对那种对几个记录随机读写的在线事务处 ...
2020-07-07Linux与windows相比最大的不同就是,很多操作都需要命令来控制。小编整理了一些文件和目录经常会用到的Linux基本命令,希望对各位小伙伴使用Linux有所帮助。 文件和目录 cd /home 进入 \'/ home\' 目录\' ...
2020-07-07RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...
2020-07-07SQL语言,是结构化查询语言(StructuredQueryLanguage)的简称。SQL语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。下面小编整理了SQL语言的基本语法-增删改查,希望对大家 ...
2020-07-07数据分析是目前最火的行业之一,很多人都想加入,小编今天跟大家分享一些从数据分析就业指导老师那里偷师的求职小技巧,希望能帮助大家成功找到数据分析相关工作。 1. 职位搜索 我们平常搜索求职岗位的 ...
2020-07-07数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步,下面小编整理了几种常用的python数据清洗工具,希望对大家有所帮助。 目前在python中, numpy和pandas是最主流的数据清洗工具,N ...
2020-07-06缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。 python缺失的处理一般情况下有三种方法: (1)删掉缺失值数据 删除法是 ...
2020-07-06在处理数据的过程中,经常会遇到原数据部分内容的缺失,为了保证我们最终数据统计结果的正确性,通常我们有两种处理方式,第一种就是删除掉这些部分缺失的数据;第二种就是填补这些缺失的数据。接下来,我们主要介 ...
2020-07-06在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16