cda

数字化人才认证

首页 > 行业图谱 >

什么是flume?它在大数据处理中起到什么作用?

什么是flume?它在大数据处理中起到什么作用?
2020-07-16
Flume 是 Apache 旗下的一款,开源,可靠性高,扩展性高,管理简单,并且能够支持客户扩展的数据采集系统。 Flume 是使用 JRuby 来构建的,因此依赖于 Java 运行环境。Flume 起初是由 Cloudera 的工程师设计出来, ...
Hbase是什么?与Hive有哪些区别?
2020-07-14
HbaseE是一个具有高可靠性、高性能特点、面向列、可伸缩的分布式存储系统。利用Hbase技术能够在廉价PC Server上搭建起大规模结构化存储集群。Hbase的目标为:存储并处理大型的数据。更进一步说就是仅需通过普通的 ...

Hive基本介绍及安装应用方法

Hive基本介绍及安装应用方法
2020-07-14
Hive是一款基于Hadoop的数据仓库工具,通常被用于数据提取、转化、加载,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive最大的优点是学习成本低, ...

spark入门必读:核心概念介绍及常用RDD操作

spark入门必读:核心概念介绍及常用RDD操作
2020-07-13
作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...
这几种分布式计算框架,你必须知道!
2020-07-10
对于大数据的处理问题,计算机科学界有两大方向:一是集中式计算,另外一种是分布式计算。小编今天给大家整理的是几种主流的分布式计算框架,希望对大家有所帮助。 Hadoop是基础,它的HDFS能够存储文件,Yarn进 ...
数据湖是什么?它与数据仓库一样吗?
2020-07-07
数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是 ...

Hadoop是什么意思,有哪些作用?

Hadoop是什么意思,有哪些作用?
2020-07-07
Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,对那种对几个记录随机读写的在线事务处 ...

RDD是什么?它有哪些基本属性?

RDD是什么?它有哪些基本属性?
2020-07-07
RDD 即 Resilient Distributes Dataset, 叫做弹性分布式数据集,是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD。RDD具有数据流模型的特点:自动容错、位置感知 ...

数据分析师的发展方向有哪几方面?

数据分析师的发展方向有哪几方面?
2020-06-30
数据分析行业大火,很多小伙伴都想转行成为数据分析师,入行容易,但重要的需要确定未来的一个发展方向,不能盲目入行。下面小编给大家分享几种数据分析师的发展方向,大家可以参考一下,首先确定好自己的目标。 ...

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?

从Hadoop到ClickHouse,现代BI系统有哪些问题?如何解决?
2020-06-24
导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个 ...

Hadoop:伪分布模式环境变量的配置

Hadoop:伪分布模式环境变量的配置
2020-06-05
单节点集群模式(a Single Node Cluster)又称伪分布模式,只需一个节点即可运行。这种模式一般只是用来学习或者开发、测试使用。实际使用中还是使用多节点的分布式。 1、环境变量配置 为了方便的执行Hadoop ...

分布式集群参数master节点:DataNode、NameNode等相关配置

分布式集群参数master节点:DataNode、NameNode等相关配置
2020-06-03
之前的文章中我们已经将master节点的网络IP、hostname文件、hosts文件配置完成,接下来还有hadoop相关配置文件需要修改。今天我们来讲master节点hadoop的配置。 1、hdfs-site.xml 在hadoop的配置文件中与HDF ...

Hbase:安装及模式配置指南

Hbase:安装及模式配置指南
2020-06-03
所谓知己知彼,百战不殆!在安装HBASE前,我们需要了解它的版本,从而好进行选择与下载。 通过之前介绍的Hbase的集群架构,我们可以知道Hbase数据需要存储在HDFS上,因此在选择Hbase版本时要兼顾之前安装的Hado ...

MXNet很强大吗?它有什么优势?

MXNet很强大吗?它有什么优势?
2020-05-21
MXNet是一个深度学习框架,是亚马逊(Amazon)选择的深度学习库,旨在提高效率和灵活性。 MXNet具有轻量级、便携式、灵活的分布式/移动深度学习等优势,具有动态,突变感知的数据流Dep调度程序。 它拥有类似于 The ...

大数据之HiveSQL安装配置!

大数据之HiveSQL安装配置!
2020-05-14
hive默认将元数据存储到本地内嵌的Derby数据库中,但是Derby不支持多会话链接,因此我们使用mysql数据库来存储hive的元数据。配置完成hiveSQL的元数据库之后再开始安装、配置hive。 1、在线安装mysql ...

NameNode和Datanode分别是什么?

NameNode和Datanode分别是什么?
2020-05-12
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。 NameNode是Master节点,有点类似Linux里的根目录,是管理文件系统的命名空间。管理数据块映射 ...

kudu是什么意思?

kudu是什么意思?
2020-05-12
Kudu是一个列式存储的用于快速分析的NoSQL数据库,提供了类似SQL的查询语句,与RDBMS十分类似,有**PRIMARY KEY **,基于主键查询而不是HBase的RowKey。 kudu拥有毫秒级延迟 与其他大数据数据库不同,Kud ...

如何使得数据科学家更加市场化?

如何使得数据科学家更加市场化?
2019-11-06
作者 | Andrew Ste 编译 | CDA数据分析师 How to Become More Marketable as a Data Scientist 作为一名数据科学家,你处在一个高需求的位置。那么,你如何才能更好地提高你的市场竞 ...

当下大数据发展的 8 个要点

当下大数据发展的 8 个要点
2019-11-04
作者 | 章剑锋 笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapRedu ...

大数据的分布式数据库的发展趋势如何?

大数据的分布式数据库的发展趋势如何?
2019-02-26
现在大数据是一个十分火热的技术,这也使得很多人都开始关注大数据的任何动态,因为大数据在某种程度上来说能够影响我们的生活。在这篇文章中我们就给大家介绍一下大数据的分布式数据库的发展趋势,希望 ...

OK