大数据学习之BigData常用算法和数据结构-CDA数据分析师官网

大数据学习之BigData常用算法和数据结构

2018-01-01

大数据学习之BigData常用算法和数据结构

1.Bloom Filter
    由一个很长的二进制向量和一系列hash函数组成
    优点：可以减少IO操作，省空间
    缺点：不支持删除，有误判
    如果要支持删除操作：改成计数布隆过滤器

2.SkipList（跳表）
    核心思路：由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。
    并行编程情况下可以用锁或者CAS操作。
    CAS:
    compare and swap，解决多线程并行情况下使用锁造成性能损耗的一种机制，CAS操作包含三个操作数——内存位置（V）、预期原值（A）和新值（B）。如果内存位置的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在CAS指令之前返回该位置的值。CAS 有效地说明了“我认为位置V应该包含值A；如果包含该值，则将B放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。
    用CAS实现的插入：
    void insert（Node *prev, Node *node） { while （true） {   node->next = prev->next;   if （__sync_compare_and_swap（&prev->next, node->next, node）） {    return;   } } }
    3.LSM树（Log-Structured Merge-Tree）
    与B+树相比，牺牲部分读性能，大幅提高写性能。
    宗旨：把大量随机写改为批量序列写。
    在内存中维护多个小的有序结构，在查找时要二分遍历这些结构，不断把小树合并为大树，进行批量插入。
    为了优化查找，可以使用Bloom Filter。（判断小结构中有没有目标数据）
   4.HashTree
    用于快速定位海量数据中少量变化的内容
    对每一项数据进行Hash，多项组合之后再Hash，再Hash，最后到Top Hash。
   5.Cuckoo哈希
    使用两个哈希函数H1（X）和H2（X），插入X时，同时计算H1（X）和H2（X），如果任意一个桶为空，将X插入相应位置，如果都满了，选一个桶把y踢掉，放入X,对y执行上述过程。设定最大替换次数，达到次数时增大桶的数量或者重选Hash函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇把Excel表格通过MySql Workbench导入数据库表中的使用总结

下一篇将Excel数据快速大批量导入数据库的代码

大数据学习之BigData常用算法和数据结构

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】4年大厂数据分析师：用户旅程分析的3个关键 ...

【干货】竞品分析怎么写？戳此了解深度指南！ ...

excel没有数据分析怎么添加

转行数据分析师就是找死

python可视化数据分析

用数据还是靠经验？成功企业都找到了这个平衡点！ ...

Spark SQL 结构化数据处理流程及原理是什么？ ...

数据分析岗位是干什么的

字节大神：讲透数据指标体系搭建的3个关键步骤 ...

提升思维能力！数据分析必学的5大经典模型解析！ ...

数据分析师的工作内容

【干货】互联网黑话多？谁说这术语老啊？这术语太棒 ...

数据分析包括哪些内容

【干货】数分人年终述职指南：解锁高效汇报秘籍 ...

【干货】竞品分析怎么写？戳此了解深度指南！ ...

数据分析的终极对决：大数据还是小数据，谁才是真正 ...

如何做数据分析图表

数据分析师就业前景

字节70W年薪数据分析师：数据分析报告撰写的4个要点 ...

数据分析的基本流程