大数据学习之BigData常用算法和数据结构-CDA数据分析师官网

大数据学习之BigData常用算法和数据结构

2016-04-10

大数据学习之BigData常用算法和数据结构

核心思路：由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。

1.Bloom Filter
    由一个很长的二进制向量和一系列hash函数组成
    优点：可以减少IO操作，省空间
    缺点：不支持删除，有误判
    如果要支持删除操作：改成计数布隆过滤器

大数据

2.SkipList（跳表）
    核心思路：由多层组成，每层都是一个有序链表，最底层包含所有元素，元素数逐层递减。每个节点包含两个指针，一个->,一个向下。
    并行编程情况下可以用锁或者CAS操作。
    CAS:
    compare and swap，解决多线程并行情况下使用锁造成性能损耗的一种机制，CAS操作包含三个操作数——内存位置（V）、预期原值（A）和新值（B）。如果内存位置的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在CAS指令之前返回该位置的值。CAS 有效地说明了“我认为位置V应该包含值A；如果包含该值，则将B放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。
    用CAS实现的插入：
    void insert（Node *prev, Node *node） { while （true） {   node->next = prev->next;   if （__sync_compare_and_swap（&prev->next, node->next, node）） {    return;   } } }
    3.LSM树（Log-Structured Merge-Tree）
    与B+树相比，牺牲部分读性能，大幅提高写性能。
    宗旨：把大量随机写改为批量序列写。
    在内存中维护多个小的有序结构，在查找时要二分遍历这些结构，不断把小树合并为大树，进行批量插入。
    为了优化查找，可以使用Bloom Filter。（判断小结构中有没有目标数据）
    4.HashTree
    用于快速定位海量数据中少量变化的内容
    对每一项数据进行Hash，多项组合之后再Hash，再Hash，最后到Top Hash。
    5.Cuckoo哈希
    使用两个哈希函数H1（X）和H2（X），插入X时，同时计算H1（X）和H2（X），如果任意一个桶为空，将X插入相应位置，如果都满了，选一个桶把y踢掉，放入X,对y执行上述过程。设定最大替换次数，达到次数时增大桶的数量或者重选Hash函数。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

大数据学习之BigData常用算法和数据结构

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...