数据仓库的数据存储和管理-CDA数据分析师官网

数据仓库的数据存储和管理

2018-09-10

数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性，同时也决定了其对外部数据表现形式要采用什么产品和技术来建立数据仓库核心，则需要从数据仓库的技术特点着手分析。

数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多，且随时间的推移而累积，从现有技术和产品来看，只有关系数据库系统能够担当此任。关系数据库经过近30年的发展，在数据存储和管理方面已经非常成熟，非其他数据管理系统可比。目前不少关系数据库系统已支持数据分割技术，能够将一个大的数据库表分散在多个物理存储设备中，进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至TB的数据已是一件平常的事情，一些厂商还专门考虑大数据量的系统备份问题，好在数据仓库对联机备份的要求并不高。

数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中，用户访问系统的特点是短小而密集.对于一个多处理机系统来说，能够将用户的请求进行均衡分担是关键，这便是并发操作。而在数据仓库系统中，用户访问系统的特点是庞大而稀疏，每一个查询和统计都很复杂，但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务，将该请求并行处理。因此，并行处理技术在数据仓库中比以往更加重要。

数据仓库要解决的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言，因为其他数据管理环境连基本的通用查询能力都还不完善。在技术上，针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。普通关系数据库采用B树类的索引，对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索引机制，以二进制位表示字段的状态，将查询过程变为筛选过程，单个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀，普通查询优化器所得出的最佳查询路径可能不是最优的。因此，面向决策支持的关系数据库在查询优化器上也做了改进，同时根据索引的使用特性增加了多重索引扫描的能力。

以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作，而连接操作对于关系数据库来说是一个耗时的操作。扩充的关系数据库中对连接操作可以做预先的定义，我们称之为连接索引，它使得数据库在执行查询时可直接获取数据而不必实_施具体的连接操作，数据仓库的查询常常只需要数据库中的部分记录，如最大的前50家客户等。普通关系数据库没有提供这样的查询能力，只好将整个表的记录进行排序，从而耗费了大量的时间。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

数据仓库字段大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇入讲解Python函数中参数的使用及默认参数的陷阱

下一篇数据仓库的数据抽取

数据仓库的数据存储和管理

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...