关于大数据的处理的一些经验-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于大数据的处理的一些经验

关于大数据的处理的一些经验

2017-12-31

1.数据库的技术上，目前我们公司在研究hadoop分层数据库，具体了解不多；外面流行的NoSql非关系型数据库，像亚马逊、谷歌还有一些日本企业都有自己的NoSql数据库；

2.传统关系型数据库的优化，数据库层的优化和上层使用的优化。

数据库层：需要DBA进行优化，减少碎片，进行分区等；

使用层的优化，即优化SQL

从外界因素来看影响SQL有：CPU、RAM、Network、Disk

CPU：SQL的大量order by，大量group by，case when等都会很费CPU，需要CPU进行计算。是否可以使用汇总来减少此问题

RAM：查找的数据量过大，导致内存资源占用过多。

如无where的SQL，select *的SQL，全表扫描等；

频繁的update、insert都会影响内存，每次对SQL的解析都需要一定的时间和空间。采用绑定变量。

Network：过多的DB连接，频繁的DB开关，跨库的关联，大量数据的导出，复杂的SQL等。

Disk：

大数据量的表，建立索引，保证索引的有效性；

减少大表的insert和delete，会造成磁盘碎片，导致磁盘指针的不连续性；

大表的insert和delete会造成索引的失效，必要时先去掉索引再操作增删改；

索引其实是一张表，要保证其精简

索引的建立，最好用在易排序字段，如number，date等，勿varchar；

varchar字段尽量保持长度的一致性，宁可多给出空间；

减少磁盘的读取次数；

对大表禁止顺序性的全表扫描，使用索引；

减少disdinct，用unionall代替union；

Not like，<>，全模糊like，is null，is not null，not in都会使索引失效；

索引上不要使用任何函数，尽量在等号的另一头使用函数；

SQL的书写一致，减少解析时间；

选择最佳的执行计划，复杂的SQL，不如多个简单的SQL；

减少嵌套子SQL，使用关联查询；

避免笛卡尔积连接；

避免使用*，数据库需要对*进行一次匹配，会消耗资源，而且并不一定所有的字段都要进行查询或者写入，写入时表结构变化还会导致出错，所以避免*；

全表删除，不要使用delete，使用truncate；

全表分页的效率较低，建议使用分步是分页；

3.在数据读取优化到一定程度后，代码上也可以进行很大的优化。

避免过多的开装箱，使用值类型；

对引用类型的集合，多使用泛型；

避免循环嵌套，和无休止的递归；

避免循环中建立大对象；

对大对象的释放；

4.逻辑上的优化

在需要查询大量数据的时候，可以使用分页；

分页影响到一些图标的产生时，可以借助汇总，先展示汇总信息和图标，然后在进行详情的钻取；

时间空间的相互替换。

5.对常用信息的本地化保存，如QQ第一次加载很慢，但后面登陆会很快。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

SQL 字段关系型数据库非关系型数据库表结构大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇批量处理数据的一些经验

下一篇SQL语句中Replace INTO与INSERT INTO的不同之处

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于大数据的处理的一些经验

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】Python数据处理与图形可视化：核心模块 ...

【CDA干货】数据分析实操：科学调整数据以减小p值的 ...

需求为锚，专业为刃：CDA数据分析师破解企业数据需 ...

【CDA干货】实操指南：加快Python算法运行速度的四 ...

【CDA干货】解析神经网络中卷积的核心作用：提取数 ...

数字化转型攻坚：CDA数据分析师成为企业破局的核心 ...

【CDA干货】实操指南：数据透视表中两个计数项的公 ...

【CDA干货】实时赋能，精准预判：用户实时行为序列 ...

CDA数据分析师：企业数据安全管理方法论的落地者与 ...

【CDA干货】数据挖掘与数据分析：厘清边界，协同赋 ...

【CDA干货】特征重要性分析：从数据特征到业务价值 ...

CDA数据分析师：企业数据管理方法论的落地者与价值 ...

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载