大数据时代如何构建高性能数据库平台
在数据爆炸的时代,给众多IT从业人员带来了相当大的困扰—伴随着大数据分析,商业智能的发展,数据量呈现指数增长,传统数据处理系统已不堪重负。在这样的背景下,“数据库平台的构建”逐渐成为一个备受关注的话题。
影响数据库性能的三要素
对于数据库系统而言,绝大多数情况下影响数据库性能的三个要素是:数据运算能力、数据读写时延和数据吞吐带宽,简称计算、时延、吞吐。计算指的是CPU的运算能力,时延是数据从存储介质跑到CPU所需的时间长短,吞吐则是数据从存储介质到CPU的道路宽度。一般情况下,关注计算和时延是比较多的,但是在数据量越来越多的情况下,吞吐也成为影响数据库性能的重要因素。如果吞吐带宽不够,会造成计算等待队列的增加,CPU占用率虚高不下。这种情况下,即使增加再多的计算资源也于事无补,相当于千军万马挤独木桥,马再好也是枉然。一个高性能的数据库平台,一定是计算、时延、吞吐三方面的能力齐头并进,相互匹配。
计算能力由CPU主频和核数决定,实践中看CPU占用率就能够大致确定CPU配置是否合适。时延的指标很简单,时间是衡量时延的唯一指标。吞吐量则是通过每秒在I/O流中传输的数据总量来衡量的。
从三要素到三方法
明确了影响性能的要素后,就可以着手改变各要素来提升数据库平台的性能。
1.计算能力:x86化的今天,提升计算能力就是:增加CPU内核数量或升级CPU主频。
2.时延能力:加快数据从存储介质到CPU的速度,即提升数据读写时延,从以下三方面努力:
a)降低存储介质的读写时延:使用电子寻址的Flash颗粒来替换旋转的机械磁头,是降低存储介质读写时延最有效的方法。实践中可结合数据吞吐量来确定是选择SAS总线上的SSD盘还是选择PCIE总线上的Flash卡。
b)降低网络的传送时延:网络时延则可以通过InfiniBand网络来解决,注意不要选择IPoIB,而是要使用RDS,相比传统UDP协议,网络延迟至少减一半。通过SRP协议,利用RDMA技术在网络层面传送SCSI指令和数据,使得数据库节点能够像操作本地SCSI设备一样读写远程的数据,对于时延的降低,不是FC网络能够企及的。
c)扩大存储层的数据缓存大小:存储层的数据缓存大小对时延也至关重要,如果有尽可能多的数据读写在缓存中进行,就避免了数据下盘。缓存的大小以及缓存算法都对缓存命中率有直接的影响,这一点往往被忽略。除了单点缓存之外,分布式缓存技术也是非常重要的,通过分布式缓存技术,可以避免单点缓存的局限性,扩大缓存的全局能力,增加缓存规模,提高缓存命中率。
3.吞吐能力:拓宽数据通路的方法有两种:使用高速InfiniBand网络、使用分布式存储。前者比较容易想到,实施也简单,基于FDR 的56Gb/s InfiniBand解决方案可实现每秒1.37亿条消息的信息通信速率,在16个计算节点上,性能表现比QDR 40Gb/s InfiniBand高出20%-30%,而与FC、万兆和4万兆以太网相比,性能更是领先了100%到300%,是最高效的计算和存储互联方案。对于后者,分布式存储,其好处在于不将数据集中存放在某几块存储介质上,而是将数据全部打散存放在多个存储节点的许多个介质上,这样避免在大规模数据并发读写访问时,存储介质的单点能力成为数据读写的瓶颈,通过分布式的并发能力来提升数据读写吞吐能力。注意的是,一定要使用高性能低时延的分布式块存储,分布式文件存储是无法满足性能要求的。
通过计算、时延、吞吐的三管齐下,通过使用SSD存储介质、InfiniBand网络交换以及分布式存储,数据库平台的性能将得到极大提升。
未来为是何种模样
高性能数据库系统未来向着内存化、云化的方向在不断发展。SAP的HANA内存数据库,Oracle 12c的内存特性,GemFire的分布式内存数据缓存,以及Spark的内存并行计算,都在昭示着内存化的未来方向,其本质还是通过内存的高速读写与高速总线来解决时延和吞吐问题。
数据库的云化,即DBaaS(数据库即服务),其核心就是整合IT基础设施中的硬软件,实现简单化、标准化和灵活性,提升可用性以及安全保障,同时降低成本。当然,云化在性能和QoS方面也对IT基础设施提出了更多增强性的挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07