达梦“模块化数据中心”筑梦大数据时代_数据分析师
模块化数据中心已经成为解决当今企业所面临的不断增长的数据处理需求的一种普遍的解决方案,越来越多的政府单位、企业正在考虑借助模块化数据中心的诸多优势和其独特的能力,以满足各方面的数据处理需求。
PB级大数据带来的挑战
互联网时代,尤其是社交网络、电子商务、移动通信等把人类带入一个以“PB”为单位的结构与非结构数据信息的新时代。那么PB级数据是什么概念?一提到数据量级,人们通常会联想到美国国会图书馆。麦肯锡首席分析师Michael Chui指出,美国国会图书馆“在2011年4月前已经收集了235TB的数据,而一个PB相当于它的4倍。”
未来10年之内人均,实时消费数据将达到PB级,是目前数据消费TB级的1000倍,如此大的数据处理需求将给现有的以计算为中心的传统数据中心带来一系列巨大挑战,包括实时数据处理、按需动态资源分配及调整、大规模系统运行的能效等诸多方面。从业务层面来看,亟需解决软硬件资源统一管理、按需分配、合理调度,信息资源的共享交换、池化管理,形成一套“合规”的资源服务池,并从该池中按需获取所需资源或服务。
“以数据为中心”的新型数据中心
在这种情况下,传统的数据中心必然需要转型,向以数据为中心的方向发展,能够灵活地将任务调度到数据位置较近的处理单元。传统数据中心的设计目标是能够持续工作,设计者们要求所设计的产品能够用几百年不损坏、保持正常工作。设计者心目中的数据中心是一大堆物理设备孤立的堆砌;事实上,建立传统数据中心最初的动机,就是管理好日益增多的物理设备,保持良好的环境,不要损坏和丢失,出了故障有人维修。并且传统的数据中心资源孤立、且不能实现在整个数据中心的实时、动态调度,这也是传统数据中心资源利用效率低下的根本原因。
随着数据中心的发展,传统数据中心的问题逐渐显露。达梦数据中心在充分吸收传统数据中心的问题基础上,推出了“以数据为中心”的新型数据中心理念。从逻辑上看,达梦的新型数据中心提供一个全局的资源目录,包含了各种应用系统的所有数据,构成了一个全局统一的逻辑数据库。当用户向这个虚拟的逻辑数据库发起数据访问请求时,它首先通过检索全局资源目录,回答该数据是否存在,然后从资源目录信息中获取其位置信息,如果该数据从物理位置上是存放在本地,则从本地物理库中获取,否则根据资源目录信息中获取的远程位置信息,通过统一的远程数据访问接口来获取实际数据。
由此可见,达梦的新型数据中心相当于是一个庞大的全局化逻辑库,可以根据业务的需要,采用某种算法。而实际的物理库中只会存放那些使用频率相对较多的数据,这样既可以节约存储资源,也能减少数据集中后所带来的数据更新的代价。同时根据数据的访问热度,可实现对物理库中数据的动态存储管理,将最常使用的数据放到速度最快的内存当中,次之的数据放到固态盘,一般的数据放到磁盘,较长时间不用的数据则移到外部磁盘磁带中,而长期无人使用的数据会被清除以腾出空间。
模块化实现高效部署
物联网、互联网等信息技术的快速发展带来了数据爆炸式增长,为了适应大数据的发展趋势,数据中心不断扩大规模、提升性能,以支持越来越复杂的海量数据管理需求。
出于性能的考虑,一般对于经常要使用的数据、以及分析应用所需要的数据,要从远程数据源中将数据抽取、交换到数据中心的目标数据库进行集中处理。数据集中带来处理方便、性能提升等好处的同时,也带来了数据一致性的问题。如何以较小的代价、最快的速度将数据源中发生变化的数据传递到数据中心目标数据库中进行更新,以保持两边数据的一致,已成为数据中心建设必须要考虑的问题。而达梦突破传统解决之道,采取“模块化”的数据中心建设思想,不仅实现数据同步、还实现了显著的性能优化。
首先,在数据交换层面,传统的数据交换采用时间戳、触发器、MD5等方式来捕获增量数据,使数据源的数据库产生较大负载,延时也比较大。当数据量很大,同步时间要求很短的时候,传统方案难以同时满足处理性能和数据一致性的要求。达梦的模块化数据中心则采用读取数据源的数据库运行日志文件的方法,从中分析出数据变化的情况,通过监控日志文件的变化,能近乎实时地捕获到数据变化,值得一提的是,这只占用的非常少量的操作系统监控和读取文件资源,对被监控的数据库实例的运行基本没有影响。
其次,在数据中心建设方面,传统的数据中心建设周期非常长,而达梦模块化数据中心在现场部署的速度非常高效,主要是因为模块化的数据分类预制,从数据处理的全生命周期这个角度来说,它主要分为数据采集抽取、数据整合管理、面向业务的数据服务、多样化数据应用等四个方面,各自拥有统一接口、统一标准、统一顶层设计的模块化产品,这些以达梦数据库产品为核心的产品集合,为模块化数据中心的快速部署奠定了坚实基础。我们沿着数据管理生命周期的顺序,通过了解模块化数据中心内部的管理机制,可发现达梦新型数据中心优于传统数据中心的特色亮点:
数据交换:从其他业务系统采集数据、访问数据时,数据交换平台可针对交换频繁、数据量极大的自动采集需求,使用达梦异构数据实时同步工具处理“海量密集,实时异构”的采集需求。而针对交换频度较低,但有一定清洗转换要求的自动采集需求,使用ETL工具定时处理“定期采集,清洗转换”的采集需求。针对涉密敏感、不允许直接交换的数据,使用请求服务引擎实现“按需访问,数据自治”的查询比对需求。
数据管理:在数据交换、采集完成后,需要对数据进行整合和梳理,数据管理平台可实现该类需求。对于整合来的各类项目数据资源,针对多种采集渠道、承载方式,数据资源管理平台均采用一致的方式进行可视化管理和维护,将碎片离散的信息整体呈现。同时,针对各类信息资源的业务属性描述、来源信息等内容,通过元数据管理进行统一描述、统一归集、统一管理,使信息资源的重用成为可能。针对数据归集过程中,数据不一致、不准确的情况,主要基于质量管理平台进行质量管理和提升,基于质量规则,发现各类数据质量问题,给出质量整改门户,推进数据整合的质量提升。针对数据整合后的梳理和编目需求,主要依靠数据资源目录系统,按照业务属性、提供单位、系统类型等因素进行编目梳理,使数据能够被成功访问和重用。针对所涉及的大量原始非结构数据,则是通过文档管理系统进行统一管理,可以有效节约存储空间,提供全文检索等增值能力。
数据分析:数据整合后进行服务发布运用的过程,主要基于数据分析服务平台来实现。针对数据整合建立数据仓库、联机分析的需求,主要采用BI分析平台来实现数据仓库建设、联机分析设计、联机分析呈现等功能。
数据呈现:针对数据选择性呈现需求,基于数据门户可实现数据的组合及筛选处理,完成数据面向不同人员、不同环节、不同方式的选择性呈现能力。
而数据服务平台,则提供基于已整合数据的非可视化(API,REST,WEBSERVICE)数据服务接口,来满足数据的横向比对、纵向比对、跨业务系统的对接需求。针对数据中心及业务系统运转的情况的可视化需求(如系统承载能力、访问状况、异常信息等),主要使用运维监控系统,通过监控门户、仪表盘、驾驶舱进行多角度可视化呈现。针对管数据的可视化呈现需求,基于数据展现应用提供基于已整合数据的可视化组件设计及呈现。
结语
在大数据时代,达梦数据库坚持创新发展的技术路线,业界率先推行新型模块化数据中心建设理念,以数据流为主线,实现从大数据存储、数据交换、数据管理、数据分析到数据应用的全生命周期管理,并结合多年的项目建设与实践经验,致力于为更多政府机关、各行业领域单位提供大数据平台咨询与技术服务,作为国产数据库品牌的中坚力量、领军企业,为国产信息化建设贡献力量!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27