打破数据统一的七大原则-CDA数据分析师官网

打破数据统一的七大原则

2017-11-22

打破数据统一的七大原则

数据统一在数据分析领域里是个长期的挑战，从事数据分析的从业者希望在数据分析之前，来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成：1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出。

　　一般而言，企业实现数统一有两种方法，提取转换加载(ETL)和主数据管理(MDM)。

　　提取转换加载(ETL)具有灵活性的优势，适合不同的数据来源，使程序员可以手工编写转换程序，能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低，提取转换加载带宽能超过20个数据源没有多少家公司。

　　主数据管理(MDM)，它与ETL类似的地方在于，预设一个“主记录”，每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是，MOM不是使用手动的定制脚本，而是依靠一套“模糊合并”规则，把所有不同的文件转换成主格式。

　　可难解的是，在数据量过大的情况下，不管是ETL还是MDM，都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化，不能依靠手动编写的程序。

　　着名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题，提出数据统一的七条原则：

　　一、所有的可规模化系统，都必须自动进行绝大多数的操作。

　　二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

　　三、需要进行具体的域操作时，只有协作性的系统才可实现规模化。

　　四、为了实现可规模化，任何的统一计算必须在多个核心和多个处理器上运行。

　　五、尽管存在第四条原则，但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

　　六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

　　七、必须支持实时增量统一。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

ETL 数据分析主数据管理机器学习数据仓库大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

打破数据统一的七大原则

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...