如何为企业选择合适的数据集成工具?
企业产生和收集的数据量日渐增长,随之而来的是对这些数据进行集成需求的增长,可以帮助IT团队简化并管理这一流程的数据集成软件应运而生。但是产品类型如此丰富,对你的企业来说哪些数据集成工具才是最佳之选呢?选择这类产品并非要挑那些拥有丰富功能的,而是要选择与你的集成需求和企业特质最为适配的产品。
在对数据集成平台评估之前,要在企业内部进行调查来协助产品选择过程。你的调查应该涵盖下列主题:
源系统。企业拥有多少源系统?是否拥有重叠系统,例如多重CRM或是销售处理应用程序?除了传统结构化数据,是否存在非结构化或半结构化数据?除了内部数据源,是否存在外部数据源?数据量和更新频率又如何呢?
集成用例。企业需要为分析而进行数据集成么——主要通过数据仓库?应用程序集成又是怎样呢?你所在的企业需要为主数据管理(MDM)获取和处理数据么?在本地系统和云应用程序或物联网设备间同步数据又是如何呢?亦或是在本企业以及其他企业的内部业务流程和应用程序间交换数据?需要为复杂事件处理和流处理应用程序捕获并交付数据么?在不迁移至中央数据存储的情况下,是否需要将来自几乎完全不同系统的数据进行集成呢?
企业规模。你所在企业的年收入怎样,拥有多少员工,对于数据集成的IT预算有多少?
资源和技术。企业是否拥有专门的IT资源来执行数据集成工作?对于使用数据集成工具以往的经验水平如何?
在你回答了这些问题之后,就可以浏览以下十大数据集成产品来探寻哪一款与你的需求和特点最为匹配了。
针对大型企业的数据集成产品
大型企业通常具有以下特点:
不同的源系统集总是与高数据量相伴而生的。结构化数据居于主导地位,但是像社交媒体,网页服务器日志和平面文件,还有如XML和面向消息数据的半结构化数据源同样需要进行集成。
多种集成用例。
足够的IT预算来购买任何可用数据集成工具和必要的支持基础设施。
专门的IT团队,这些团队拥有数据集成专家或是有预算雇用那些在使用给定数据集成工具上有丰富经验的员工和顾问。
符合上述特征的大型企业应该考虑用Informatica PowerCenter和IBM InfoSphere Information Server来进行数据集成,因为这些产品对集成用例进行了全方位的解决。这两款产品还提供可扩展性以处理大型企业对数据复杂性,数据量和速度的要求,而且还能跨多个项目使用,并用于任意规模的团队。IBM和Informatica都提供MDM和数据清理功能。IBM的产品解决了信息分析和管理的需求,而Informatica则专注于信息集成。但是这些强大的工具价格不菲。除了它们通常要比竞争对手的产品贵出许多之外,它们还要求使用者有更为丰富的技能和经验。此外,比起竞争对手,它们通常还要求有更大量的基础设施和更复杂的实现。
多年来,很多IBM和Informatica的竞争对手显著地提高了它们产品的功能和特性,这为大型企业提供了更多的选择,对于那些在数据集成上有更少要求的企业尤为如此。来自SAP,Oracle和SAS的数据集成工具解决了大量数据源和数据集成的用例。这些公司同样提供企业级应用程序,如尤其是在大型企业使用广泛的企业资源计划,CRM和分析应用等,而且它们也将自己的数据集成工具用在这些应用程序上。如果一家企业在上述任意公司的应用程序上有巨大投入,那么将该厂商的数据集成工具纳入考虑范畴也是理所应当的。
SAP Data Services和SAS Data Management Platform都对大型企业的数据集成功能提供广泛的支持。虽然SAP Data Services仅限于和SAP的业务应用程序协同工作,但是它正变得与该公司软件组合集成的更加紧密。这就意味着已经是SAP客户的企业就需要考虑使用这一集成产品了。同样,正在使用SAS统计和分析产品的客户则应该将SAS Data Management Platform纳入考量。
针对有深入集成需求的中型企业的工具
中型企业通常具有以下特点:
各种源系统用于处理重叠数据对象,而这些数据对象可能是在本地也可能是在云端。数据量会因行业或是所提供的产品和服务的不同而不同。结构化数据源仍占主导地位,而且任何需要进行集成的非结构化数据通常有范围限制。
如果将来数据仓储得以解决,虽然应用程序集成可能甚嚣尘上,但是提取,转换和加载(ETL)以及数据仓库还是主要的集成用例。
IT预算有限。
小规模的IT团队来执行数据集成工作和商业智能开发。针对特定工具招聘专家在财政上可能不具备可行性。
虽然有以上特点的中型企业有着显著的集成需求,但是他们在人力、财力和时间上的可操作资源是有限的。这些公司应该考虑来自Microsoft,Oracle,Information Builders,Talend和Pentaho的数据集成产品。对于在这些企业中常见的数据多样性,集成范围和资源限制等问题,这些工具都提供了解决方案。
对于拥有资深SQL经验开发人员且正在使用Microsoft SQL Server的企业来说,应该考虑Microsoft数据相关的产品,如SQL Server Integration Services(SSIS)。这些工具共享了一个公共开发方法,这可以让IT人员更加有效的与多种Microsoft工具协同工作。Microsoft一直在对SSIS的功能进行扩展以处理更为复杂的集成用例,例如缓慢改变维度和模糊查询,以及平面数据和关系型数据库之外的各种数据源。虽然Microsoft的源和目标不仅限于其自己的平台,但是部署仍然限制为Windows。Microsoft的工具历来都是在本地的,但是该公司已经在将相关功能迁移至云端方面取得了显著进步。而不利的一面是SSIS缺乏其竞争对手所拥有的强大的集成转换,工作流和流程管理,例如使用存储库和基于团队的开发管理功能来进行追踪和管理流程的能力。
与Microsoft类似,那些当前正在使用Oracle数据库的企业可能会希望考虑Oracle Data Integrator。ODI是一款强大的数据和应用程序集成工具,它能够处理各种数据源和集成用例,包括BI,MDM和应用程序集成;它还支持数据量和速度方面的可扩展性。虽然该产品有大量可供使用的功能,但是它总是用来自动执行SQL脚本。ODI确实需要足够的培训才能应对其略显复杂的实施。虽然该产品对接各种各样Oracle产品进行工作的能力扩展了其功能,但是它也增加了其部署的复杂性,这让其很难用于资源有限的IT人员。
Information Builders的iWay Integration Suite能够处理诸如MDM,数据清理和数据治理之类复杂的集成用例。当一家企业正在使用Information Builders的其他信息产品时,应该将iWay纳入考虑范畴,因为它提供了与那些产品紧密的集成。这些工具因其可扩展性和在操作系统上可实时工作的能力而闻名。但它也有一个缺点:该产品相关的专业知识和经验较为有限。
Talend和Pentaho的同名数据集成工具同样能够处理各种集成用例。两款产品都有开源版本,这可以让IT团队避免任何预先许可的成本。它们的开源版本提供固定数据集成功能,对于那些没有主动要求集成需求的企业和预算紧缩的IT团队来说,这再适合不过了。而它们公司产品的企业版本则提供很明显更加强大的功能。
小企业要进行集成需要哪些考量
小企业通常具有以下特点:
以结构化数据源为主的各种源系统。
IT预算非常有限。
在诸如数据集成,BI和操作系统等领域IT人手捉襟见肘。
这些企业可能需要考虑那些基于他们已有数据库的数据集成工具——也就是Oracle或Microsoft——或是来自Talend和Pentaho的产品。这些工具是物有所值的,因为SSIS捆绑了SQL Server,而Talend和Pentaho的开源版本则提供比很多企业所需更多的数据集成功能。注意,小型企业应该确保他们的IT部门拥有足够的专业知识来有效利用这些工具。
针对具有有限集成需求的小企业的工具
这些企业主要是直接从他们的源系统做业务报告而且不会创建数据仓库来对那些源系统进行集成。在这种情况下,这些企业通常是不会对大数据集成工具和IT技术进行投资的。相反,IT会依赖现有应用程序捆绑的东西或是自定义SQL代码。如果业务用户需要来自多个应用程序的数据做报告,他们会依赖构建在操作应用程序中的报告并使用电子表格来填补空白。
随着数据量的持续增长,对于数据集成和将这些数据转换成相关信息来生成可行见解的需求也水涨船高。希望该系列文章所提供的信息能够帮助你在购买数据集成工具的时候做出更为明智的选择。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06