大数据时代下数据挖掘技术在电力企业中的应用
大数据时代下电力企业面临挑战我国原有电力企业实行垂直一体化管理,2000年后我国电力企业实行更全面更深刻的改革。就目前的现状来看,电力企业包括独立的发电厂、五大发电公司、两大独立核算的电网经营企业,以及电力建设公司等其他独立核算单位。基于目前我国电力企业的发展现状,大数据产生于电力企业的各个方面。在发电侧,随着数字化电厂的建成,海量的有关故障监控、设备运行状态等数据被各大电厂保留下来;在输电侧和配电侧,在输变电设备状态监测系统中,为了能对绝缘放电等状态进行诊断,最大程度减少线损,需存储和监控的数据量十分巨大;在用电侧,电力用户的个人信息、电价信息以及智能电网的发展、电动汽车充放电监测信息都会产生海量数据。
然而,大多数电力企业的数据库仅仅实现了数据存储、查询、统计等最基本层次的功能,无法深入挖掘出隐藏在海量数据背后潜在的价值。电力大数据时代下必将会对作为我国经济社会中存储电力运行信息知识、提供电力运行数据的电力企业带来巨大的影响。因此,深刻理解大数据的内涵,联系目前我国电力系统的发展以及电力系统数据存储、利用的现状就显得十分必要,这也为电力企业真正应对大数据时代下电力企业面临的挑战提供了相关的思考。收集数据电力大数据时代,电力企业数据来源不仅仅是企业内部的历史年度数据,还包括来自互联网和信息机构的各种数据。收集这些信息是要附上相应的时空标志,必要的时候要剔除无效数据,同时还应当尽可能收集不同数据来源、结构化程度不同的数据,并且做到尽可能和企业内部的历史数据相对照,以便于验证信息的可靠性和真实性,这对于电力企业来说,将是个不小的挑战。半结构化和结构化数据现代互联网应用呈现出非结构化和半结构化数据大幅度增长的特点。据不完全统计,这类数据占有比例已经达到整个数据量的75%以上。同时,由于数据网络化的存在,使得这类数据的复杂关系无处不在;另外,这类数据是以数据流的形式存在,数据价值化的体现与时间呈现明显的相关性,价值稍纵即逝。尽管目前计算机智能化有了很大进步,但还只能针对有结构或类结构的数据进行分析,谈不上深层次的数据挖掘。
分析数据网络背后的数据关系大量观测数据虽然可以映射出各种复杂的网络系统,但由于这些数据往往是孤立的数据点,映射出的数据网络难免片面,如何做好数据集成,使之成为一个完整的数据网络,这是值得思考的问题。以发电企业为例,单单考虑发电量数据,得到的仅仅是发电厂发电量单一方面的数据。然而,发电数据是与电压数据、线损数据、用户用电数据等相互联系的,如何利用模糊分析方法,考虑这些数据的参数关系,分析复杂网络之间的联系,对发电企业来说将是一个巨大的挑战。
另外,由于各个发电企业、供电企业没有统一对其专业化的信息系统进行建设,导致电力生产、销售各专业数据彼此独立,形成信息孤岛。为破除信息孤岛的数据壁垒,需要融合发电、输电、变电、配电、用电等多方面数据,这就需要考虑如何对各环节多数据进行融合。电力大数据时代下的数据挖掘技术在电力大数据时代下,大数据已成为电力企业进行决策的基础。但是,单纯数据的积累并不能给电力企业带来益处,只有运用相关的技术手段,对大量的数据进行深加工,发现隐含的信息并加以利用,进而指导电力企业做出正确的决策,这样电力大数据的作用才能发挥到极致。研究认为数据挖掘技术的运用将会在电力企业成本降低、电力市场开拓、电力系统安全运行等方面发挥重大作用。
因此,理解数据挖掘技术及其在电力企业中的应用就显得非常必要。数据挖掘技术数据挖掘技术是通过对海量数据进行建模,并通过数理模型对企业的海量数据进行整理与分析,以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法。如果说云计算为海量分布的电力数据提供了存储、访问的平台,那么如何在这个平台上发掘数据的潜在价值,使其为电力用户、电力企业提供服务,将成为云计算的发展方向,也将是大数据技术的核心议题。电力系统是一个复杂的系统,数据量庞大,特别是在电力企业进入大数据时代后,仅仅是电力设备运行和电力负荷的数据规模就已十分惊人。因此,光靠传统的数据处理方法就显得不合时宜,而数据挖掘技术的实现为解决这一难题提供了新的出路。数据挖掘技术在电力系统负荷预测和电力系统运行状态监控、电力用户特征值提取、电价预测等方面有很好的应用前景。有关数据挖掘技术的思考我国电力市场化运行过程中,电力市场运行模式大体经历了垄断模式、发电竞价模式、电力转运模式,现在正在积极过渡到配电网开放模式。在这个过渡阶段,高质量的数据更是大数据发挥效能的前提,先进的数据挖掘技术是大数据发挥功效的必要手段。国际数据公司(InternationalDataCorporation,IDC)指出,在大数据时代下,新的数据类型与新的数据分析技术的缺失将是阻碍企业成为其行业领导者的重要因素。
该问题同样存在于电力企业中。但是,先进的数据挖掘技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息,否则,即使数据挖掘技术再先进,在充满噪音的大数据环境中也只能提取出毫无意义“垃圾”信息。为此,电力企业为了应对电力大数据时代下数据质量对数据挖掘技术带来的挑战,应该考虑设立首席数据官(chiefdataofficer,CDO),进行专门的数据管理工作,定义元数据标准,保证数据质量。国内一些企业目前只是设立了首席信息官(chiefinformationofficer,CIO),但是由于CIO只是技术专家,很难系统全面地开展数据挖掘工作,这就使得这些企业渐渐失去了充分利用大数据的优势。因此,传统的数据管理方式已经很难满足大数据时代下对数据质量的要求,在电力大数据时代下,如何提高数据的质量,电力企业任重道远。
大数据时代下电力企业数据挖掘技术的实现途径大数据时代下,由于数据信息量巨大,使得数据挖掘是知识的自发现过程。在无明显目标的情况下需要从不同的数据源获得数据,然后对数据进行预处理,并使用模糊识别等算法对数据进行挖掘分析。为此,中国人民大学网络与移动管理实验室开发出了一种采用面向领域的DeepWeb数据集成技术,进而实现对Web数据自动集成和处理。分析认为大数据时代下电力企业数据挖掘技术主要由数据收集、数据整理、数据管理、数据分析、数据展示等过程组成,整个过程如图所示。数据来源层实现大数据收集工作得益于移动设备、无线射频识别技术(radiofrequencyidentification,RFID)、互联网、自动记录系统等技术设备,数据来源层主要存放了电力企业内部大量的事务型数据,以及会对电力企业决策产生影响的外部性数据。同时,为了使所获得的数据更具代表性,电力企业要尝试收集不同数据源产生的数据,为数据挖掘的后续工作做好准备。
数据整理层在数据挖掘技术中的实现在数据整理过程中,由于数据源数据内容往往交叉,所以需要按照互动性对观测数据进行分类。同时,由于原始数据中有噪声数据、冗余数据及缺失数据等问题,需要对数据进行解析、清洗、重构,并填补缺失数据以提高待挖掘数据的质量。经过分类后数据被大致分为两大类:结构化数据、半结构化与非结构化数据。对于结构化数据,需要对其进行数据过滤,剔除无效数据以提高分析效率;对于半结构化和非结构化数据,需要按照一定的标准处理成机器语言或索引。例如,对电力用户评论、电力系统运行日志资料等数据,就需要转换成加权逻辑或是模糊逻辑,并将不同的词语映射到标准值上,形成企业统一的语言。数据管理层在数据挖掘技术中的实现通过数据整理层,将经过整理和转化的数据存储到电力数据仓库(datawarehouse,DW)中,由于不同的电力数据库储存标准不同,因此需要整合转化后才能储存到数据仓库中,这里就需要对数据仓库进行重新设计。
经过重新设计的数据仓库,可以根据不同的主题设计不同的属性集,从而减少数据处理量;针对不同的主题数据库,可以采取粗糙集的属性归约算法删除数据中的冗余信息,得到精简的数据集;然后将决策树所表示的数据集表示为IF-THEN的分类规则知识,并储存在规则知识库中;如果有新数据样本需要处理,可以按照一定的规则算法进行识别匹配,从而进行综合评价。数据分析层在数据挖掘技术中的实现经过数据管理层处理的数据,可以通过联机分析处理技术(on-lineanalyticalprocessing,OLAP)来支撑复杂的决策分析过程,从而将数据转化成为辅助决策的信息。鉴于电力企业对数据实时性要求很高,可以将电力企业的数据分为实时性数据和非实时性数据进行分类处理。针对非实时性数据,可以考虑基于分布式文件系统(distributedfilesystem,DFS)和MapReduce技术的云计算来进行处理;也可以基于Hadoop,一种DFS和MapReduce的开源实现的云计算平台来进行数据处理。对于实时性数据,如电力负荷数据,一方面电力企业可以通过内存计算技术,将全部数据通过内存运行进行计算,这将是提高计算速度的有效办法;另外,可以在云平台前面设置若干前置机,用于实时接收数据。
数据展示层可视化企业目标通过电力营销决策支持系统(ElectricMarketingDecisionSupportSystem,EMDSS),运用良好的数据可视化设计,借助图形表达数据中的复杂信息,将数据挖掘的成果可视化,并将其运用到电力企业未来的发展规划中。将深度挖掘的数据可视化,可以使员工清楚地认识到电力企业未来的发展方向、评价决策制定的正确与否。结果是否符合实际,是决定整个系统挖掘技术是否成功的标准。展望基于我国的基本国情,电力企业具备非常好的从数据运营角度获取更大程度信息、资源、知识发现的基础。因此,电力企业完全可以立足大数据,以数据挖掘技术为基础,创造数据增值服务。智能电网的发展对于智能的理解,是指能够深刻分析收集到的材料、数据,以获得一个比较系统和全面的知识来解决特定的问题,从而满足商业战略目标的需要。智能面向电力行业,就是指电力行业发电、供电和用电的组织结构更加合理、运行程序更加优良、综合功效更加强大的智慧系统,即所谓的智能电网。智能电网基于数据和能源的同步传输,通过促进能源与信息技术的深度融合,已经逐渐形成了以能源、数据为运行体系支撑下的坚强可靠、友好互动、清洁环保的能源管理网络。
大数据与电网的融合涉及从发电企业到最终用户的整个能源转换过程和电力输送链。由于智能电网的快速发展,信息通信技术正以前所未有的广度、深度与电网生产、企业管理快速融合,信息通信系统俨然已经成为智能电网的“中枢神经系统”,支撑新一代电网生产和管理的快速发展。一个行业的结构越合理,内部摩擦越小,功效越大,系统的智慧程度就越高,每次人与数据的互动就更有机会以更高效和更多产的方式分析汇总,从而更好地支持决策行动。当前,国家电网公司已初步建成了国内领先、国际一流的信息集成平台,随着后续智能电表的逐步普及,电网业务数据将从时效性层面进一步丰富和拓展。通过对拓展到家庭、企业的广泛覆盖的数据采集网络进行深度的数据挖掘,可以进一步实现智能用电管理,使用户掌握实时用电信息、在线互动能耗数据,实现能源高效循环利用,进而为节能减排提供依据。因此,智能电网的发展,将更好地推动数据挖掘技术在电力行业的运用。
基于数据挖掘技术的客户关系管理随着电力企业改革的不断深入发展,客户关系管理(customerrelationshipmanagement,CRM)已经广泛应用到电力企业管理中,电力用户日益成为电力企业竞争的核心。不同的用户对电力的需求是不同的,哪家供电企业如果能够及时运用一定的方法和工具将电力需求不同的客户进行分类,谁就能获得先机,取得竞争优势。对此,电力企业可以通过挖掘由客户信息、用电信息组成的主题仓库,来对电力用户进行进一步了解。
再如,企业竞争情报系统的分析方法需要处理大量的数据,通常都是PB级的。如果通过对这些情报数据进行分析,将具有类似电力需求的客户归在一类,将有助于电力企业寻找最有价值的电力客户。通过向这些客户提供特殊的服务,投放不同的广告,将有助于提高其满意度和忠诚度,从而为电力企业盈利提供保证。
对此,可以将聚类分析运用到CRM中,从而能够针对不同的消费者群体提供更多的个性化服务,以便于更好满足电力客户的需求,为电力企业争取更多的客户。建立以数据挖掘技术为核心的信息系统由于计算机技术、网络技术在处理数据资料上的便捷、高效,电力企业为了适应时代的需求,大多探索建立了信息系统来辅助自己对内外部数据进行系统统计和精确分析,这样使得电力用户资料统计变得相对简单、易于操作。对于现代电力企业,应该逐渐摒弃“以产品为中心(good-domimantlogic)”的传统管理模式,并转变为“以服务为中心(service-dominantlogic)”的面向“社会媒体—网民群体—电力企业”的“企业网络生态系统(enterpriseecocystem)”的新型管理模式。
对此,一些电力企业开展了网上办电、网上业务咨询等服务,并对由此产生的信息进行分析和利用,从中获得收益;中国南方电网有限责任公司也将投资建设一体化信息平台;五大发电企业目前正在重构其信息系统以建立新的管理与运营模式,把建立统一的信息平台作为信息化建设的重点项目。同时,有人还提出了基于传统“目标驱动决策”和现代的“数据驱动决”的技术创新管理双向决策模型,如果将这个模型应用于供电企业中,可以形成以自组织动态监测为核心,能够有效预警并处理用电高峰期的技术监测模型。
对于日趋完善的电力企业信息系统,数据挖掘技术的实施必将取得事半功倍的效果。数据挖掘过程中的能耗问题电力企业在进行用户信息提取、负荷预测、数据库维护过程中,由于面对数据中心存储规模不断扩大的现实,高能耗、高成本已经成为制约大数据时代下数据挖掘过程有效进行的一个瓶颈。据《纽约时报》和麦肯锡公司就能耗问题发表的一篇题为“PowerPollutionandtheInternet”的文章指出,对于Google来讲,数据中心年耗电量约为3MW,而这些能耗中,只有6%~12%被合理利用。对于我国的电力企业来讲,绝大多数电能用于使服务器处于闲置状态,以应对负荷高峰时等情况。因此,对于电力企业来讲,应该从采用新型低功耗硬件以及引入可再生的新能源来构造一个绿色数据库等角度来考虑如何缓解能耗问题,将节约的能源再利用于基于时间序列相似性的电价预测。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21