智能电网是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,见图1。它涵盖发电、输电、变电、配电、用电和调度等各个环节,对电力市场中各利益方的需求和功能进行协调,在保证系统各部分高效运行、降低运营成本和环境影响的同时,尽可能提高系统的可靠性、自愈性和稳定性。随着智能电网的发展,电网在电力系统运行、设备状态监测、用电信息采集、营销业务系统等各个方面产生和沉淀了大量数据,充分挖掘这些数据的价值具有重要的意义。
图1 智能电网示意图
大数据是近年来受到广泛关注的新概念,一般是指无法在可容忍的时间内用传统的IT技术、软硬件工具和数学分析方法,对其进行感知、获取、管理、处理和分析的数据集合。智能电网被看作是大数据应用的重要技术领域之一。目前许多学者正在进行智能电网大数据研究,包括发展战略研究、大数据技术研究、应用研究等。
智能电网大数据应用众多,涉及电网安全稳定运行、节能经济调度、供电可靠性、经济社会发展分析等诸多方面,进行智能电网大数据分析需要统一智能电网大数据,并且由于应用众多,对计算、存储、网络等性能提出了较高要求,因此需要构建面向智能电网应用的统一大数据处理平台。本文首先分析智能电网大数据特点以及业务应用需求,接着结合业务应用介绍大数据关键技术,进而提出智能电网大数据平台和应用框架。
1 智能电网大数据概述
1.1 智能电网大数据特点
根据数据来源的不同,可以将智能电网大数据分为电力企业内部数据和电力企业外部数据。电力企业内部数据源主要包括广域量测系统(WAMS)、数据采集与监控系统(SCADA)、在线监测系统、用电信息采集系统、生产管理系统、能量管理系统、配电管理系统、客户服务系统、财务管理系统等;电力企业外部数据源包括气象信息系统、地理信息系统、互联网数据、公共服务部门数据、社会经济数据等。这些数据分散放置在不同地方,由不同单位/部门管理,具有分散放置、分布管理的特性。
智能电网大数据结构复杂、种类繁多,除传统的结构化数据外,还包含大量的半结构化、非结构化数据,如客户服务中心信息系统的语音数据,设备在线监测系统中的视频数据与图像数据等。这些数据的采样频率与生命周期也各不同,从微秒级、分钟级、小时级,一直到年度级,见图2。
图2 智能电网数据采用频率和生命周期
1.2 大数据业务需求分析
智能电网大数据业务应用根据对象不同可分为面向电力公司运行管理、面向电力用户服务、面向政府部门辅助决策等3类。面向电力公司运行管理类应用包括电力系统稳定性分析与控制、输变电设备故障诊断与状态检修、配电网运行状态评估与预警、配电网故障定位、负荷预测、城市电网规划等;面向电力用户服务类应用包括用户用电行为分析、需求侧管理、能效分析、供电服务舆情分析等;面向政府部门辅助决策类应用包括社会经济状况分析与预测、政府决策支持与相关政策评估,如电价政策、新能源补贴政策等是否合理等。这些需求需要综合电网运行状态信息、用户用电信息、客服系统信息、气象数据、经济社会数据和互联网数据等。
2智能电网大数据关键技术
根据信息处理流程,大数据在智能电网中的应用可以分为数据采集、数据清理、数据存储及处理、数据分析、数据解读和数据应用6个环节,其关键技术包括数据集成技术、数据存储技术、数据处理技术和数据分析技术。
2.1 数据集成技术
智能电网大数据具有分散性、多样性和复杂性等特征,这些特征给大数据处理带来极大的挑战。要想处理智能电网大数据,首先就需要对众多数据源的数据进行集成,通过数据抽取、转换、剔除、修正等处理,建立正确、完整、一致、完备、有效的智能电网大数据。目前通常采用的数据集成模型包括数据联邦、基于中间件模型和数据仓库等。
ETL是企业数据集成的主要解决方案。ETL指Extract、Transform、Load,即抽取、转换、加载。数据抽取是从源数据源系统抽取目的数据源系统需要的数据;数据转换是将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工;数据加载是将转换后的数据加载到目的数据源。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据加载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。
数据集成是智能电网大数据应用的关键环节。智能电网大数据集成涉及众多各类型的应用系统,这些系统类型和特征复杂,在实时性要求、数据规模、数据类型等方面存在较大的差异,在智能电网大数据集成中需要综合考虑各种因素,在集成技术上单一技术可能很难实现,需要结合多种技术来实现智能电网大数据的集成。
2.2 数据存储技术
在智能电网大数据中,绝大多数数据为结构化数据,同时也存在文本、图像、音频、视频等非结构化或半结构化数据。对非结构化数据可采用分布式文件系统进行存储,对结构松散无模式的半结构化数据可采用分布式数据库,对海量的结构化数据可采用传统关系型数据库系统或分布式并行数据库。
2.2.1 分布式文件系统
分布式文件系统适合存储海量的非结构化数据,将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、打开文件数等方面的限制问题。
Hadoop是大数据的一个解决方案,可以实现大数据的存储、分析和管理。HDFS (Hadoop Distributed File System)是一个分布式文件系统,它是开源项目Hadoop的家族成员。HDFS将大规模数据分割为大小为64兆字节的数据块,存储在多个数据节点组成的分布式集群中,当数据规模增加时,只需要在集群中增加更多的数据节点,具有很强的可扩展性;同时每个数据块会在不同的节点中存储多个副本,具有高容错性;由于数据是分布存储的,具有高吞吐量的数据访问能力。
2.2.2 分布式数据库
大数据环境下对数据的存储、管理、查询和分析需要采用新的技术,传统的数据库在数据存储规模、吞吐量、以及数据类型和支撑应用等存在瓶颈。分布式数据库由于具有很好的扩展性和协同性,在大规模数据存储和管理中得到广泛的应用。目前主要有键值存储系统、文档数据库、图数据库等。
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它不同于一般的有模式的关系型数据库,HBase存储的数据表是无模式的,特别适合结构复杂多样的半结构化数据存储。HBase利用HDFS作为其文件存储系统,可利用Map-Reduce技术来处理HBase中的海量数据。
2.2.3 关系型数据库系统
智能电网中很大一部分数据是结构化数据,针对一些数据和业务应用,传统关系型数据库可能更适合,因此在大数据环境下,传统关系型数据库也具有一定的应用。基于传统数据库如Oracle等构建数据仓库,开展智能电网业务的分析挖掘。
智能电网大数据结构复杂、种类繁多,其数据存储需要根据数据的特点选用适合的数据存储方式。数据管理也是智能电网大数据的重要功能,从整体上对存储在不同系统上的数据进行统一管理,并提供数据索引和查询功能。综合以上分析,数据存储对比见表1。
2.3 数据处理技术
智能电网大数据的应用类型多,需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求,大数据处理技术分流处理、批处理、内存计算、图计算等。
2.3.1 流处理
流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有Twitter Storm和Yahoo S4。
Storm是分布式实时计算系统,主要用于流数据处理,可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息,处理之后将结果写入到某个存储中去。Storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以Storm的速度较快。Storm弥补了Hadoop批处理所不能满足的实时要求,经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。
2.3.2 批处理
Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架,用于大规模数据集的并行运算,主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上,并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之,并把计算推到数据所在的服务器,有效地避免数据传输过程中产生的大量通信开销。
Map-Reduce的优点主要有2个方面:
①不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,如自动并行化、负荷均衡和灾备管理等,这将极大简化开发工作;
②伸缩性非常好,集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求,只能进行大规模离线数据分析。
2.3.3 内存计算
随着内存价格的不断下降,服务器配置的内存容量不断增大,用内存计算来完成大规模数据处理成为可能。与Hadoop Map-Reduce批处理相比,内存计算能够提供高性能的大数据分析处理能力。内存计算是一种体系结构上的解决方法,它可以和各种不同的计算模式相结合,包括批处理、流处理、图计算等。比如Spark是分布式内存计算的一个典型并行计算框架,Spark基于Map-Reduce算法实现的分布式计算,拥有Hadoop Map-Reduce所具有的优点;但不同于Map-Reduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark具有更好的性能,适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法。
智能电网大数据应用根据业务特点和对处理响应的时间来选择数据处理的方式,针对电网安全在线分析、电网运行监控等业务,数据实时性要求高、需要作出迅速响应,可以采用流处理内存计算;而对于用户用电行为分析等业务,实时性和响应时间要求低,可以采用批处理方式。综合以上分析,数据处理方式对比见表2。
2.4 数据分析技术
数据分析是智能电网大数据处理的核心,由于大数据的海量、复杂多样、变化快等特性,大数据环境下的传统小数据分析算法很多已不再适用,需要采用新的数据分析方法或对现有数据分析方法进行改进。
数据挖掘方法主要有分类、关联分析、聚类、异常检测、回归分析等,其中每一类包括众多的算法。分类包括支持向量机、决策树、贝叶斯、神经网络等技术;关联分析包括Apriori、FP-growth等算法;聚类分析分为划分法、层次法、密度法、图论法、模型法等,具体算法如k-means 算法、K-MEDOIDS算法、Clara算法、Clarans算法、SOM神经网络、FCM聚类算法等;异常检测包括基于统计、距离、偏差、密度等方法。在智能电网应用中需要对现有的算法进行优化和并行化改进,实现分布式处理。
机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序,通过经验学习规律,一般应用在缺少理论模型指导但存在经验观测的领域中。机器学习分为归纳学习、分析学习、类比学习、遗传算法、联接学习、增强学习等。深度学习是机器学习研究中的一个新的领域,2006年由Hinton等提出,其目的在于建立模拟人脑进行分析学习的神经网络,目前深度学习在语音识别、图像识别、机器翻译等领域进行了应用,并取得了较好的效果。
智能电网大数据挖掘主要为结构化数据,同时也存在文本、图像、音频、视频等数据,在智能电网大数据应用中需要针对具体的业务采用合适的数据分析方法。
3 智能电网大数据平台
3.1 核心平台框架
智能电网大数据应用需要构建在大数据平台之上,大数据平台为应用提供统一数据接入、清洗、存储、管理、分析计算等功能。大数据核心平台由基础资源、数据存储、数据分析与处理、数据管理、平台服务和平台管控等组成,见图3。
图3 智能电网大数据核心平台框架图
基础资源层主要包括计算资源池、存储资源池、网络资源池,为虚拟化的资源,能够实现弹性的资源供给和扩展。基于存储资源池实现大数据平台的各种数据存储功能,包括分布式文件系统、分布式数据库、传统数据库和数据仓库。数据管理实现大数据平台的接入管理、数据清洗、数据统一建模、数据检索、数据服务等功能。数据分析与处理是大数据平台的核心,大数据平台根据具体业务需求能够提供批处理、流处理等功能,同时平台能够提供通用的数据分析算法包或工具,包括数据挖掘、统计分析、机器学习等。平台管控包括资源调度、集群管控、安全管控、用户管理等,实现对平台的监控、调度和管理。
3.2 应用框架
结合智能电网的应用需求,在大数据核心平台之上构建各类大数据应用。面向智能电网大数据的应用框架见图4。应用整体框架分数据集成与交互层、大数据核心平台层、应用层。
图4 智能电网大数据应用框架
4 结语
1)智能电网大数据数据量大、类型多样、数据特征复杂,同时业务应用需求场景多,且存在交叉融合,对现有数据处理方式和平台提出了很高的要求,需要采用新的大数据处理技术来支撑。
2)智能电网大数据关键技术包括数据集成、数据存储、数据处理、数据分析等技术,需要结合具体业务的特点和需求选择相应的技术。
3)智能电网大数据平台需要构建统一数据模型来实现智能电网各类数据的融合和共享,基于全数据进行业务的开发和应用,智能电网大数据平台具有数据共享、应用开发和业务运行3方面功能。
4)随着智能电网的发展,数据将成为核心资源,大数据平台将承载智能电网众多各类型应用,其基础作用将越来越重要。