QIN Zhiqin,HAN Yuhuan,ZHANG Yi,et al.Detection of abnormal power consumption state based on VMD decomposition and random matrix theory[J].Journal of Taiyuan University of Technology,2024,55(1):66-72.
随着智能电表的覆盖面逐渐扩大,电网在运行的过程中需要检测的用电数据量呈指数增长[1],由于设备不完善和电网波动等因素,导致用电侧的用电异常频频出现[2],严重威胁了电网的安全与经济运行,所以需要对异常情况进行检测。目前对用户异常用电行为的识别方法并不能明确用户异常用电行为发生的时刻和具体位置。因此,如何利用用户用电信息采集系统中的电力信息,实现对用户异常用电行为的全面、智能、快速以及准确的分析,进一步提高准确性和覆盖率,成为我们现在关注的焦点。
造成用户用电数据异常的原因包括:供电异常导致的停电限电行为、计量设备异常导致的数据缺失以及用户本身存在的窃电行为等;另一方面为电力用户用电数据的收集系统无法适应用户数量的急剧增加、供电公司内部数据整理体系不完善等。上述原因使得系统中的用电信息包含大量的异常数据。在电网运行中,一旦出现了不能被及时察觉的异常,将会造成非常严重的后果,带来极大的经济损失。因此异常数据包含的信息往往比正常数据更值得挖掘,通过对用电数据实时分析,及时发现异常行为,可以有效地阻止后续严重后果,提高电网运行的经济性。
近几年在异常检测范畴的研究接续加深,提出了良多异常数据挖掘算法,目前异常检测主要分为基于距离、聚类、回归和分类的方法[3]。LIN et al[4]提出一种优化的进化聚类(optimized evolutionary clustering,OPEC),通过加入适当重启(PR)框架来处理数据在短时间内发生剧烈变化的情况,这种方法较好地追踪了用户用电行为的时变性。吴丽珍等[5]提出利用聚类和随机矩阵方法,对用户的用电行为进行刻画,采用与各用电量相关联的数据,完成用电行为的精准分析。王建元等[6]针对目前异常用电状态检测模型参数选取困难,提出了无监督的双判据异常用电状态检测模型,包括线性判别分析方法和密度峰值聚类方法。但这些检测方法对数据样本要求较高,不同类型需规划不同的检测模型,如果模型设计不精确还会产生误差,且样本不宜太大,针对高维数据处理程序更加麻烦,且检测效果也不理想,实用性降低。
而随机矩阵理论研究的是根据已知的概率密度采样的高维矩阵的特征值、特征向量和奇异值,在金融[7]、无线通信[8]等领域已经展开了深度的研究应用,目前在电力系统中基于随机矩阵理论电力数据的研究开始初步应用[9]。
本文基于用电信息采集数据,提出一种基于VMD分解和随机矩阵理论应用于研究复杂的高维时序数据的异常检测的方法,分析电力数据内部的变化。利用VMD算法对电力数据进行噪点剔除,最大程度反映原始用电数据的用电规律;构建基于随机矩阵理论的异常用电状态检测模型。由于随机矩阵理论简单地适用于非高斯环境下的实际电力数据有困难,因此本文提出将随机矩阵理论与自回归滑动平均模型相结合,将RMT扩展到非高斯环境下的样本数据。结合山西电网实际低压台区数据,对文中所提模型进行效果验证。
选取n个节点的用电量作为样本,根据各个节点选择k个状态变量进行判别,则共构成N=n×k个变量。针对每次ti取样时刻,所采集的数据都可以组成一个列矢量:
x(ti)=[x1(ti),x2(ti),…,xN(ti)]T.
(1)
由于取样时刻的不断扩大,将N个列向量用矩阵形式来表达,选择滑动时间窗口的方法来收集样本,窗口宽度设置为T,即在利用采集到的历史数据同时采集i时刻的电力数据,共同构成随机矩阵,并作为分析的数据源:
XN×T=[x(ti-T+1),…,x(ti)] .
(2)
对于任意一个N×T的原始矩阵,对其进行标准化处理:
(3)
式中:是
的标准差;
是
的均值;
是
的标准差且
是
的均值且
通过上述处理的矩阵就成为N×T维的非Hermitian矩阵
针对非Hermitian矩阵可由下列公式求得的奇异值等价矩阵:
(4)
式中:U是符合Haar分布的酉矩阵。
则可知:
(5)
当有L个矩阵时,对它们进行随机矩阵分析处理,即可以得到L个处理过的独立非Hermitian矩阵,令:
(6)
需对上述矩阵进行标准化处理得矩阵
(7)
式中:为矩阵zi的标准差。
目前的RMT使用的数据被认为是服从高斯分布的[10-11],但是真实的用电数据并不服从高斯分布,其原因是电表实测数据不服从独立同分布,且参数之间有很强的相关性,因此将RMT简单地应用于实际用电数据是困难的。根据时间序列ARMA模型谱理论[12],首先将用电量数据建模为时间序列;然后将RMT扩展到时间序列而不是纯高斯约束,提出了在时间序列方面将实际用电数据建模为随机矩阵的算法[13]。
首先考虑时间序列的平稳ARMA(p,q)方程:
φ(B)yt=θ(B)εt.
(8)
式中:{yt:t=0,±1,…}是一个实变量序列;{εt:t=0,±1,…}是服从N(0,σ2)的白噪声向量,B为延迟算子。
令Xi是y=(y1,y2,…,yT)的N个独立副本:
Xi=(X1i,X2i,…,XTi),i∈[1,N] .
(9)
X=(X1,X2,…,XN)T.
(10)
若c=N/T∈(0,1],则协方差矩阵S=1/N(XXH)对应的经验谱趋于Stieltjes变换概率分布F:
(11)
式中:是ARMA(p,q)模型的谱密度:
(12)
对于更复杂的情况,提出数值解来计算F的表达式,如下:
(13)
式中:
设ε是一个足够小的正值,并设置z=x+iε选取初始值s0(z)=u+iε,根据迭代方程迭代k≥0:
sk+1(z)={-z+A(sk(z))}-1.
(14)
直到sk(z)收敛,则密度函数fT(x):
(15)
通过上述处理,将RMT从纯高斯环境扩展到非高斯环境。
VMD[14]算法是将数据分解转化为变分问题,求取最优解的过程,继而转变为一个优化的问题,具有优越的抗噪强度。实际应用中需要排除噪声干扰,所以我们采用VMD分解方法将强相关分量分离出来,如图1所示。
图1 VMD数据分解
Fig.1 VMD data decomposition
图1中第一层为原始数据曲线,二至四层为经过VMD分解的模态分量。可以看出,IMF1的模态分布为有用信息,IMF2-IMF3的分量属于噪声部分。经过VMD分解后,低频信号IMF1比原始数据的信号曲线更平滑,低频部分的趋势与原有信号大致一致,说明可以有效地分离噪声,反映原始用电数据的规律,便于检测。
2.2.1单环定理
对于N×T阶非Hermitian矩阵XN×T,当矩阵中元素符合期望为0、方差为1时,且为独立同分布时,则经由酉矩阵U获得XN×T的奇异值等价矩阵令
则当N,T→∞且N/T=c∈(0,1]时,矩阵
的经验谱分布可以收敛到单环定理,其密度函数表示为:
(16)
为便于计算,在本文的讨论中,仅分析L=1的情形。按照单环定律,高维随机矩阵的奇异值等价矩阵的复数特征值可以用一系列的由实部与虚部组成的离散点来表示,主要集中于一个内环半径为和外环半径为1的圆环内。
2.2.2M-P定理
M-P定理是用来刻画一个随机矩阵的协方差矩阵的特征值分布情况。针对N×T阶非Hermitian矩阵X,满足均值μ=0、方差δ<∞且独立同分布。当N,T→∞且N/T=c∈(0,1]时,则X的协方差矩阵SN的经验谱分布收敛于M-P定理,其密度函数为:
fM-P(X)=
(17)
式中:x为协方差矩阵SN的特征值;δ2为矩阵内元素的方差;
本论文根据第一节数据处理和第二节的基本理论描述,提出基于VMD-随机矩阵理论与自回归滑动模型结合的异常检测方法,流程图如图2所示。
图2 异常检测方法的流程图
Fig.2 Flow chart of anomaly detection method
具体步骤如下:
1) 获取原始电力数据,对其进行数据预处理,使用VMD算法去除噪声数据;
2) 采用ARMA模型将电力数据建模为时间序列[12],根据谱分析方法计算谱密度函数来描述时间序列的频域特性,得到时间序列的随机矩阵;
3) 利用RMT对该时间序列进行异常检测,以判断此电力数据中是否存在异常状态。
该方法的优势在于,能够有效地分析大规模、高维度及非高斯分布的时间序列数据,以实现数据中的异常检测与识别。
单环定理可以展示数据内部的特征值分布情况,根据基本理论描述,提出基于VMD-单环定理异常检测的判断标准如下:
1) 当高维随机矩阵的奇异值等价矩阵的复数特征值主要分布在内环半径和外环半径之间的圆环内,则可以判别此时用电行为处于正常状况;
2) 当复数特征值分布不在内环半径和外环半径之间的圆环内,而是大量分布在圆环外部,则可以判别此时用电行为处于异常状况。
M-P定理可以显示理论数据的分布情况,核密度估计方法是用来估计概率密度函数的方法,即可以估计用户用电量数据的实际分布情况。核密度估计的概率密度函数可以表示为:
(18)
式中:K(·)为核函数,满足为缩放核函数;h为核函数带宽;xi代表样本协方差矩阵S的特征值。
一般情况下,M-P定理函数fM-P(x)与核密度估计函数fKDE(x)仅在固定的点进行计算,即在区间[a,b]([a,b]是M-P定理的特征值的分布范围)等间距的选取d个取值的点{xi},i=1,2,…,d,d的大小反映了对数据信息的压缩程度,以d=0.1N为标准,在取值点上分别计算fM-P(xi)与fKDE(xi),根据公式(19)得到偏差曲线fD:
fD=N×h×[fM-P(xi)-fKDE(xi)] .
(19)
所以根据两者的关系提出异常检测的判断标准:
1) 当M-P定理曲线与核密度估计曲线的分布情况一致时,即M-P定理曲线与核密度估计曲线可以很好地拟合在一起,此时的偏差曲线分布十分平缓,与x轴重合较大时,可以判断此时用户的用电行为是正常状态;
2) 当M-P定理曲线与核密度估计曲线的分布情况不一致时,即M-P定理曲线与核密度估计曲线有较大的差异,此时偏差曲线分布不再是平缓状态,而是波动分布或者分布较陡峭,且与x轴几乎不重合时,可以判断此时用户的用电行为是异常状态。
本文用于算例分析的数据为山西省某县城的实际量测数据,该数据间隔15 min采集一次,一天24 h共采集96个点,选取2020年4月1日-2020年7月7日连续100 d的用电量数据作为实验样本数据,介绍见表1.使用MATLAB软件搭建仿真平台,对基于VMD-随机矩阵理论的异常检测方法进行验证。
表1 数据介绍
Table 1 Data introduction
类别编号异常事件发生日期异常事件发生原因N/T正常台区1--96/100205-19电能表停走24/96异常台区305-21电能表费率设置异常48/100405-25电流不平衡96/100
如表1所示,编号1为正常台区,编号2、3、4为异常台区,本实例按照正常台区和异常台区进行分析验证。
为满足行列比N/T=c∈(0,1],滑动距离均为1,滑动窗口选择:台区1和台区4选择N=96,T=100;台区2选择N=24,T=96;台区3选择N=48,T=100.然后对数据展开标准化处理,依照数据分解和随机矩阵的方式对电力数据进行异常检测。
本节基于VMD-随机矩阵定理对某县城电网中实际用电量数据进行异常检测,为验证单环定理对整体用电状态的评估特性,对表1中4个台区进行基于单环定理的异常检测,结果如图3所示,内环半径分别为:0.2,0.866,0.721,0.2.基于M-P定理和核密度估计异常检测结果图如图4所示,偏差曲线对状态的判断情况验证结果图如图5所示。
图3 单环定理特征值分布结果图
Fig.3 Eigenvalue distribution
图4 基于M-P定理的异常检测结果图
Fig.4 Anomaly detection based on M-P theorem
图5 偏差曲线对状态的判断情况
Fig.5 Judgment of state by deviation curve
在图3中蓝色的点表示特征值,红色的曲线则为单环定理的外环和内环。在图3(a)中用电量数据矩阵的特征值分布于圆环之内,即台区1该天用电数据在正常运行状态;而图3(b)-(d)中特征值分布不在内环外环之间,而是大量分布在内环内部,即台区2、3、4存在异常运行状态。
在图4(a)中,红线为基于实际值的非参数KDE曲线,蓝线则为M-P定理的理论曲线。可以看出无异常情况时,蓝线和红线几乎重合到一起,表明特征值的密度函数符合定理。从图4(b)-(d)发现:台区2、3、4的经验谱密度函数偏离了M-P定理,说明实际电力系统中出现了有价值的变化信息,此时数据不再满足较好的独立同分布,即可判定台区2、3、4均处于异常状态。
图5则反映了计算值KDE和理论值的偏差。图5(a)可发现台区1在正常运行时,矩阵的实际值和理论值十分接近,与x轴重合较大,偏差曲线分布十分平缓;从图5(b)-(d)中可以发现:偏差曲线是波动变化的,实际值和理论值的偏差曲线不再趋于平缓而是有较大偏差,偏差曲线的比较见表2.
表2 偏差曲线比较
Table 2 Deviation curve comparison
台区编号特征值0246台区11500.2020.1020.002台区2-0.20.0800.0320.045台区3-7-0.0100.0310.002台区4140-0.3220.0120.010
偏差曲线的线性变化意味着特征值分布具有一定的规律性。因此可以在表2中观察到:台区1的偏差曲线呈线性变化并趋向于零,说明用电状态具有规律性和可预测性,特征值增加时,系统的随机性减小,用电状态变化较小,相对稳定;台区2-台区4的偏差曲线在线性变化过程中发生不规则的波动,说明异常台区的用电状态变化不符合正常的规律。
通过图3、4、5的异常检测结果可以发现本文的方法可以检测到台区2、3、4在T=49,51,55时均有异常情况发生,且异常发生时刻与表1标记时刻一致。
经过上述实验验证:单环定理和M-P定理可检测异常用电状态情况,具有较高的可靠性,适合应用于实际场景中。
为验证本文方法对异常行为发生时刻精准识别的有效性和实时性,采取上述实验中四个台区的所有用电数据进行异常检测对比分析,已知用电数据共有3天显示为异常情况,基于K-Means聚类算法的异常结果如图6所示,本文方法与K-Means聚类算法的性能比较如表3所示。
表3 性能比较
Table 3 Performance comparison
方法准确率召回率F1分数VMD-RMT111K-Means0.960.9580.978
图6K-Means算法分析结果
Fig.6K-Means algorithm analysis
通过上图可以看出绿色的点表示正常情况,红色的点表示异常情况(7个异常数据点)。很明显聚类的方法比较粗糙,有一些数据被错误分类,通过与实际情况相对比,K-Means算法统计的异常天数比实际统计发生异常行为的天数多,这种情况很容易发生误判行为,且不能直观地体现异常发生时刻。而通过本文算法可以直观、准确识别到异常发生的时刻,验证了本文方法在相同情况下异常检测的正确率高于K-Means方法。
文中提出了一种基于数据分解-随机矩阵的方法用于智能电表用户用电行为的异常检测。首先对数据处理结合时间序列ARMA模型的谱理论使得RMT理论适用于时序数据;然后介绍VMD分解定理,利用数据分解剔除噪声,提出VMD-随机矩阵定理异常检测的方法;最后将该方法应用于从真实智能电表采集的用户用电数据分析,验证了数据分解-随机矩阵理论在分析电力数据方面的有用性和便捷性。
[1] 舒珏淋,张力,胡建.基于高斯混合模型的智能电表误差数据挖掘与分析方法[J].电子测量技术,2021,44(15):56-61.
SHU J L,ZHANG L,HU J.Data mining and analysis method for smart meter erter error data based on Gaussian mixture model[J].Electronic Measurement Technology,2021,44(15):56-61.
[2] 陈曦,宋纯贺,王天然.大范围低压供电区电力消费及窃电规律研究[J].太原理工大学学报,2022,53(1):71-79.
CHEN X,SONG C H,WANG T R.Study on power consumption and stealing law of large-scale low voltage power supply area[J].Journal of Taiyuan University of Technology,2022,53(1):71-79.
[3] 李坤奇,孟润泉,李凤莲.融合聚类-卷积-门循环的居民用电短期负荷预测方法[J].太原理工大学学报,2023,54(1):203-210.
LI K Q,MENG R Q,LI F L.Short-term load forecasting method based on BIRCH-CNN-GRU model[J].Journal of Taiyuan University of Technology,2023,54(1):203-210.
[4] LIN R H,YE Z Z,ZHAO Y Y.OPEC:Daily load data analysis based on optimized evolutionary clustering[J].Energies,2019,12(14):2668.
[5] 吴丽珍,张永年,陈伟,等.基于聚类和随机矩阵理论的用电行为刻画方法[J].兰州理工大学学报,2021,47(5):70-75.
WU L Z,ZHANG Y N,CHEN W,et al.Research on characterization of electricity consumption behavior based on clustering and random matrix theory[J].Journal of Lanzhou University of Technology,2021,47(5):70-75.
[6] 王建元,张少锋.基于线性判别分析和密度峰值聚类的异常用电模式检测[J].电力系统自动化,2022,46(5):87-98.
WANG J Y,ZHANG S F.Anomaly detection for power consumption patterns based on linear discriminant analysis and density peak clustering[J].Automation of Electric Power Systems,2022,46(5):87-98.
[7] AIRES D B,CREPALDI A F.A Random-matrix-theory-based analysis of the brazilian stock market during the 2008 financial crisis and asian crisis and temporal neighborhoods[J].Fluctuation and Noise Letters,2022,21(6):2250055.
[8] CHEN X Y,YANG C,XU X D,et al.Anomaly detection in metro passenger flow based on random matrix theory[C]∥2019 IEEE Intelligent Transportation Systems Conference (ITSC).IEEE,2019:625-630.
[9] 贺兴,艾芊,朱天怡,等.数字孪生在电力系统应用中的机遇和挑战[J].电网技术,2020,44(6):2009-2019.
HE X,AI Q,ZHU T Y,et al.Opportunities and challenges of the digital twin in power system applications[J].Power System Technology,2020,44(6):2009-2019.
[10] HAN F,ASHTON P M,LI M,et al.A data driven approach to robust event detection in smart grids based on random matrix theory and Kalman filtering[J].Energies,2021,14(8):2166.
[11] XIAO F,AI Q.Electricity theft detection in smart grid using random matrix theory[J].IET Generation,Transmission &Distribution,2018,12(2):371-378.
[12] DONG Y,MA S,ZHANG H,et al.Wind power prediction based on multi-class autoregressive moving average model with logistic function[J].Journal of Modern Power Systems and Clean Energy,2022,10(5):1184-1193.
[13] ARGUIN L P.A first course in random matrix theory for physicists,engineers and data scientists[J].Quantitative Finance,2023,23(3):389-391.
[14] SHEN Y,MA Y,DENG S,et al.An ensemble model based on deep learning and data preprocessing for short-term electrical load forecasting[J].Sustainability,2021,13(4):1694.