基于主成分分析的餐饮异常用户筛选

主成分分析

        主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关,作为新的综合指标。本文试图通过主成分分析的方法对餐饮用户的用气特征进行综合评价,从而筛选异常用户。

餐饮用户用气数据统计特征

        本文通过分析餐饮用户在一段时间内的小时用气量数据,提取了如下七个特征维度:
1、日均用气小时数

        日均用气小时数是指该用户在一天内使用燃气的小时数。一般对于餐饮用户来说其用气小时数与其营业时间具有很强的相关性。

2、小时用气均量
        小时用气均量是用气总的用气量除以其总的用气小时数,该指标与其营业规模具有一定的相关性。

3、燃气表公称流量
        该指标描述了该用户所使用的燃气表规格,其与其用气规模也具有相关性。

4、小时离散系数
        小时离散系数是每个小时用气量的标准差与其均值的比值,可按下式计算:

vs=σXv_s= \frac{ \sigma }{ \overline {X}}

        式中$ \sigma 为标准差, \overline{X} $均值。

5、小时高峰系数
        小时高峰系数是一天中的最高小时用气量与用气均量之间的比值。

6、小时低谷系数
        小时低谷系数是一天中的最低小时用气量与用气均量之间的比值。

小时高峰系数和小时低谷系数是餐饮用户用气量区别于其它用户最显著的特征,通常来说正常的餐饮用户一定会在中午和晚上有两个用气高峰点。

7、日用气率
        日用气率是值该用户用气的天数占全部统计天数的比例。实际上该指标也是反应其营业状态的指标。

##分析结果

        选取了部分餐饮用户在174天内的小时用气量数据,利用SPSS软件进行主成分分析,从这七个特征维度中提取了两个主成分,并建立得分方程,从而对餐饮用户进行综合打分,筛选异常用户。

因子分析

alt

        从描述性统计的表中可以看出,这部分餐饮用户平均每天的用气小时数在12小时左右,小时用气量在6立方米左右,最高的用气量是平均用气量的4.5倍,最低用气量是均值的26%。
        相关性矩阵描述了各个特征维度之间的相关性。

提取主成分

alt alt

        从上面可以看出,利用主成分分析法可以从这七个特征维度中提取两个主成分,可以累积达到63.789%的解释贡献率。

        经过旋转以后的成分矩阵如下图所示:

alt

        从上面旋转后的成分矩阵可以看出,成分1主要跟日均用气小时数、日均小时高峰系数、小时离散系数及日用气率相关,主要描述的是用户用气的上限有关,姑且把它命名为上限系数;成分2主要跟小时用气均量、燃气表公称流量、小时低谷系数有关,主要跟用气的下限有关,姑且把它命名为下限系数。

建立得分方程

alt

        根据上面的得分系数矩阵,可以得到每个用户在上限系数和下限系数的得分。其综合得分可以根据下式计算:

ωs=0.37ξup+0.27ξdown\omega_s=0.37\xi_{up}+0.27\xi_{down}

        那么根据综合得分可以对这157个餐饮用户进行排序,如下图所示:

alt

从上表可以看出,按照从低到高排序以后,排在前面的几个用户与大部分用户相比存在显著的差异,表现在如下几个方面:

  • 日均用气小时数较低,平均每天只有1到3个小时的用气时间,这显然不符合餐饮用户的运营特点;
  • 小时用气均量与燃气表公称流量差距较大,这说明燃气表总是在一个低负荷的状态下运行,会影响计量精度;
  • 高峰系数和低谷系数太高,尤其是有的用户低谷系数接近1,这说明其根本没有低谷,大部分时间的用气量都没有变化,这显然也不负荷餐饮用户的运营特点。