基于GA-BP神经网络与正态区间估计的需水预测——以邯郸市为例

马于航, 索梅芹

PDF(1275 KB)
中国农村水利水电 ›› 2022 ›› (3) : 19-24.
水文水资源

基于GA-BP神经网络与正态区间估计的需水预测——以邯郸市为例

作者信息 +

Research on Water Demand Forecasting in Handan City Based on GA-BP Neural Network and Normal Interval Estimation

Author information +
稿件信息 +

摘要

科学准确的需水量预测结果可以为城市水资源供需平衡决策提供合理依据。针对城市需水涉及因素多、历史数据样本量少、需水量具有波动性和不确定性的特点,提出了基于GA-BP神经网络与正态区间估计的组合预测模型,模型使用主成分分析法、灰色关联分析法筛选影响因子,加入遗传算法优化BP神经网络,构建GA-BP神经网络,最后引入正态区间估计,输出需水量区间预测值,利用此模型对邯郸市2019年总需水量进行模拟预测,结果表明:单一使用GA-BP神经网络的点预测结果相对误差在-6.2%~5.13%之间;基于GA-BP神经网络和正态区间估计的组合预测模型的区间预测结果相对误差在-1.01%~0.004%之间,可见基于GA-BP神经网络与正态区间估计的组合预测模型更稳定、更准确,更接近邯郸市实际需水状况,该组合模型可作为邯郸市需水量预测的一种方法。

Abstract

Scientific and accurate water demand prediction results can provide a reasonable basis for urban water supply and demand balance decisions. In this paper, a combined urban water demand forecasting model is proposed by incorporating GA-BP neural networks and normal interval estimation to address the problems of many factors involved in urban water demands, small sample sizes of historical data and fluctuation and uncertainty of water demands. The results show that the relative error of the point prediction results of a single GA-BP neural networks ranges from -6.2% to 5.13%; the relative error of the interval prediction results of the combined prediction model based on GA-BP neural networks and normal interval estimation ranges from -1.01% to 0.004%, which shows that the combined prediction model based on GA-BP neural networks and normal interval estimation is more stable, more accurate and closer to the actual water demand situation in Handan. The combined model can be used as a way to forecast the water demands in Handan.

关键词

GA-BP神经网络 / 正态区间估计 / 组合模型 / 区间预测

Key words

GA-BP neural networks / normal interval estimation / combined model / interval forecast

基金

国家自然科学基金面上项目(61873084)
河北省自然科学基金面上项目(D2019402235)

引用本文

导出引用
马于航 , 索梅芹. 基于GA-BP神经网络与正态区间估计的需水预测——以邯郸市为例[J].中国农村水利水电, 2022(3): 19-24
Yu-hang MA , Mei-qin SUO. Research on Water Demand Forecasting in Handan City Based on GA-BP Neural Network and Normal Interval Estimation[J].China Rural Water and Hydropower, 2022(3): 19-24

0 引 言

城市需水预测是城市水资源管理和规划的重要环节,也是供水系统优化运行的基本内容1。城市需水量是一个受人口、地域、经济发展等诸多因素影响的变量,具有较强的非线性和不确定性。现有的需水预测方法包括传统预测(回归分析、指数平滑、趋势外推法等)2-5和新型预测(BP神经网络、灰色预测、混沌理论、组合模型等)6-12。马兴冠等13研究表明指数预测、定额预测法、趋势法等方法只能反映一种平稳的几何增长过程,预测精度偏低,聂红梅14等比较了主成分回归、逐步回归、灰色模型和BP神经网络四种城市需水预测模型,其中BP神经网络具有强大的非线性拟合能力,利用BP神经网络进行需水预测具有较高的预测精度;但在实际使用过程中,BP神经网络具有收敛速度慢、易陷入局部最优的缺点。为加强BP神经网络全局搜索的能力、提高网络性能与预测精度,引入遗传算法优化BP神经网络,构建GA-BP神经网络预测模型,具有一定的计算效果。在实际用水过程中,由于不确定因素的影响,需水量具有波动性和不确定性的特点,单一使用GA-BP神经网络预测模型得到的点预测结果、难以解决需水量的波动性和不确定性,而利用区间预测可以更好地反映城市需水量的实际情况。因此,在GA-BP神经网络的基础上,引入正态区间估计的方法,进行城市需水量区间预测,可得到更稳定、更准确、更接近实际的预测效果。
本文以邯郸市为例,构建基于GA-BP神经网络与正态区间估计的组合预测模型,该模型使用主成分分析法、灰色关联分析法对需水影响因子进行两次筛选,筛选后的需水影响因子作为输入GA-BP神经网络的训练样本,在使用GA-BP神经网络预测基础上,引入正态区间估计,以实现提升预测精度、更好地反映城市需水量实际情况的目的。

1 组合预测模型的建立

基于GA-BP神经网络与正态区间估计的组合预测模型主要分为以下几部分:主成分分析、灰色关联分析、GA-BP神经网络预测、正态检验、正态区间估计。设计的组合模型技术路线如图1所示。
图1 组合模型设计

Fig.1 Combined model design

Full size|PPT slide

1.1 影响因子筛选

1.1.1 主成分分析法

主成分分析法是一种常用的数据分析方法,其基本思想是将多指标的数据通过数据的线性变化(基变换)转换为几个线性无关的综合指标,舍弃部分信息量,从而达到数据降维和解决数据间多重共线性的目的。基本原理:
X mn =(X 1X 2,…,Xm )为m个标准化指标组成的数据矩阵,每个指标有n个样本;
对矩阵 X 进行线性变化(基变换)得 Y kn =Pkm X mn Y T =(y 1y 2,…,yk )(k<m)为降维后的数据矩阵,由k个指标组成,每个指标有n个样本,这是降维的基本形式;
主成分分析法要求降维后数据矩阵的协方差矩阵为对角矩阵,即降维后各指标间线性无关且每次提取的主成分信息量最大:
Var(Y)=1nY YT=1nP X XTPT=P1nX XTPT=P Var(X)PT
不难看出,进行线性变换时连续提取主成分的过程,其实就是矩阵 X 的协方差矩阵的对角化过程。通过矩阵对角化的方式对矩阵 X 的协方差矩阵进行运算,所计算得到的最大的特征值即为第一主成分的方差,也代表了信息量的多少,而相应的特征向量即是通过矩阵 X 线性变换所得到第一主成分的特征系数,它也可视为相应指标在主成分中所占有的最大权重。

1.1.2 灰色关联分析法

灰色关联分析法是一种关于多指标数据的分析方法,能够定量分析不同指标数据对某个指标的影响程度。基本计算过程包括:
设指标X 0k)=[X 0(1),X 0(2),…,X 0m)];
影响因素指标Xik)=[Xi (1),Xi (2),…,Xin)],i=1,2,…,n
消除量纲影响进行初值化处理:
Xi'=Xi/Xi(1)
计算指标与影响因素数据Xik)差的绝对值:
Δi(K)=|Xo'(K)-Xi'(k)|
计算关联系数:
Δmax=maximaxk|Xo'(K)-Xi'(k)|
Δmin=minimink|Xo'(K)-Xi'(k)|
ξi(k)=(Δmin+ρΔmax)/[Δi(K)+ρΔmax]
计算各影响因素与指标的关联度,并根据得到的关联度由大到小排序。关联度越大,代表两者之间的相关性就越强:
ri=1nK=1nξi(K)

1.2 神经网络预测

1.2.1 BP神经网络

BP(Back Propagation)神经网络是一个由误差反向传播算法训练的多层前馈网络,大量研究证实了BP神经网络在时间序列预测中的优越性,其基本结构由输入层、隐藏层和输出层三部分组成。其核心思想是模拟脑神经信号的传播方式,使用样本值进行多次训练,采用梯度下降的方法,进行误差反向传播,调整权值、阈值,确定影响因素与输出值之间的映射关系。其基本原理如图2所示。
图2 BP神经网络基本结构

Fig.2 Basic structure of BP neural network

Full size|PPT slide

神经元节点间正向传播,设输入层神经元Xi,隐含层神经元Hj,信号激活函数fx),权重ωij,阈值bj
Hj=f(ωijxi+bj)
误差反向传播调整权重,实际值Yn,模拟值ynEωb)为变量ωb的误差函数:
E(ω,b)=1n[(Yn-yn)2]
ωij=-ηE(ω,b)ω

1.2.2 GA-BP神经网络

GA-BP(Genetic Algorithm-Back Propagation)神经网络是使用遗传算法优化的BP神经网络。随机生成多组BP神经网络的权值、阈值(群体),个体是其中的一组权值、阈值,每个个体的染色体为权值或阈值,每条染色体的基因为权值或阈值的二进制编码,使用误差均方差或平均相对误差作为适应度函数,较小的误差个体更容易被选择(轮盘赌选择),从而进行染色体交叉以及基因变异,最终选出最优个体,即优异的影响因子与输出值间的映射关系。

1.3 正态区间估计

1.3.1 K-s正态检验

K-s正态检验是一种用于测试单个样本是否符合特定分布的方法。基本原理是将样本数据的累积频率分布与正态分布进行比较。如果两者之间的差异很小,则假定该数据样本符合正态分布标准。在SPSS软件上对样本进行K-s检验,计算P值,若P>0.5,则接受零假设,认为样本符合正态分布。

1.3.2 正态区间估计

若总体X服从正态分布Nμσ 2),σ 2未知,对μ做区间估计。假设X 1X 2,…,Xn 是总体X的一个样本,样本均值为 X¯,样本方差为S 2,则:
在置信度为1-α下,μ的置信区间为:

2 组合预测模型的应用与分析

2.1 需水量影响因子的率定

需水量的变化是社会、经济、科技、文化等因素综合作用的结果。本文结合邯郸市的用水结构,选取《邯郸市水资源公报》和《邯郸市统计年鉴》中2004-2019年的数据,初步选取了25个影响邯郸市需水的因素:农业用水量(X 1,亿m3)、工业用水量(X 2,亿m3)、生活用水量(X 3,亿m3)、地区生产总值(X 4,亿元)、第一产业生产总值(X 5,亿元)、第二产业生产总值(X 6,亿元)、第三产业生产总值(X 7,亿元)、农林牧渔业总产值(X 8,万元)、粮食总播种面积(X 9,hm2)、粮食总产量(X 10,t)、有效灌溉面积(X 11,hm2)、温度(X 12,℃)、降水量(X 13,mm)、日照时长(X 14,h)、工业总产值(X 15,万元)、重轻工业比值(X 16)、发电量(X 17,亿kWh)、洗煤(X 18,万t)、钢材(X 19,万t)、常住人口(X 20,万)、城镇化率(X 21)、年平均居民可支配收入(X 22,元)、年平均居民消费性支出(X 23,元)、年平均每人地区生产总值(X 24,元)、公园绿地面积(X 25,hm2)。
总需水量影响因子指标筛选。因为主成分分析法分析需水影响因子的主要目的是筛除存在重复信息的数据指标,灰色关联分析法主要目的为筛选出与目的指标发展趋势相近的数据指标,所以为保证入选指标具有代表性、全面性且对预测结果有促进作用,使用主成分分析法和灰色关联法对指标进行两次筛选。具体步骤和方法如下:
(1)使用主成分分析法对25个影响因子指标进行分析。分析结果如表1所示。
表1 相关系数矩阵特征值及方差贡献率

Tab.1 Eigenvalues and variance contribution of correlation coefficient matrix

主成分 特征值 方差贡献/% 累计贡献/%
1 17.403 69.613 69.613
2 2.336 9.345 78.958
3 1.831 7.323 86.281
4 1.241 4.964 91.245
表1得,4个主成分累计方差贡献率已达91.245%,说明4个主成分基本包含了全部指标蕴含的信息,因此提取4个主成分,4个主成分包含方差贡献率分别为69.61%、9.35%、7.32%、4.96%,据此对4个主成分中指标提取个数依次为14、2、2、1。
(2)将主成分中指标的特征向量由大到小排列,根据提取个数依次提取指标。结果如表2所示。
表2 主成分中指标的提取

Tab.2 Extraction of indicators in principal components

第一主成分 第二主成分 第三主成分 第四主成分
指标 特征向量 指标 特征向量 指标 特征向量 指标 特征向量
X 4 0.238 511 X 12 0.484 787 X 1 0.410 192 X 1 0.526 016
X 24 0.238 032 X 14 0.334 968 X 14 0.331 849
X 20 0.237 313
X 19 0.235 875
X 7 0.233 717
X 17 0.230 601
X 6 0.230 361
X 15 0.229 402
X 25 0.228 204
X 21 0.226 286
X 8 0.225 567
X 22 0.225 088
X 16 0.222 930
X 5 0.215 979
提取主成分时,对应的特征向量是从数据矩阵线性变换获得的主成分系数,也可以视为主成分中指标的权重。因此,将主成分中所含指标的特征向量由大到小进行排列,按照贡献率的大小依次提取前14、2、2、1个指标。提取指标为X 1X 4X 5X 6X 7X 8X 12X 14X 15X 16X 17X 19X 20X 21X 22X 24X 25,总计17个指标。
(3)计算所有需水因子指标与总需水量的灰色关联系数,使用灰色关联系数对主成分分析提取的指标第二次筛选。计算结果如表3所示。
表3 灰色关联系数计算结果

Tab.3 Calculation results of gray correlation coefficients

指标 关联系数 指标 关联系数 指标 关联系数 指标 关联系数 指标 关联系数
X 11 0.951 6 X 14 0.879 7 X 6 0.832 9 X 8 0.782 8 X 18 0.698 1
X 12 0.950 5 X 10 0.871 3 X 21 0.824 6 X 19 0.778 2 X 7 0.687 2
X 20 0.946 3 X 3 0.860 1 X 15 0.821 0 X 4 0.772 8 X 22 0.651 1
X 1 0.934 3 X 2 0.856 3 X 5 0.805 6 X 25 0.771 2 X 23 0.628 5
X 9 0.931 4 X 17 0.837 4 X 24 0.785 4 X 16 0.734 2 X 13 0.624 3
结合主成分分析法提取的指标,依据灰色关联系数最终筛选出10个总需水影响因子指标:第一产业生产总值、第二产业生产总值、有效灌溉面积、温度、日照时长、工业总产值、发电量、常住人口、城镇化率、地区生产总值(X 5X 6X 11X 12X 14X 15X 17X 20X 21X 24)。
农业用水影响因子:第一产业生产总值、农林牧渔业总产值、粮食总播种面积、粮食总产量、有效灌溉面积、温度、降水量、日照时长8个影响因子;工业用水影响因子:第二产业生产总值、发电量、工业总产值、洗煤、重轻工业比值、钢材6个影响因子;生活用水影响因子:地区生产总值、常住人口、城镇化率、居民可支配收入、居民消费性支出、人均地区生产总值6个影响因子;总需水量影响因子:第一产业生产总值、温度、日照时长、有效灌溉面积、第二产业生产总值、发电量、工业总产值、常住人口、人均地区生产总值、城镇化率10个影响因子。

2.2 BP神经网络及GA-BP神经网络需水预测结果与分析

根据上述选定的用水影响因素,在matlab上编写BP神经网络、GA-BP神经网络代码,使用2004-2016年的需水量和需水影响因素数据作为神经网络的训练样本,利用BP神经网络、GA-BP神经网络分别进行模拟,使用相对误差指数作为检验指标,对2017-2019年的数据样本进行检验分析。模拟预测结果如图3所示,模拟预测结果统计如表4所示。
图3 BP神经网络和GA-BP神经网络模拟预测结果

Fig.3 BP neural network and GA-BP neural network simulation prediction results

Full size|PPT slide

表4 BP神经网络和GA-BP神经网络模拟预测结果统计 (%)

Tab.4 Statistics of simulation prediction results of BP neural network and GA-BP neural network

相对误差 农业用水 工业用水 生活用水 总用水
BP GA-BP BP GA-BP BP GA-BP BP GA-BP
训练样本最大相对误差 6.59 7.64 8.96 3.50 16.22 8.85 3.17 3.29
检验样本最大相对误差 2.37 1.85 4.76 2.38 4.12 1.87 4.69 2.84
训练样本平均相对误差 1.22 1.79 2.00 0.78 1.69 1.62 1.24 0.85
为检验GA-BP神经网络预测精度,使用训练样本平均相对误差、检验样本最大相对误差两个指标从历史用水数据拟合、未来用水预测两个方面与BP神经网络进行对比,其中,在对邯郸市农业用水、工业用水、生活用水、总用水进行模拟预测时,BP神经网络训练样本平均相对误差为1.22%、2.00%、1.69%、1.24%,检验样本最大相对误差为2.37%、4.76%、4.12%、4.69%;GA-BP神经网络训练样本平均相对误差为1.79%、0.78%、1.62%、0.85%,检验样本最大相对误差为1.85%、2.38%、1.87%、2.84%。可见,BP神经网络与GA-BP神经网络训练样本平均相对误差基本都小于2%,训练样本平均相对误差较小,检验样本最大相对误差都在5%以下,整体上均可满足需水预测要求;对比BP神经网络和GA-BP神经网络预测结果,GA-BP神经网络的历史用水数据拟合更好、预测精度更高。

2.3 基于GA-BP神经网络与正态区间估计的组合需水预测

单一使用GA-BP神经网络进行需水预测,预测结果并不能很好的反映未来需水量实际状况,其主要原因为:一方面使用GA-BP神经网络得到的预测结果为点预测结果,不能反映未来需水量的波动性和不确定性特点,另一方面,在实际进行GA-BP神经网络预测操作时,即使在相同参数条件下,也会出现由于初始权重、随机阈值、过拟合等随机因素造成预测结果不唯一的现象。因此,构建基于GA-BP神经网络与正态区间估计的组合需水预测模型,在使用GA-BP神经网络预测的基础上,引入正态区间估计,使用GA-BP神经网络的点预测结果作为正态区间估计样本,进行区间预测,具体步骤如下。
(1)将邯郸市2004-2016年总需水量与影响因子数据作为训练样本,2017、2018年数据作为检验样本,使用GA-BP神经网络进行多次拟合,并选择训练结果,挑选出训练样本平均相对误差小于2%以及检验样本最大相对误差小于2%的GA-BP神经网络,然后使用挑选出的GA-BP神经网络对2019年总需水量进行预测,取80个GA-BP神经网络点预测结果。预测结果频率分布如图4所示,预测结果统计如表5所示。
图4 GA-BP神经网络2019年总需水量点预测结果频率分布

Fig.4 Frequency distribution of GA-BP neural network 2019 total water demand point forecast results

Full size|PPT slide

表5 GA-BP神经网络2019年总需水量点预测结果描述统计

Tab.5 GA-BP neural network 2019 total water demand point forecast results descriptive statistics

样本 真实值/亿m3 模拟值
最小值/亿m3 相对误差/% 最大值/亿m3 相对误差/% 平均值/亿m3 标准差
80 19.278 4 18.082 4 -6.2 20.266 6 5.13 19.18 0.44
(2)在SPSS软件上对80个GA-BP神经网络2019年总需水量点预测结果样本进行K-s检验,经计算P=0.2,P>0.05,接受零假设,即80个2019年总需水量点预测结果样本服从正态分布。根据正态分布均值区间估计得:在置信度95%的情况下,基于GA-BP神经网络与正态区间估计的邯郸市2019年总需水量区间预测结果为19.083 4~19.279 2 亿m3。邯郸市2019年总需水量为19.278 4 亿m3。结果分析如表6所示。
表6 基于GA-BP神经网络与正态区间估计的2019年总需水量区间预测结果

Tab.6 Total water demand interval forecast results for 2019 based on GA-BP neural network with normal interval estimation

邯郸市2019年总需水量/亿m3 区间预测(95%置信度)
下限/亿m3 相对误差/% 上限/亿m3 相对误差/%
19.278 4 19.083 4 -1.01 19.279 2 0.004
表5可以看出,在平均相对误差小于2%、检验样本最大相对误差小于2%的条件下,使用单一GA-BP神经网络预测模型对2019年总需水量预测,点预测结果预测相对误差在 -6.2%~5.13%之间。从表6可以看出,在GA-BP神经网络预测基础上引入正态区间估计的组合模型对2019年总需水量预测,预测相对误差在-1.01%~0.004%之间,基于正态区间估计与GA-BP神经网络的组合需水预测模型更稳定、预测精度更高。

3 结论与建议

3.1 结 论

本文结合邯郸市用水结构,采用主成分分析法、灰色关联分析法对邯郸市需水因素数据进行两次筛选,在使用GA-BP神经网络得到邯郸市需水量点预测结果的基础上,引入正态区间估计,对邯郸市总需水量进行区间预测。主要结论如下。
(1)BP神经网络与GA-BP神经网络两种预测方法均可满足基本需水预测要求,且GA-BP神经网络的历史用水数据拟合更好、预测精度更高;其中,在对邯郸市农业用水、工业用水、生活用水、总用水进行模拟预测时,GA-BP神经网络训练样本平均相对误差为1.79%、0.78%、1.62%、0.85%,检验样本最大相对误差为1.85%、2.38%、1.87%、2.84%。
(2)单一使用GA-BP神经网络对未来需水量进行预测时,预测结果不稳定,会出现误差较大的现象,其中,在训练样本平均相对误差小于2%、检验样本最大相对误差小于2%的条件下,使用单一GA-BP神经网络预测模型对2019年总需水量预测,预测相对误差在-6.2%~5.13%之间。
(3)与单一使用GA-BP神经网络预测模型相比,基于GA-BP神经网络与正态区间估计的组合需水预测模型更稳定、预测精度更高、更能反映未来需水量实际状况。在置信度95%的情况下,基于GA-BP神经网络与正态区间估计的邯郸市2019年区间预测相对误差在-1.01%~0.004%之间。

3.2 建 议

城市需水预测从时间尺度上可分为短期预测(一年以内)、中期预测(一至十年)、长期预测(十年以上)。本文构建了基于GA-BP神经网络与正态区间估计的组合预测模型,限于数据资料,以邯郸市为例仅验证了中期预测的可靠性,对于预测时间尺度在十年以上的长期预测来说,训练样本数据代表性较差,不能反映如未来节水政策、未来城市建设等不可量化信息,在预测精度上会有折扣;对于中、短期预测来说,节水政策、城市建设等不可量化指标信息在历史用水数据趋势中有所体现。因此从理论上讲,该模型在中、短期预测上有不错的精度,但在实际应用过程中需要进一步验证。 □

参考文献

1
刘广奇,雷木穗子. 城市供水规划决策支持系统研究与应用[J]. 中国给水排水202036(13):124-129.
2
贾香香. 泉州市城镇居民综合生活需水预测方法研究[J]. 水资源开发与管理2020(3):52-55,48.
3
刘 鑫,桑学锋,常家轩,等. 基于聚类分析的滑动时均序列需水预测优化方法[J]. 中国农村水利水电2021(9):199-205.
4
张少杰,游 洋. 基于主成分回归分析的需水预测研究[J]. 海河水利2016(3):43-45,56.
5
吴泽宁,张海君,王慧亮. 基于不同预测方法组合的郑州市工业需水量评价[J]. 水电能源科学202038(3):46-48.
6
RAMESH D FRITZ F. Price elasticity of water demand in a small college town: an inclusion of system dynamics approach for water demand forecast[J]. Air, Soil and Water Research20142014(7).
7
李振全,徐建新,邹向涛,等. 灰色系统理论在农业需水量预测中的应用[J]. 中国农村水利水电2005(11):24-26.
8
IBRAHIM A EMAD A YASIR K,et al. A long-term forecast of water demand for a desalinated dependent city: case of Riyadh City in Saudi Arabia[J]. Desalination and Water Treatment201351(31-33).
9
王韶伟,许新宜,贾香香,等. 基于灰色动态模型群的需水预测研究[J]. 中国农村水利水电2010(2):29-31.
10
孙晓婷,刘年东,杜 坤,等. 混沌局域法与神经网络组合供水量预测[J]. 土木建筑与环境工程201739(5):135-139.
11
管桂玲,卢发周,果利娟,等. 基于组合预测法的城市需水预测[J]. 江苏水利2019(3):6-8,16.
12
郭 华,郑 侃,林占东,等. 粒子群算法在城市需水预测模型中的应用[J]. 中国农村水利水电2008(12):63-65.
13
马兴冠,傅金祥,李 勇. 水资源需求预测研究[J]. 沈阳建筑工程学院学报(自然科学版)2002(2):135-138.
14
聂红梅,赵建军,李兴菊,等. 城市需水预测算法比较[J]. 软件导刊201918(10):69-73.
PDF(1275 KB)

686

访问

0

引用

详细情况

段落导航
相关文章

/