基于随机森林的水库防洪调度研究

刁艳芳, 王蒙, 王昊, 丛方杰, 王刚

PDF(1071 KB)
中国农村水利水电 ›› 2022 ›› (3) : 8-12.
水文水资源

基于随机森林的水库防洪调度研究

作者信息 +

Research on Reservoir Flood Control Operation Based on Random Forest

Author information +
稿件信息 +

摘要

水库作为重要的防洪工程措施之一,在保证国民经济持续增长、维持社会稳定及缓解水资源供需矛盾等方面发挥了重要的作用,科学合理的水库防洪调度更能有效地促进其作用的发挥。针对目前水库防洪调度中存在的对历史洪水调度数据信息利用不足的问题,提出了采用随机森林(RF)回归算法制定水库防洪调度方案的新方法。首先,对历史洪水数据进行优化调度生成洪水优化调度数据集,由RF回归算法确定影响水库泄流量的主要影响因素;然后,将训练样本洪水过程逐时段的主要影响因素和泄流量输入RF回归算法生成泄流量回归树;最后,由回归树拟定验证样本洪水过程的泄流量。山东省田庄水库的实例论证了本方法的可操作性和合理性。

Abstract

As one of the important flood control engineering measures, reservoirs play an important role in ensuring the sustainable growth of national economy, maintaining social stability and alleviating the contradiction between supply and demand of water resources. Meanwhile, scientific and reasonable reservoir flood control operation can effectively promote its role. In order to solve the problem of insufficient utilization of historical flood operation data, this paper proposes a new method of using random forest (RF) regression algorithm to formulate reservoir flood control operation scheme. First of all, the optimal flood operation data set is generated by optimizing the historical flood data, and the main factors affecting the reservoir discharge are determined by the RF regression algorithm. Then, the main influencing factors and discharges of the training sample flood processes are input into the RF regression algorithm to construct the discharge regression trees. Finally, the discharges of the verification sample flood processes are determined by regression trees. The example of Tianzhuang Reservoir in Shandong Province proves the operability and rationality of this method.

关键词

防洪调度 / 随机森林 / 回归树 / 泄流量

Key words

flood control operation / random forest / regression tree / discharge

基金

山东省重点研发计划项目(2019GSF111043)

引用本文

导出引用
刁艳芳 , 王蒙 , 王昊 , 丛方杰 , 王刚. 基于随机森林的水库防洪调度研究[J].中国农村水利水电, 2022(3): 8-12
Yan-fang DIAO , Meng WANG , Hao WANG , Fang-jie CONG , Gang WANG. Research on Reservoir Flood Control Operation Based on Random Forest[J].China Rural Water and Hydropower, 2022(3): 8-12

0 引 言

近几年,极端气候所导致的洪水灾害频繁发生,造成了巨大的社会、经济损失。水库是保障防洪安全、提高洪水资源利用率和促进水生态文明建设的重要工程措施,科学合理的水库防洪调度更能有效促进其作用的发挥。目前,水库防洪调度的研究方法大体分为常规方法和系统分析方法两类。常规调度方法是借助水库防洪调度图、抗洪能力图等经验图表实施操作的一种半经验、半理论方法12。随着系统工程的发展和应用,许多学者尝试采用系统分析方法解决水库调度问题。早期主要是线性规划34、动态规划56、逐次优化算法7和大系统分解协调原理8等;然而面对由水库、湖泊、闸坝、河道及堤防、蓄滞洪区以及各种防洪工程组成的复杂防洪系统,基于生物学、物理学和人工智能的现代启发式智能优化算法迅速发展,其具有全局最优化、鲁棒性强、通用性强及高效性等优点,主要包括遗传算法9、蚁群算法10、粒子群算法11和人工神经网络12等。
然而无论是常规方法还是系统分析方法,均存在对历史调度数据信息利用不够的问题,而这些数据既包括了水库流域水文特征与规律,又包括了决策者多年调度和配置经验。在当前水利部门已积累了大量流域水文、地貌以及洪水调度数据的基础上,采用数据挖掘技术解决上述问题是主要手段。随机森林算法是数据挖掘技术的一种,在降雨预测13、径流预测1415、水资源评价16以及洪灾预测17等诸多领域得到了广泛应用,但在水库调度中应用极少。大量研究成果表明,随机森林算法具有不易出现过拟合、泛化误差低及预测精度高等优点,被认为是当前最好的算法之一。因此,本文提出采用随机森林算法拟定水库防洪调度方案,并以山东省田庄水库为例验证了本方法的合理性。

1 研究区介绍

田庄水库位于淮河流域沂河上游,流域面积424 km2,总库容为1.305 7 亿m3,兴利库容为0.684 亿m3,是一座以防洪、灌溉为主,结合水力发电、水面养殖、工业供水等综合利用的大(II)型水库。水库兴建于1958年,1960年建成蓄水,按百年一遇设计,五千年一遇校核,其设计洪水位、校核洪水位、汛限水位、防洪高水位(P=2%)及死水位分别为312.38、315.07、310.64、312.33及293.64 m。水库保护下游沂源县城及南麻、悦庄、鲁村等7个乡镇30万人口及10万亩耕地。下游第一安全泄量为 1 000 m3/s,田庄水库控制下泄流量为600 m3/s,相应标准为20年一遇;下游第二安全泄量为2 000 m3/s,田庄水库控制下泄流量为1 000 m3/s,相应标准为50年一遇。
田庄水库流域地处中纬度,受东亚季风和欧亚大陆的影响,属温带季风大陆性气候,四季温差大。流域多年平均降水量为730.6 mm,年际之间变化大,年内分配也不均匀,主要集中在6-9月份,约占多年平均年降水量的74.9%。

2 资料与研究方法

2.1 降雨与洪水资料

根据田庄水库1963-2019年的洪水调度数据,考虑到较大量级的洪水对防洪安全更具重要意义,选取了启用溢洪闸且最大泄流量超过50 m3/s的18场洪水过程,整编出洪水过程逐时段的入库流量、库水位、蓄水量及出库流量等数据资料,时段长为1小时,其洪号见表1所示。根据《水文情报预报规范》(GB/T 22482-2008),按照洪水总量W将18场洪水划分为小(W< 3 369 万m3)、中(3 369 万m3W<6 470 万m3)、大(6 470 万m3W<8 800 万m3)、特大(W≥8 800 万m3)4个级别,列于表1中。田庄水库流域内洪水主要由暴雨形成,由于天气系统原因导致暴雨持续时间一般较短;此外,田庄水库流域为纯山丘地区,山高坡陡,汇流历时较短,因此,造成大部分洪水过程为形状比较尖瘦的单峰过程,且洪水持续时间为3日左右。表1所示的18场洪水过程均为符合上述特性的单峰洪水过程。田庄水库流域内共有6个雨量站,分别为包家庄站、草埠站、大张庄站、田庄水库站、徐家庄站及朱家庄站,整理出与18场洪水过程相对应的各雨量站逐时段的降雨量资料,鉴于雨量站分布较均匀,故采用算术平均法计算流域平均降水量。
表1 场次洪水及级别表

Tab.1 Floods and their grades

洪号 洪水总量/万m3 洪水级别 洪号 洪水总量/万m3 洪水级别
19630719 4 906 19840711 5 766
19640716 3 726 19980822 587
19640727 1 942 20010804 4 200
19640731 2 933 20040914 3 042
19640806 1 755 20050920 1 243
19640809 1 564 20070818 1 811
19640830 4 473 20110914 2 915
19640912 4 420 20170802 1 684
19740813 3 197 20190810 10 637 特大

2.2 研究方法

2.2.1 随机森林算法

随机森林(Random Forest,RF)算法是Breiman在2001年提出的一种分类和预测的机器学习算法18,其以Bagging集成学习算法和随机空间算法为基础。RF算法分为RF分类和RF回归两类,本文采用后者进行水库调度方案的拟定。与目前其他机器学习算法相比,RF算法具有如下优点:①较强非线性模拟能力,可以高效处理多变量和大数据量的问题,且无需进行变量的删减和量纲统一处理,同时能够评估所有变量的重要程度;②模型参数少、运算效率高、数据挖掘能力强及预测精度高等;③不易出现过拟合现象,对异常值、缺失值、干扰值的容忍度高,对数据集特征的挖掘具有很好的鲁棒性。
(1)RF回归算法。RF回归算法的基本组成单元是回归树 tx,θi,i=1,2,,k,其中x表示样本数据集,k表示回归树的个数, θi表示第i棵回归树的参数向量,算法实现过程如下,具体流程见图1所示。
图1 RF回归算法流程图

Fig.1 Flow chart of RF regression algorithm

Full size|PPT slide

①通过自助法(Bootstrap)重抽样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成子训练集k个,每个子训练集构建1棵回归树,每次未被抽到的样本称为袋外数据(Out-Of-Bag,OOB)。
②设原始训练样本集的变量个数为m,在每棵树的叶节点处等概率随机抽取mt 个变量作为备选分枝变量,根据分枝优度准则计算最佳分枝,且在建树过程中mt 保持不变。
③设叶节点的最小尺寸为nodesize,每棵树最大限度地生长,不进行干预和剪裁。
k棵回归树组成随机森林回归模型,将验证样本集代入该模型,以每棵回归树输出结果的算数平均值作为预测结果。
(2)RF回归算法的参数优化。由RF回归算法的计算过程可以看出,回归树个数k、节点备选分枝变量mt 以及叶节点最小尺寸nodesize是3个主要参数,其取值影响该算法的效率和精度。已有研究表明,k太小会使训练不够充分,降低RF的随机性和精度;太大会增加模型的计算量,导致计算效率低下、计算精度不高。mt 太小会导致过拟合现象,预测分类的误差变大及预测精度降低;mt 太大会使建模效率降低。nodesize对RF回归算法性能的影响不显著。由此可以看出,RF回归算法的预测精度主要取决于kmt,其取值采用OOB均方误差进行评价,计算公式为:
MSEOOB=i=1kyi-yiOOB2k
式中:MSEOOB 为OOB均方误差;yi 为OOB中因变量的实际值; yiOOB为OOB的预测值。
MSEOOB 可以用来评估回归树的泛化误差,Breiman通过大量实验数据证明OOB误差是一种无偏估计19,不需要使用交叉检验进行估计。理论上,可以通过MSEOOB 来选取最佳的kmt 数值组合;但是在具体实践中,往往是设定k值或mt 值,之后对另一个参数进行适应性调整。

2.2.2 随机森林算法拟定调度方案的步骤

采用RF回归算法推求场次洪水调度方案的步骤如下:
(1)洪水优化调度数据集的生成。由于历史洪水实测调度未必是最优调度方案,故采用优化算法对历史洪水过程进行优化调度,生成水库洪水优化调度数据集。
(2)水库泄流量主要影响因素的选取及RF回归算法最优参数的推求。通过查阅已有研究成果2021可知,影响水库泄流量的因素包括降雨量、净雨量、库水位、入库流量及入库水量等,整理出各场次洪水优化调度过程逐时段的累计降雨量、累计净雨量、库水位、入库流量、累计入库水量及泄流量等数据,以泄流量作为决策属性,以影响因素作为条件属性,输入RF回归算法中,由此计算出最优的kmt 值。同时,RF回归算法可以计算出每个影响因素对每棵回归树的贡献,取均值后即为影响因素对RF回归模型的贡献程度,由此可以判断出影响泄流量的主要因素。
(3)生成泄流量回归树。将所有场次洪水划分为训练样本和验证样本,将训练样本洪水优化调度过程逐时段的主要影响因素和泄流量输入RF回归算法生成泄流量回归树。
(4)由RF回归算法拟定泄流量。
①设i=1;
②将第i时段的主要影响因素代入泄流量回归树中,计算泄流量qi,并由水量平衡方程求得zi
③为保护下游防洪安全,判断qi 是否不大于该场洪水由水库调度规则调洪后的最大泄流量q*。如果是,转入第④步;否则,qi =q*;
④为确保水库泄流能力约束,判断qi 是否不大于水位zi 时的水库泄流能力qzi )。如果是,转入第⑤步;否则,qi =qzi );
⑤令i=i+1,如果iTT为洪水总时段数,转入第②步;否则,调洪结束。
其流程见图2所示。
图2 RF回归算法拟定调度方案流程图

Fig.2 Flow chart of operation scheme maked by RF regression algorithm

Full size|PPT slide

3 结果分析

3.1 RF回归算法最优参数的确定

田庄水库为大(II)型水库,调节性能较高且承担下游防洪任务,故洪量在调洪过程中起主要控制作用。结合田庄水库特性和已有研究成果,选取累计净雨量、累计入库水量、起调水位、实时水位以及入库流量作为泄流量的影响因素。以田庄水库下泄流量最小为目标函数,采用粒子群算法对18场洪水进行优化调度,得到水库洪水优化调度数据集。以18场洪水优化调度过程逐时段的累计净雨量、累计入库水量、起调水位、实时水位、入库流量以及泄流量作为RF回归算法的输入数据,回归树数量变化范围为100~1 000,计算MSEOOB 绘制于图3中。由图3看出,当k=700时MSEOOB 最小,为32.6;当k=100时MSEOOB 最大,为37.3,两者相差4.7,故确定最优回归树的数量k=700。同时,由RF回归算法计算出的5个影响因素对泄流量的影响程度分别为累计净雨量21.8%、累计入库水量16.1%、起调水位21.5%、实时水位16.0%、入库流量24.6%,影响程度最大的为实时水位,最小的为累计入库水量,两者相差8.6%,差距较小,故将上述5个因素均作为RF回归算法的输入变量,即mt =5。
图3 MSEOOB 随回归树数量的变化曲线

Fig.3 The variation curve of MSEOOB with the number of regression trees

Full size|PPT slide

3.2 调洪结果分析

表1看出,小、中、特大洪水的数量分别为11场、6场和1场,故发生不同级别洪水的概率由大到小依次为小洪水、中洪水、特大洪水;洪水级别越大,对水库及其上下游造成的威胁越大,因此,选择洪号为19640912与20010804的两场中洪水作为验证样本,其余16场洪水作为训练样本,将训练样本逐时段的5个主要影响因素和泄流量作为输入,由RF回归算法生成泄流量回归树,以此求解验证样本的泄流量。依据图2的计算流程,求得19640912与20010804两场洪水的泄流量及库水位,与实测入库流量、出库流量及库水位一并绘于图45中。本文比较了两场洪水实测调度和RF回归算法调度结果的最大泄流量和最高水位两个指标,计算了两者的绝度偏差和相对偏差,见表2。由表2可知:①两场洪水最大泄流量的实测值均大于RF回归算法的计算值,19640912洪水的绝度偏差和相对偏差的绝对值均小于20010804洪水,由此可见,从保证下游安全而言,RF回归算法的调度结果优于实测调度;②两场洪水最高水位的实测值均大于RF回归算法的计算值,19640912洪水的绝度偏差和相对偏差的绝对值均大于20010804洪水,由此可见,从保证水库安全而言,RF回归算法的调度结果同样优于实测调度。
图4 19640912洪水过程线

Fig.4 19640912 flood hydrographs

Full size|PPT slide

图5 20010804洪水过程线

Fig.5 20010804 flood hydrographs

Full size|PPT slide

表2 RF回归算法计算值与实测值对比表

Tab.2 Comparison between measured values and calculated values by RF regression algorithm

指标 洪号 实测值 计算值 绝对偏差 相对偏差/%
最大泄流量/(m3·s-1 19640912 693.00 680.00 -13.00 -1.90
20010804 495.00 436.00 -59.00 -11.90
最高水位/m 19640912 307.81 307.49 -0.32 -0.10
20010804 310.35 310.21 -0.14 -0.05

4 结 论

(1)本文首先对历史洪水过程进行优化调度生成优化调度数据集,然后采用RF回归算法拟定水库泄流量回归树,最后由泄流量回归树拟定水库调度方案,指导实时防洪调度。该方法既能够提取影响水库泄流量的主要因素,又能够充分挖掘历史调度经验,开辟了水库防洪调度的新方法。
(2)田庄水库的实例可以看出,RF回归算法制定的水库调度方案的最大泄流量、最高水位均小于实测值,表明RF回归算法拟定的调度方案较实测调度更能保证水库本身及其下游防洪安全,故是一种合理的调度方案。鉴于田庄水库暴雨洪水特性,本文仅对单峰洪水开展了研究,对于多峰洪水过程有待于进一步的验证。 □

参考文献

1
席秋义,刘招,洪华,等. 水电站防洪预报调度图绘制及应用研究[J]. 水电能源科学201129(7):29-32.
2
刘心愿,郭生练,李响,等. 考虑水文预报误差的三峡水库防洪调度图[J]. 水科学进展201122(6):771-779.
3
YOO J H. Maximization of hydropower generation through the application of a linear programming model[J]. Journal of Hydrology2009376(1-2):182-187.
4
王有香. 梯级水库群及其泄洪设施防洪调度研究[D]. 武汉:华中科技大学,2017.
5
KIM G J KIM Y O REED P. Improving the robustness of reservoir operations with stochastic dynamic programming[J]. Journal of Water Resources Planning and Management2021147(7):04 021 030.
6
蒋志强,纪昌明,孙平,等. 多维动态规划三种并行模式的对比分析[J]. 中国农村水利水电2015(3):168-173.
7
程春田,杨凤英,武新宇,等. 基于模拟逐次逼近算法的梯级水电站群优化调度图研究[J]. 水力发电学报201029(6):71-77.
8
吴昊, 纪昌明, 张验科. 水库(群)发电优化调度计算的并行策略研究[J]. 中国农村水利水电2016(12):205-210.
9
许凌杰,董增川,肖敬,等. 基于改进遗传算法的水库群防洪优化调度[J]. 水电能源科学201836(3):59-62,153.
10
原文林, 曲晓宁. 混沌蚁群优化算法在梯级水库发电优化调度中的应用研究[J]. 水力发电学报201332(3):47-54.
11
刘贵明,李晓英. 水库优化调度的粒子群算法[J]. 中国农村水利水电2013(6):156-158.
12
刘宇,钟平安,张梦然,等. 水库优化调度ANN模型隐层节点数经验公式比较[J]. 水力发电201339(5):65-68.
13
甄亿位,郝敏,陆宝宏,等. 基于随机森林的中长期降水量预测模型研究[J]. 水电能源科学201533(6):6-10.
14
许斌,杨凤根,郦于杰. 两类集成学习算法在中长期径流预报中的应用[J]. 水力发电202046(4):21-24,34.
15
程子鹏. 基于集成学习的中长期水文预报研究[D]. 武汉:华中科技大学,2017.
16
葛强. 基于随机森林的奎屯河水资源可持续利用评价[J]. 人民珠江201940(1):79-83.
17
牟凤云,杨猛,林孝松,等. 基于机器学习算法模型的巫山县洪水灾害研究[J]. 中山大学学报:自然科学版202059(1):105-113.
18
LEO Breiman. Random Forests[J]. Machine Learning200145(1):5-32.
19
方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛201126(3):32-38.
20
李伟. 人类活动对洪水预报影响分析及防洪调度研究[D]. 辽宁大连: 大连理工大学, 2009.
21
汪洋. 水库长期优化调度及数据挖掘方法应用研究[D]. 武汉: 华中科技大学, 2017.
PDF(1071 KB)

804

访问

0

引用

详细情况

段落导航
相关文章

/