Research on the Relationship between the Combination of Water Quality Indicators and the Accuracy of River Dissolved Oxygen Prediction

Juan HUAN, Bo CHEN, Xian-gen XU, Ming-bao LI, Bei-er YANG, Bing SHI, Qin-lan ZHANG

PDF(3048 KB)
China Rural Water and Hydropower ›› 2022 ›› (1) : 15-20,27.

Research on the Relationship between the Combination of Water Quality Indicators and the Accuracy of River Dissolved Oxygen Prediction

Author information +
History +

Abstract

This paper proposes a way to explore the relationship between the combination of water quality indicators and the accuracy of river dissolved oxygen prediction. First, the XGBoost model is used to calculate the water quality index feature importance score, and then based on the greedy rule and the water quality index feature importance score, 8 water quality index combinations are arranged. Finally, the BP neural network is used to predict dissolved oxygen for the 8 water quality index combinations. Experimental results show that pH, water temperature, conductivity, and ammonia nitrogen are the four key indicators that affect the prediction of dissolved oxygen. Among the 8 combinations of water quality indicators arranged, pH, water temperature, conductivity, ammonia nitrogen, turbidity, and CODmn are the most accurate combinations of input indicators for the prediction of dissolved oxygen. Experimental analysis by exhaustively enumerating all water quality indicator combinations proves that the method is effective and feasible with lower time complexity, and can be used to select a combination of input indicators with high accuracy of dissolved oxygen prediction to improve the accuracy of dissolved oxygen prediction.

Key words

water quality management / water quality factor combination / dissolved oxygen prediction / greedy rules / feature importance

Cite this article

Download Citations
Juan HUAN , Bo CHEN , Xian-gen XU , Ming-bao LI , Bei-er YANG , Bing SHI , Qin-lan ZHANG. Research on the Relationship between the Combination of Water Quality Indicators and the Accuracy of River Dissolved Oxygen Prediction. China Rural Water and Hydropower. 2022, 0(1): 15-20,27

0 引 言

河流是人类开发利用的主要水源之一,对人类生产生活有重要的意义。溶解氧是衡量河流水环境质量和水体健康程度的重要指标12,因此,准确预测河流中溶解氧的含量,对水环境精细化管理具有重要意义。
目前,已有大量学者对溶解氧预测进行了研究3-5。Ahmed以生化需氧量和化学需氧量作为输入参数,建立FFNN和 RBFNN神经网络预测苏马河的溶解氧浓度6。施珮等提出运用皮尔森系数选取相关性强的指标作为模型的输入,继而建立ELM水产养殖溶解氧预测模型,并且使用偏最小二乘算法优化7。Liu等提出使用小波分析方法对原始数据进行降噪,然后建立LSSVR溶解氧预测模型,并使用CPSO算法优化,从而有效预测了水产养殖水体的溶解氧含量8。陈英义等使用PCA方法提取了水产养殖环境中的关键指标作为模型的输入,通过对比多种溶解氧预测模型,证明PCA结合LSTM的方法能提高溶解氧的预测精度9。然而,以上的研究仅施珮与陈英义考虑到不同指标组合会影响溶解氧的预测精度,但是他们没有对水质指标组合与溶解氧预测精度关系进行深入的探究。
本文提出一种探究水质指标组合与溶解氧预测精度关系的方法,以此搜索溶解氧预测精度高的输入指标组合。若水质指标中除输出指标之外共计包含n个输入指标,穷举所有组合,则有2 n -1种组合方案,显然,穷举法一定可以选出溶解氧预测精度最高的水质指标组合,但是此种方法过于繁琐与耗时。因此,本文提出一种效率更高且行之有效的方法:首先使用 XGBoost模型计算每个水质指标的特征重要性分值;继而基于特征重要性分值和贪心规则,排列n种水质指标组合;然后建立BP神经网络对n种组合分别进行溶解氧预测实验;最终通过对比分析实验结果,获取溶解氧预测精度高的输入指标组合。

1 材料与方法

1.1 数据来源

本研究数据来自太湖流域某水质自动站2019-2020年河流断面数据,共2 637 组有效数据,包括氨氮、水温、溶解氧等9个水质指标,2019年部分数据样本如表1所示。
Tab.1 Sample data

表1 样本数据

时间 氨氮/(mg·L-1 总磷/(mg·L-1

高锰酸盐指数/

(mg·L-1

总氮/(mg·L-1 pH 水温/℃ 溶解氧/(mg·L-1

电导率/

(μS·cm-1

浊度/ntu
01-01 00∶00 1.48 0.186 3.38 4.41 7.69 16.5 8.36 492.6 84.7
01-01 04∶00 1.48 0.186 3.07 7.41 7.80 16.7 8.91 483.1 84.7
01-01 08∶00 1.29 0.329 3.20 4.79 7.71 16.5 9.49 478.4 84.7
01-01 12∶00 1.31 0.205 3.01 3.18 7.72 16.5 9.21 473.8 84.7
01-01 16∶00 1.51 0.206 2.73 3.73 7.68 16.5 8.93 463.0 84.7
01-01 20∶00 1.52 0.192 3.16 1.63 7.68 16.5 8.79 459.6 84.7
01-02 00∶00 1.34 0.189 2.83 1.63 7.71 16.5 9.02 467.6 84.7
01-02 04∶00 1.22 0.208 2.91 3.67 7.88 16.9 9.21 469.0 84.7

1.2 XGBoost

特征重要性是评估每个特征在所属特征集上重要程度的衡量指标,某个特征在决策树中作出的关键决策越多,其特征重要性分值就越高10。XGBoost的特征重要性评估指标包括weightgaincoverweight表示特征在节点处的分裂次数,gain代表特征在节点处分裂产生的平均增益,cover指特征在树中的平均覆盖范围11。本实验以gain作为特征重要性的评估指标,计算特征重要性分值的步骤如下:
(1)特征在某节点处分裂产生的增益 Gain
Gain=12GL2HL+λ+GR2HR+λ-(GL+GR)2HL+HR+λ-γ
式中: GL HL为节点 L的函数; GR HR为节点 R的函数; λ为超参数; GL2HL+λ为新左叶上的得分; GR2HR+λ为新右叶上的得分; (GL+GR)2HL+HR+λ为原始叶子上的得分; γ为附加叶子上的正则化。
(2)由 Gain计算特征产生的总增益 total_gain和平均增益 gain
total_gain=i=1weightGaini
gain=total_gainweight
式中: weight为特征分裂的次数。
(3)由平均增益 gain计算特征重要性分值 score
scorei=gainik=1jgaink
式中: j为特征数。

1.3 贪心规则

贪心规则与贪心算法的核心思想一致,是一种在每一步选择中都采取在当前状态下最好的选择,从而希望导向最佳结果的方法。它不考虑各种可能的整体情况,省去了穷尽所有可能必须耗费的时间,算法的具体流程如下:①从问题的初始解出发。②重复执行以下步骤:若能朝着给定总目标前进一步,求出可行解的一个解元素。③将所有解元素合成问题的一个可行解。

1.4 BP神经网络

BP神经网络是使用最广泛的神经网络模型之一,它主要包括3个部分,一个输入层,一个或多个隐藏层和一个输出层12。BP神经网络通过正向与反向传播的过程训练数据13,具体细节如下14
(1)隐含层输出:由输入层和隐含层的变量,计算隐含层的输出变量 Hj
Hj=f(i=1nwijxi-aj),(j=1,2,,l)
式中: x为输入变量; wij为连接权值; aj为隐含层阈值; l为隐含层节点个数; f为激励函数。
(2)输出层输出:由隐含层和输出层变量计算输出变量 Ok
Ok=j=1lHjwjk-bk,(k=1,2,,m)
式中: bk为隐含层与输出层之间的阈值; wjk为连接权值。
(3)误差计算:预测误差 ek Ok和真实值 Yk确定。
ek=Yk-Ok,(k=1,2,,m)
(4)权值更新:根据 ek更新 wij wjk
wij=wij+ηHi(1-Hj)x(i)k=1mwjkek,(i=1,2,,n;j=1,2,,l)
wjk=wjk+ηHiek,(j=1,2,,l;k=1,2,,m)
式中: η为学习率。
(5)阈值更新:根据 ek更新 aj bk

1.5 评价指标

均方误差(MSE)可以将预测值与真实值误差过大的数据放大,能够反映预测值与真实值差的平方关系,平均绝对误差(MAE)表示预测值与真实值之间的距离关系,平均绝对百分比误差(MAPE)体现预测值与真实值偏离程度的百分比信息,均方根误差(RMSE)能够表示预测值与真实值之间的关系。这4项评价指标值越小,代表预测精度越高12。4种评价指标的计算方式如下:
MSE=1Ni=1N(yi-yi')2
MAE=1Ni=1N|yi-yi'
MAPE=1Ni=1N|yi-yi'|yi
RMSE=MSE
式中:N为样本数; yi为第i个样本的真实值; yi'为第i个样本的预测值。

1.6 融合方法

本文融合XGBoost、贪心规则和BP神经网络方法,探究水质指标组合与河流溶解氧预测精度的关系,具体流程如图1所示。
Fig.1 Exploring the relationship between the combination of water quality indicators and the accuracy of dissolved oxygen prediction

图1 探究水质指标组合与溶解氧预测精度关系流程

Full size|PPT slide

步骤① 计算水质指标特征重要性分值:首先用除溶解氧之外的n个水质指标作为输入,溶解氧作为输出,继而建立XGBoost模型进行数据拟合,最后通过特征在节点处分裂产生的平均增益gain,得到n个水质指标的特征重要性分值。
步骤② 排列水质指标组合:基于贪心规则,首先选取特征重要性分值最大的指标,加入到集合A中作为组合1。然后从剩余水质指标中选取特征重要性分值最大的水质指标,加入到集合A中作为组合2。以此类推,直到加完所有的水质指标,最终得到n种组合。
步骤③ BP神经网络预测:对于n种水质指标组合,使用BP神经网络模型分别进行溶解氧预测实验。对于一般简单的数据集,神经网络的结构不宜过于复杂15,因此本研究采用4层神经网络结构,第一层隐藏层节点个数为20,第二层隐藏层节点个数为10,输出层节点个数为1,输入层的节点个数为组合中的指标个数。
步骤④ 结果分析:分析n种组合的溶解氧预测结果,探究水质指标组合与溶解氧预测精度的关系。

2 结果与分析

2.1 特征重要性分值结果

为了保证水质指标特征重要性分值的合理性,通过多组实验进行对比分析,使得水质指标的特征重要性分值在不同实验参数下,均有稳定的得分与排名,最终确定XGBoost模型的关键参数如下:max_depth=6, importance_type=gain,n_estimators=100。图2为XGBoost拟合数据后,在第1棵树上的分裂结果。
Fig.2 The result of the split on the first tree

图2 第1棵树上的分裂结果

注:因为节点数目过多,仅展示前4层树的分裂结果。

Full size|PPT slide

根据水质指标在100棵树上的分裂结果,得到表2所示8个水质指标的特征重要性分值。由表2可知,pH是特征重要性分值最大的指标,分值为0.533 2;其次是水温,分值为0.134 6;电导率和氨氮的特征重要性分值排名在第3和第4位,分别为0.098 8、0.083 3。浊度、高锰酸盐指数、总磷、总氮的特征重要性分值依次降低,分别为0.062 8、0.038 9、0.029 4、0.018 7。
Tab.2 Water quality index feature importance score

表2 水质指标特征重要性分值

pH 水温 电导率 氨氮 浊度 高锰酸盐指数 总磷 总氮
0.533 2 0.134 6 0.098 8 0.083 3 0.062 8 0.038 9 0.029 4 0.018 7

2.2 水质指标组合结果

依据第1部分融合方法中的步骤2和表2,首先选取特征重要性分值最大的pH作为组合1,然后在组合1的基础上加入水温指标作为组合2,依次类推,直到加完所有的指标,最终得到表3所示的8种组合。
Tab.3 Water quality index combination result

表3 水质指标组合结果

组合 pH 水温 电导率 氨氮 浊度 高锰酸盐指数 总磷 总氮
1
2
3
4
5
6
7
8

2.3 溶解氧预测结果

为了初步探索8种组合与溶解氧预测精度的关系,使用BP神经网络对组合1~8进行溶解氧预测实验,预测结果如图3所示。由图3可知,组合3的预测结果明显优于组合1和组合2,组合4~8的预测结果与真实值偏差较小,预测表现良好。整体来看,随着依次加入特征重要性分值最大的水质指标,预测精度有所提升,并且逐渐趋于稳定。
Fig.3 The prediction results of combinations 1~8 under BP neural network。

图3 组合1~8在BP神经网络下的预测结果。

Full size|PPT slide

2.4 评价指标结果

为了进一步探究8种组合与溶解氧预测精度的关系,分别计算8种组合的MSEMAERMSEMAPE图4为8种组合的评价指标结果。由图4可知,组合1的预测精度最低,组合6的预测精度最高;组合4~8的4项评价指标波动很小,表明组合4中的pH、水温、电导率和氨氮是影响溶解氧预测的关键指标。
Fig.4 Combination 1~8, MSEMAERMSEMAPE results

图4 组合1~8,MSEMAERMSEMAPE结果

注: MAPE被放缩10倍。

Full size|PPT slide

3 方法论证

3.1 排列所有组合

为了证明本文提出的方法可用于探索水质指标组合与溶解氧预测精度的关系,选取预测精度高的水质因子组合,在此使用对比分析的方法进行论证。相关系数法、方差选择法、递归特征消除法等均可以进行特征选择,并且排列出水质指标组合方案,但这些方法排列的水质指标组合不够全面,而穷举法可以排列所有组合,因此最终选择与穷举法进行对比论证分析。穷举法排列所有组合的具体方法为:从n个不同的元素中,选出m个元素(0<=m<=n)作为1个组合,因为本文的待排列的水质指标个数为8,且选取0个水质指标作为组合没有意义,所以n的取值为8,m的取值范围为[1,8]。 c(n,m)表示在n个不同元素中,选出m个元素的所有组合的个数,因此在本文中,8个水质指标共有255种组合方案。将255种组合按照m的取值分成8个分组,分组内的组合按照总计特征重要性分值降序排序,表4为8个分组包含的组合信息。
Tab.4 Combination information of 8 groups

表4 8个分组的组合信息

分组1 分组2 分组3 分组4 分组5 分组6 分组7 分组8
m取值 1 2 3 4 5 6 7 8
组合个数 8 28 56 70 56 28 8 1
组合号码集合 组合1~8 组合9~36 组合37~92 组合93~162 组合163~218 组合219~246 组合247~254 组合255
我们方法排列的组合号码 组合1 组合9 组合37 组合93 组合163 组合219 组合247 组合255

3.2 可行性证明

建立BP神经网络对255种组合进行溶解氧预测实验,评价指标结果如图5所示。由图5可得,分组内的误差总体呈上升趋势,表明分组内总计特征重要性分值越高的组合其预测精度也越高。若仅使用分组内总计特征重要性分值最高的组合,探究与溶解氧预测精度的关系,虽然不一定能在全局上获取预测精度最高的组合,但一定可以取得预测精度接近最高水平的组合,本文排列的8种组合恰恰是每个分组中总计特征重要性分值最高的组合。此外我们方法的时间复杂度为O(n),而穷举法的时间复杂度为O(2n),相比之下本文的方法效率更高。
Fig.5 Evaluation index results of 255 combinations

图5 255种组合的评价指标结果

注: MAPE被放缩10倍。

Full size|PPT slide

3.3 预测精度证明

对255种组合的误差结果,分别按照MSEMAERMSEMAPE进行前5排名,排名结果如表5所示。由表5可知,在MSEMAERMSE评价指标下,组合219为255种组合中预测精度最高的组合;在MAPE评价指标下,组合219为预测精度第二高的组合。因此得出结论,本文的方法能从255种组合中,尽可能获取溶解氧预测精度最高的组合。
Tab.5 Ranking results of 255 combinations of water quality indicators under 4 evaluation indicators

表5 255种水质指标组合在4种评价指标下的排名结果

排名 MSE MAE RMSE MAPE
误差值 组合 误差值 组合 误差值 组合 误差值 组合
1 0.926 4 219 0.748 5 219 0.962 5 219 14.215 2 164
2 0.994 5 93 0.773 6 93 0.997 2 93 14.350 3 219
3 0.994 9 220 0.779 4 164 0.997 4 220 14.484 2 224
4 1.008 2 255 0.779 6 220 1.004 1 255 14.561 2 220
5 1.013 5 249 0.781 8 224 1.006 7 249 14.567 1 93
注:组合219为我们方法排列的组合。

4 结 论

(1)随着依次将特征重要性分值最大的水质指标加入到组合中进行溶解氧预测,溶解氧的预测精度呈上升趋势并逐渐趋于稳定。
(2)pH、水温、电导率、氨氮是影响溶解氧预测的4个关键指标;pH、水温、电导率、氨氮、浊度、高锰酸盐指数是8种组合中溶解氧预测精度最高的输入指标组合。
(3)提出的方法有效可行,能从255种水质指标组合中,有效选取出溶解氧预测精度高的输入指标组合,提升溶解氧的预测精度。相较穷举法,时间复杂度更低。 □

References

1
FRANKLIN P A. Dissolved oxygen criteria for freshwater fish in New Zealand: a revised approach[J]. NewZealand Journal of Marine and Freshwater Research201448(1):112-126.
2
KISI O AKBARI N SANATIPOUR M, et al. Modeling of dissolved oxygen in river water using artificial intelligence techniques[J]. Journal of Environmental Informatics201322(2):92-101.
3
KISI O ALIZAMIR M GORGIJ A R D. Dissolved oxygen prediction using a new ensemble method[J]. Environmental Science and Pollution Research2020:1-15.
4
刘双印,徐龙琴,李道亮,等. 基于时间相似数据的支持向量机水质溶解氧在线预测[J]. 农业工程学报201430(3):155-162.
5
OLYAIE E ABYANEH H Z MEHR A D. A comparative analysis among computational intelligence techniques for dissolved oxygen prediction in Delaware River[J]. Geoscience Frontiers20178(3):517-527.
6
AHMED A A M. Prediction of dissolved oxygen in Surma River by biochemical oxygen demand and chemical oxygen demand using the artificial neural networks (ANNs)[J]. Journal of King Saud University-Engineering Sciences201729(2):151-158.
7
施珮,匡亮,袁永明,等.基于改进极限学习机的水体溶解氧预测方法[J].农业工程学报202036(19):225-232.
8
LIU S XU L JIANG Y, et al. A hybrid WA–CPSO-LSSVR model for dissolved oxygen content prediction in crab culture[J]. Engineering Applications of Artificial Intelligence201429:114-124.
9
陈英义,程倩倩,方晓敏,等.主成分分析和长短时记忆神经网络预测水产养殖水体溶解氧[J].农业工程学报201834(17):183-191.
10
李占山,刘兆赓. 基于 XGBoost 的特征选择算法[J]. 通信学报201940(10):101-108.
11
董寅冬,任福继,李春彬. 基于线性核主成分分析和 XGBoost 的脑电情感识别[J]. 光电工程202148(2).
12
LI C LI Z WU J, et al. A hybrid model for dissolved oxygen prediction in aquaculture based on multi-scale features[J]. Information processing in agriculture20185(1):11-20.
13
孙宝磊,孙暠,张朝能,等. 基于BP神经网络的大气污染物浓度预测[J]. 环境科学学报201737(5):1 864-1 871.
14
陈英义,程倩倩,成艳君,等. 基于GA-BP神经网络的池塘养殖水温短期预测系统[J]. 农业机械学报201748(8):172-178.
15
REED R MARKSII R J. Neural smithing: supervised learning in feedforward artificial neural networks[M]. Cambridge, MA:Mit Press, 1999:38-39.
PDF(3048 KB)

1291

Accesses

0

Citation

Detail

Sections
Recommended

/