<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 地表水水质预测模型框架图

Fig.1 Surface water quality prediction model framework

1.3. 数据预处理

水质预测模型使用的数据输入包括地表水水质监测站点历史监测数据和气象数据.

1）站点监测数据. 站点监测数据的数据指标及其有效值范围如表1所示，包含5个反映地表水水质情况的监测指标，分别为PH值、氨氮质量浓度、总磷质量浓度、高锰酸盐指数和溶解氧质量浓度. 因为水质监测系统在运行的过程中会在中间链路上的环节出现问题，导致监测数据库中包含了一些异常值. 因此本文基于地表水水质国家标准^[14]，为不同的指标设定了不同的有效值范围（除PH值外，有效值上界为最差的V类水质标准上浮50%）以排除异常值. 所有不在上述有效值范围内的站点监测数据将被认为是异常值，在后续处理流程中视同缺失值.

表 1 站点监测数据指标及有效值范围

Tab.1 Station monitoring data and valid value ranges

水质指标	有效值
PH值	0~14
氨氮质量浓度	0~3 mg/L
总磷质量浓度	0~0.6 mg/L
高锰酸盐指数	0~22.5 mg/L
溶解氧质量浓度	0~12 mg/L

2）气象数据. 气象因素对水污染物的产生与扩散有很大影响. 将气象因素引入模型计算中，能够基于深度学习技术，学习从气象因素到地表水水质的复杂影响关系.

气象数据的数据格式如表2所示，其中包含4个与水质相关性较大的气象指标，分别为气温、气压、湿度和降雨量. 本文为气象指标设定了对应的有效值范围（根据气象指标的实际含义）. 与站点监测数据类似，所有不在上述有效值范围内的站点监测数据将被认为是异常值，在后续处理流程中视同缺失值.

表 2 气象数据数据指标及有效值范围

Tab.2 Weather data and valid value ranges

气象指标	有效值
气温	−20~50 °C
气压	900~1100 hPa
湿度	0~100%
降雨量	0~60 mm

3）缺失值处理与归一化. 实际数据采集中出现的许多问题都会带来数据的缺失和异常，其中异常数据经过有效范围的判断后，可以视同缺失值，在实现时采用线性插值法实现缺失值填充. 线性插值法假设包含缺失值的一段连续序列满足线性变化关系，以线性函数去拟合数据变化，线性插值法的计算公式如下：

(2) $ p\left(x\right)=f\left({x}_{0}\right)+\frac{f\left({x}_{1}\right)-f\left({x}_{0}\right)}{{x}_{1}-{x}_{0}}(x-{x}_{0}). $

式中： $ {x}_{0} $和 $ {x}_{1} $为缺失值前、后的有效数据样本， $ p\left(x\right) $为拟合出的线性变化函数. 站点监测数据和气象数据都是在时间维度上平滑变化的，因此可以通过前、后有效观测值来填充.

模型输入数据的分布存在较大差异，在数据预处理中加入归一化操作，可以有效加速模型收敛，缓解潜在的梯度问题，归一化计算公式为

(3) $ {x_{{\rm{norm}}}} = \frac{{x - \mu }}{\sigma }. $

式中： $ \;\mu $为样本均值， $ \sigma $为样本标准差， $ {x}_{{\rm{norm}}} $为归一化操作后的输出数据.

1.4. 模型设计

1）站点图构建. 在输入时间窗口内的每个时刻，通过构建站点图 $ G=(V,E) $来建模站点间的复杂空间依赖关系. 在该场景中，图上的节点对应区域内的水质监测站点，边表示2个站点存在的交互关系. 构建图 $ G $的方式如图2所示. 图中， $ {{x}}_{a} $为 $ a $节点的信号， $ {{e}}_{a,b} $为连接 $ a $节点和 $ b $节点间边上的权重.

图 2

图 2 站点图的构建

Fig.2 Construction of station graph

$ {{x}}_{a} $由对应时刻的水质指标监测数据和气象数据拼接组成， $ {{e}}_{a,b} $由站点地理位置计算得出，具体的计算公式如下：

(4) $ {{e}}_{a,b}=\left\{\begin{array}{l} {{{d}_{a,b}}^{-1}},\; 0 <{d}_{a,b} <{R}_{\rm{h}};\\ 0,\;\;\;\;\;\;\;\;\;{\text{其他}}.\end{array}\right. $

式中： $ {d}_{a,b} $为2个站点在水网上的距离， $ {R}_{\rm{h}} $为距离阈值. 在构图时，只计算距离小于 $ {R}_{\rm{h}} $的2个节点间边上的权重. 考虑到水污染物一般沿河道传播，采用水网距离来度量站点间的相关性，采用欧式距离度量会引入错误的先验知识.

2）图卷积计算. 在完成图的构建过程后，通过GCN实现节点间的信息交互，以建模站点间的空间依赖关系. 具体的计算公式为

(5) $ {{{H}}^{\left( {l + 1} \right)}} = \sigma \left( {{{{\tilde{ D}}}^{ - \frac{1}{2}}}{\tilde{ A}}{{{\tilde{ D}}}^{ - \frac{1}{2}}}{{{H}}^{\left( l \right)}}{{{W}}^{\left( l \right)}}} \right). $

式中： ${\tilde{ A}} = {{A}} + {{I}}$，即图的邻接矩阵加上self-loops，一般情况下邻接矩阵中的值只有1或者0以表示节点间的连接情况，该场景中的邻接矩阵计算时考虑了边权； $ {\tilde{ D}}^{-\frac{1}{2}} $用来对矩阵行列进行归一化处理； $ {{{H}}}^{\left(l\right)} $表示GCN第 $ l $层的节点信号， $ {{{H}}}^{\left(0\right)} $即对应时刻的节点输入信号 $ {{{X}}}^{t} $； $ {{{W}}}^{\left(l\right)} $表示第 $ l $层的变换参数，在训练过程中通过反向传播方法学习；σ为激活函数.

3）序列编解码. 在输入时间窗口内的所有图上完成图卷积操作后，每一个站点更新后的信号可以按时间顺序组成序列 $\{{{x}}^{1},{{x}}^{2},\cdots ,{{x}}^{{\tau }_{\rm{in}}}\}$. 序列将被送入编码LSTM中，得到每个站点的编码向量. LSTM是为了解决RNN网络梯度消失问题所提出的改进型序列建模神经网络，通过在模型内部引入多种功能的门机制，实现对序列长期依赖关系的建模. 具体的计算过程如下.

(6) $ {{{i}}^t} = {\rm{tanh}}\;\left( {{W_{\rm{i}}}{{{x}}^t} + {U_{\rm{i}}}{{{h}}^{t - 1}} + {{{b}}_{\rm{i}}}} \right), $

(7) $ {{{f}}^t} = {\rm{tanh}}\;\left( {{W_{\rm{f}}}{{{x}}^t} + {U_{\rm{f}}}{{{h}}^{t - 1}} + {{{b}}_{\rm{f}}}} \right), $

(8) $ {{{o}}^t} = {\rm{tanh}}\;\left( {{W_{\rm{o}}}{{{x}}^t} + {U_{\rm{o}}}{{{h}}^{t - 1}} + {{{b}}_{\rm{o}}}} \right), $

(9) $ {{{c}}^t} = {{{f}}^t} \circ {{{c}}^{t + 1}} + {{{i}}^t} \circ {\rm{tanh}}\;\left( {{W_{\rm{c}}}{{{x}}^t} + {U_{\rm{c}}}{{{h}}^{t - 1}} + {{{b}}_{\rm{c}}}} \right), $

(10) $ {{{h}}^t} = {{{o}}^t} \circ {\rm{tanh}}\;\left( {{{{c}}^t}} \right). $

式中： $ {W}_{\rm{i}} $、 $ {U}_{\rm{i}} $、 $ {W}_{\rm{f}} $、 $ {U}_{\rm{f}} $、 $ {W}_{\rm{o}} $、 $ {U}_{\rm{o}} $、 $ {W}_{\rm{c}} $和 $ {U}_{\rm{c}} $为可学习参数， $ {{b}}_{\rm{i}} $、 $ {{b}}_{\rm{f}} $、 $ {{b}}_{\rm{o}} $和 $ {{b}}_{\rm{c}} $为偏置向量， $ \circ $表示hadamard积.

编码LSTM得到的 $ {{h}}^{{\tau }_{\rm{in}}} $将作为站点的编码向量，用来初始化解码LSTM. 解码LSTM将每一步的隐状态 $ {{h}} $输入到多层感知机（multi-layer perception，MLP）中，以得到每一步的预测结果.

该任务的损失函数定义为均方误差（MSE），具体的计算方式如下：

(11) $ {\rm{Loss}} = \frac{1}{{N{\tau _{{\rm{out}}}}}}\mathop \sum \limits_{i = 1}^N \mathop \sum \limits_{j = 1}^{{\tau _{{\rm{out}}}}} \mathop \sum \limits_{k = 1}^d {\left| {{{Y}}_{i,k}^{t + j} - {\hat{ Y}}_{i,k}^{t + j}} \right|^2}. $

式中： $ {\tau }_{\rm{out}} $为预测步长， $ k $为地表水水质数据指标数， $ \hat{{{Y}}} $为地表水水质预测值.

2. 实验分析

2.1. 数据集

采集杭嘉湖地区24个站点从2018年1月至2020年5月的历史水质指标监测数据和相应地区的气象数据. 地表水水质监测站点在地理上的分布如图3所示，地表水水质监测站点在地图上以圆点标注.

图 3

图 3 杭嘉湖地区水质监测站点分布图

Fig.3 Distribution diagram of water quality monitoring stations in Hangzhou-Jiaxing-Huzhou area

2.2. 实验设置

模型代码以Python语言编写，采用PyTorch框架^[15]构建神经网络模型，基于PyTorch Geometric库^[16]实现图神经网络计算. 模型的训练采用NVIDIA RTX2080Ti GPU.

模型的超参数设置如下：batch size设定为64，GCN的输出维度为16，LSTM的隐状态长度为32，GCN层数为1. 采用Adam优化器^[17]优化模型参数，学习率设定为0.002，训练epoch设定为150. 为了减少随机性，模型将独立训练5次，在实验部分取5次实验结果的平均值作为最终结果.

按照任务目标，预测任务定义为利用所有站点24个值（ $ {\tau }_{\rm{in}} $=24，采样周期为4 h）的历史水质指标监测数据及气象数据预测将来9个值（ $ {\tau }_{\rm{out}} $=9，采样周期为4 h）的水质情况. 将一个样本中包含长度为24的水质指标及气象数据作为模型输入，后面长度为9的水质指标作为地表水水质真实值. 用窗口大小为33的滑动窗口，以步长为1生成5 127个数据样本，按时间先后顺序以7∶1∶2的比例划分成训练集、评估集和测试集.

该实验以训练集的样本优化模型参数，以在评估集上的运行结果优化超参数，在测试集上验证该模型的性能.

性能评价指标包括平均绝对误差（MAE）和平均相对误差（MRE），计算方法如下：

(12) $ {{{\rm{MAE}}}} = \frac{1}{N}\mathop \sum \limits_{i = 1}^N \left| {{{{Y}}_i} - {{{\hat{ Y}}}_i}} \right|, $

(13) $ {{{\rm{MRE}}}} = \frac{1}{N}\mathop \sum \limits_{i = 1}^N \frac{{\left| {{{{Y}}_i} - {{{\hat{ Y}}}_i}} \right|}}{{{{{Y}}_i}}}. $

MAE直接计算真实值与预测值之间的绝对值. MRE在MAE的基础上除以真实值得到相对的误差率，结果更加直观，但不适用于数值范围在0附近的数据指标（相对误差会非常大）.

2.3. 距离阈值 ${R}_{{\rm{h}}}$的影响

$ {R}_{\rm{h}} $直接影响了所构建图的边连接密度. 当 $ {R}_{\rm{h}} $很小时，有利于在图卷积计算时保留节点本地特征，但是不能充分地建模站点间的空间依赖关系. 当 $ {R}_{\rm{h}} $很大时，图上几乎所有的节点都有边的连接，在经图卷积计算后，图上所有节点的信号可能会趋同，丢失节点的本地特征，即产生过平滑现象. 模型损失函数MSE随 $ {R}_{\rm{h}} $的变化趋势如图4所示.

图 4

图 4 距离阈值对均方误差的影响

Fig.4 Mean square error with different distance threshold

从实验结果可以看出，当 $ {R}_{{\rm{h}}} $=65 km时，MSE取得最小值0.375，优化效果最好. 在后续实验中， $ {R}_{{\rm{h}}} $设置为65 km.

2.4. 气象数据及水网距离的影响

除了历史水质指标监测数据外，模型还用到了气象数据和水网分布数据. 为了验证这2种数据的有效性，引入2个变体模型w/o wea和w/o water. 其中w/o wea去除了站点图节点信号的气象数据输入，w/o water以站点间的欧式空间距离代替水网距离来构建距离矩阵.

模型的性能对比结果如表3所示. 采用2个性能评价指标MAE和MRE. 5个水质指标分别为PH值、氨氮质量浓度、总磷质量浓度、高锰酸盐指数、溶解氧质量浓度. 其中因为氨氮质量浓度与总磷质量浓度的监测数据一直在0附近，MRE在数值上会趋近于无穷值，没有评价意义. 仅列出模型在PH值、高锰酸盐指数和溶解氧质量浓度3个指标上的实验结果. 表3中所有的结果为对应指标和模型所有步长结果的平均值.

表 3 变体实验结果

Tab.3 Variation experiment results

方法	PH监测值		高锰酸盐指数		溶解氧质量浓度
方法	MAE	MRE	MAE	MRE	MAE	MRE
本文模型	0.099	1.4%	0.468	10.7%	0.478	7.5%
w/o wea	0.109	1.6%	0.478	10.9%	0.484	7.6%
w/o water	0.123	1.7%	0.608	13.3%	0.662	10.7%

从实验结果可以看出，该模型较2个变体模型具有性能上的优势，这说明模型中引入的气象数据和水网分布数据有助于实现水质指标预测. 水网分布数据比气象数据的影响更大，原因是基于空间欧式距离定义的相关性不仅不能充分表达站点间的依赖关系，还会引入错误的先验知识，造成模型无法正确地拟合真实的映射关系，而基于站点在水网上分布所构建的水网距离矩阵能够更加真实地反映站点间的相关性.

2.5. 基线对比

将提出的地表水水质预测模型与现有的基于机器学习方法的模型进行对比. 用于对比的基线模型如下.

1）支持向量回归机（SVR）^[5]. 该方法是传统支持向量机（SVM）的回归版本，目标是在特征空间内寻找最优的超平面，使得特征空间中的所有数据样本到该平面的距离最近. 原始版本的SVR只支持单变量输出，作为实验对比基线，本文为每个指标和预测步长建立SVR模型.

2）差分整合移动平均自回归模型（ARIMA）^[3]. 该方法将时间序列转化为平稳时间序列，将因变量对它的滞后值以及随机误差项进行回归拟合，是时间序列线性分析中最常见的模型之一.

3）长短期记忆网络（LSTM）^[10]. LSTM在序列建模过程中保持记忆性，较RNN与GRU有更加复杂的门控结构，设定遗忘门和输入门用以控制长期记忆的保留与更新，设定输出门用以得到每个时刻的输出结果. LSTM缓解了RNN模型中的梯度消失问题，是深度学习中建模时间序列最常用的神经网络.

为了评估各模型在短期预测及长期预测任务上的性能，列出了模型在不同预测步长下的误差. 如表4~6所示为提出模型与对比模型在PH监测值、高锰酸盐指数和溶解氧质量浓度3个指标上的预测结果. 表中，L为预测步长. 可见，与其他基线模型相比，该模型有明显的性能优势. 与时间序列分析方法ARIMA相比，该模型在PH监测值、高锰酸盐指数和溶解氧质量浓度3个指标上性能分别提升了23.3%、36.5%和37%. 与通用回归模型SVR相比，在3个指标上分别提升了26.6%、28.3%和36.8%. 与LSTM模型相比，在3个指标上分别提升了14.8%、20.0%和29.6%.

表 4 PH监测值的预测结果

Tab.4 Prediction results of PH value

方法	$L=1$		$L=3$		$L=5$		$L=7$		$L=9$
方法	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE
本文模型	0.081	1.2%	0.090	1.3%	0.096	1.4%	0.097	1.4%	0.110	1.6%
SVR	0.101	1.5%	0.125	1.8%	0.135	1.9%	0.144	2.0%	0.167	2.2%
ARIMA	0.079	1.1%	0.143	2.0%	0.138	1.9%	0.135	1.8%	0.167	2.2%
LSTM	0.089	1.3%	0.125	1.8%	0.110	1.6%	0.105	1.6%	0.126	1.8%

表 5 高锰酸盐指数的预测结果

Tab.5 Prediction results of permanganate index

方法	$L=1$		$L=3$		$L=5$		$L=7$		$L=9$
方法	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE
本文模型	0.410	8.2%	0.455	10.5%	0.474	10.8%	0.497	11.1%	0.520	11.4%
SVR	0.624	13.7%	0.673	14.6%	0.680	14.8%	0.671	14.6%	0.681	14.8%
ARIMA	0.571	12.9%	0.712	15.5%	0.695	15.1%	0.743	16.0%	0.850	17.7%
LSTM	0.521	11.4%	0.532	11.7%	0.589	13.2%	0.641	14.0%	0.674	14.7%

表 6 溶解氧质量浓度的预测结果

Tab.6 Prediction results of dissolved oxygen mass concentration

方法	$L=1$		$L=3$		$L=5$		$L=7$		$L=9$
方法	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE	MAE	MRE
本文模型	0.354	5.7%	0.451	7.1%	0.466	7.3%	0.517	8.3%	0.582	9.2%
SVR	0.525	8.4%	0.731	11.5%	0.803	12.0%	0.897	13.9%	0.876	13.7%
ARIMA	0.501	8.0%	0.818	12.3%	0.802	12.0%	0.865	13.6%	0.891	13.8%
LSTM	0.467	7.3%	0.672	10.9%	0.675	10.8%	0.742	11.7%	0.839	12.7%

DOI:10.1016/j.engappai.2009.09.015 [本文引用: 2]

实验结果表明，与时间序列分析模型ARIMA和通用回归模型SVR相比，基于深度学习技术的LSTM和该模型在预测准确率上具有明显的优势. 这是因为在该场景中，输入数据的维度高达216维（24×9），开展特征工程的难度较大，而基于深度学习的模型支持多源异构数据输入，通过堆叠多层神经网络实现了自动化的特征学习. 该模型的预测性能比LSTM模型更好，这是因为该模型能够通过GCN建模站点在空间上的复杂依赖关系，例如水污染物在水网上的传播过程，相比深度单序列建模模型更完整地考虑了水质监测数据在时空两方面的复杂依赖关系.

3. 结　语

本文提出新的地表水水质预测模型，使用图神经网络建模地表水水质监测站点在空间上的复杂依赖关系. 使用长短时记忆网络建模历史指标序列在时间上的复杂依赖关系，实现所有地表水水质站点水质指标的多步预测输出. 实验结果表明，与传统回归方法相比，利用该模型能够显著提高预测性能，与时间序列分析方法、通用回归方法和一般深度学习方法相比，该模型能够实现23.3%、26.6%和14.8%的性能提升.

本文提出的预测模型有进一步的拓展空间. 对于今后的工作，将重点探索以下3个方向. 1）引入更多影响地表水水质的因素，如站点周边污染源的实时排放信息、地表水文信息. 2）现有方法通过人为定义规则的方式实现图的构建，未来可以在图上实现节点间关系的自动推理，减少因预定义图带来的信息损失. 3）进一步扩大现有的建模范围，将区域从杭嘉湖局部区域扩展到整个浙江省水域或者是跨省域水网，以建模更加复杂的地表水水质监测站点间的空间依赖关系.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LIANG J, YANG Q, SUN T, et al

MIKE 11 model-based water quality model as a tool for the evaluation of water quality management plans

[J]. Journal of Water Supply: Research and Technology-AQUA, 2015, 64 (6): 708- 718

DOI:10.2166/aqua.2015.048 [本文引用: 1]

[2]

GONG R, XU L, WANG D, et al

Water quality modeling for a typical urban lake based on the EFDC model

[J]. Environmental Modeling and Assessment, 2016, 21 (5): 643- 655

DOI:10.1007/s10666-016-9519-1 [本文引用: 1]

[3]

FARUK D O

A hybrid neural network and ARIMA model for water quality time series prediction

[J]. Engineering Applications of Artificial Intelligence, 2010, 23 (4): 586- 594

[4]

PARMAR K S, BHARDWAJ R

Water quality management using statistical analysis and time-series prediction model

[J]. Applied Water Science, 2014, 4 (4): 425- 434

DOI:10.1007/s13201-014-0159-9 [本文引用: 1]

[5]

LIU S, TAI H, DING Q, et al

A hybrid approach of support vector regression with genetic algorithm optimization for aquaculture water quality prediction

[J]. Mathematical and Computer Modelling, 2013, 58 (3): 458- 465

[本文引用: 2]

[6]

SINGH K P, BASANT N, GUPTA S

Support vector machines in water quality management

[J]. Analytica Chimica Acta, 2012, 703 (2): 152- 162

[7]

CHENG S, ZHANG S, LI L, et al

Water quality monitoring method based on TLD 3D Fish tracking and XGBoost

[J]. Mathematical Problems in Engineering, 2018, 2018 (7): 1- 12

[8]

BUI D T, KHOSRAVI K, TIEFENBACHER J, et al

Improving prediction of water quality indices using novel hybrid machine-learning algorithms

[J]. Science of the Total Environment, 2020, 721 (15): 137612

[9]

LI L, JIANG P, XU H, et al

Water quality prediction based on recurrent neural network and improved evidence theory: a case study of Qiantang River, China

[J]. Environmental Science and Pollution Research, 2019, 26 (4): 19879- 19896

[10]

WANG Y, ZHOU J, CHEN K, et al. Water quality prediction method based on LSTM neural network [C]// International Conference on Intelligent Systems and Knowledge Engineering. Nanjing: IEEE, 2017.

[11]

LIU P, WANG J, CHEN K, et al

Analysis and prediction of water quality using LSTM deep neural networks in IoT environment

[J]. Sustainability, 2019, 11 (4): 2058

[12]

KIPF T, WELLING M. Semi-supervised classification with graph convolutional networks [C]// International Conference on Learning Representations. Toulon: [s. n.], 2017.

[13]

HOCHREITER S, SCHMIDHUBER J

Long short-term memory

[J]. Neural Computation, 1997, 9 (8): 1735- 1780

DOI:10.1162/neco.1997.9.8.1735 [本文引用: 1]

[14]

中华人民共和国生态环境部. 地表水环境质量标准: GB 3838—2002 [S]. 北京: 中国环境出版集团, 2002.

[15]

PASZKE A, GROSS S, MASSA F, et al. Pytorch: an imperative style, high-performance deep learning library [C]// Advances in Neural Information Processing Systems. Vancouver: Curran Associates, 2019.

[16]

FEY M, LENSSEN J E. Fast graph representation learning with PyTorch geometric [C]// International Conference on Learning Representations RLGM Workshop. New Orleans: [s. n.], 2019.

[17]

KINGMA D P, BA J. Adam: a method for stochastic optimization [C]// International Conference on Learning Representations. San Diego: [s. n.], 2015.