浙江大学学报(工学版), 2026, 60(5): 1119-1127 doi: 10.3785/j.issn.1008-973X.2026.05.021

计算机技术、控制工程

基于残差/梯度高斯自适应采样的径向基网络

林洪彬,, 吕思进, 王晨阳, 蔡天放, 骆鹏伟

燕山大学 电气工程学院,河北 秦皇岛 066004

Radial basis network based on residual/gradient Gaussian adaptive sampling

LIN Hongbin,, LV Sijin, WANG Chenyang, CAI Tianfang, LUO Pengwei

School of Electrical Engineering, Yanshan University, Qinhuangdao 066004, China

收稿日期: 2025-03-19  

基金资助: 河北省自然科学基金资助项目(E2024203225,E2025203237);燕山大学科研培育项目(理工类)(2024LGZD001).

Received: 2025-03-19  

Fund supported: 河北省自然科学基金资助项目(E2024203225,E2025203237);燕山大学科研培育项目(理工类)(2024LGZD001).

作者简介 About authors

林洪彬(1979—),男,副教授,博士,从事基于深度学习的三维场景理解、无监督学习模式识别研究.orcid.org/0000-0001-6353-8535.E-mail:honphin@ysu.edu.cn , E-mail:honphin@ysu.edu.cn

摘要

在求解具有高梯度特征和具有尖锐解的非线性偏微分方程时,物理信息径向基网络(PIRBN)比物理信息神经网络(PINN)更有效. 受自适应有限元方法和增量学习理念的启发,为了进一步提高模型在拟合非线性偏微分方程高梯度处的逼近精度,提出基于残差/梯度高斯自适应采样的径向基网络(G-PIRBN). 在训练过程中,使用当前残差和梯度信息生成高斯混合分布,用于后续特定的高斯分布采样. 将新增采样点与历史数据一起训练,加速损失的网络收敛并提高拟合精度. 非线性弹簧方程、波动方程和扩散方程的逐点绝对误差、均方误差和平均耗时对比实验结果表明,在求解具有高梯度特性的非线性偏微分方程时,G-PIRBN比PINN、PIRBN和EI-Grad的拟合精度更高,拟合速度更快.

关键词: 深度学习 ; 残差/梯度高斯自适应采样 ; 物理信息径向基网络(PIRBN) ; 自适应采样 ; 偏微分方程

Abstract

Physics-informed radial basis networks (PIRBNs) were found to be more effective than physics-informed neural networks (PINNs) in solving nonlinear partial differential equations (PDEs) with high-gradient features and sharp solutions. Inspired by adaptive finite element methods and incremental learning ideas, a radial basis network based on residual/gradient Gaussian adaptive sampling (G-PIRBN) was proposed to further improve the approximation accuracy of the model in fitting the high-gradient regions of nonlinear PDEs. During the training process, a Gaussian mixture distribution was generated using the current residual and gradient information, which was utilized for subsequent specific Gaussian distribution sampling. The newly added sampling points were trained together with historical data to accelerate the convergence of network loss and achieve higher fitting accuracy. Experimental results of point-wise absolute error, mean square error, and average time consumption for nonlinear spring equations, wave equations, and diffusion equations demonstrated that G-PIRBN exhibited higher fitting accuracy and faster fitting speed than PINN, PIRBN, and EI-Grad when solving nonlinear PDEs with high-gradient characteristics.

Keywords: deep learning ; residual/gradient Gaussian adaptive sampling ; physics-informed radial basis network (PIRBN) ; adaptive sampling ; partial differential equation

PDF (2240KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

林洪彬, 吕思进, 王晨阳, 蔡天放, 骆鹏伟. 基于残差/梯度高斯自适应采样的径向基网络. 浙江大学学报(工学版)[J], 2026, 60(5): 1119-1127 doi:10.3785/j.issn.1008-973X.2026.05.021

LIN Hongbin, LV Sijin, WANG Chenyang, CAI Tianfang, LUO Pengwei. Radial basis network based on residual/gradient Gaussian adaptive sampling. Journal of Zhejiang University(Engineering Science)[J], 2026, 60(5): 1119-1127 doi:10.3785/j.issn.1008-973X.2026.05.021

神经网络发展迅速,已广泛应用于计算机视觉[1]和自然语音处理[2]领域. 偏微分方程(partial differential equation,PDE)源于对物理现象的建模,对现代科学与工程技术至关重要. 传统的数值方法,如有限差分法[3]、有限元法[4]和有限体积法[5]依赖网络细化,计算成本高. 深度学习技术的解拟合能力优秀,被广泛用于解决PDEs中. Raissi等[6]提出物理信息神经网络(physics-informed neural networks, PINN)将数据条件(初始和边界条件)和PDE本身嵌入神经网络的损失函数中,通过训练优化网络参数. PINN是简化、灵活且高精度的PDE求解方法,具有良好的泛化能力.

PINN虽被广泛应用于由PDE控制的各种系统中,但难以解具有高梯度特征或不适定计算域的PDE[7]. 现有改进方法分为4类:1)神经网络结构的优化设计、2)区域分解、3)损失平衡、4)自适应采样. 关于类别1),Ramabathiran等[8]基于距离的编码层,提出稀疏的、基于物理的、部分可解释的神经网络SPINN,增强了神经网络求解偏微分方程的可解释性. 关于类别2),Jagtap等[9]提出XPINNs框架,通过在计算域内进行空间-时间域分解,使各区域由单独的神经网络拟合,提高并行化能力并降低训练成本. 针对高梯度和多尺度解问题,Dolean等[10]提出基于多级区域分解的物理信息神经网络框架结构,通过促进子域间的全局通信提高有限基物理神经网络的精度. 关于类别3),Liu等[11]为了解决数据稀疏问题,开发出双二聚体方法,采用最小-最大架构,调整梯度下降上升步骤,通过极端特征值和特征向量信息调整不同损失函数的权重,寻找高阶鞍点,提高神经网络的训练效率和性能. 关于类别4),Tang等[12]创建模型KRnet,将残差视为概率密度函数,最小化KL散度近似;使用训练好的KRnet生成集中在残差较大区域内的新样本点,以此提高解的准确性. Liu等[13]提出2种新的自适应采样算法(EI-RAR和EI-Grad). EI-RAR通过引入新的期望改进函数来替代传统的残差作为误差指示函数,不仅关注解域内部的样本点,还特别关注边界上的样本点;EI-Grad在EI-RAR基础上引入残差梯度信息作为样本点选择标准,能够针对性地处理具有尖锐解的PDEs.

Jacot等[14]提出神经正切核(neural tangent kernel, NTK)理论,证明以足够小的学习率训练无限宽的神经网络可以收敛到高斯过程,提供了深度学习训练动态的理论依据. PINNs一般采用多隐藏层全连接神经网络[15],Bai等[16]就处理非线性偏微分方程时可能会遇到的高梯度特征和不适定计算域问题,提出新的物理信息径向基网络(physics informed radial basis network, PIRBN);使用径向基函数(radial basis function, RBF)作为激活函数,采用单隐藏层结构代替传统多层前馈神经网络,令网络具有局部近似特性;通过NTK理论证明,在无限宽度和极小学习率下,PIRBN的训练可收敛到高斯过程,且NTK矩阵在训练中保持近似对角化. 然而PIRBN仅有一层隐藏层且隐藏层宽度大、迭代次数多、训练时间长. 本研究提出基于残差/梯度的高斯分布自适应采样方法(radial basis network based on residual/gradient Gaussian adaptive sampling, G-PIRBN),对PIRBN进行改进,有效求解高梯度特性PDE. 针对高梯度问题,结合梯度特征和残差信息定义采样标准;借鉴连续学习概念和自适应有限元方法,采用高斯混合分布进行区域细化,增加高质量采样点数量,减少模型迭代次数,提高网络训练效率. 相较于传统的自适应采样方法,G-PIRBN建立双准则驱动机制:从残差和梯度入手确定基础自适应采样点位置;令残差和梯度较大的点作为高斯均值并利用这些点的残差梯度分别构造协方差;计算各点高斯分布区域并获得混合高斯采样点;将附加点加入训练集中进行下一轮训练. 本研究将以PINNs与PIRBN为基准模型,在涵盖线性和非线性的3类典型微分方程(包括非线性弹簧方程、波动方程及扩散方程)上进行对比试验,验证G-PIRBN的稳定性、效率和精度.

1. 经典神经网络

1.1. 物理信息神经网络

物理信息神经网络使用诸如深度神经网络的结构对一般微分方程计算近似解$ u(t,x;\theta ) $

$ \left.\begin{array}{ll}N(t,x;u(t,x;\theta ))=0,&t\in [0,T],x\in \varOmega \text{;}\\I(x;u(0,x;\theta ))=0,&x\in \varOmega\text{;}\\B(t,x;u(t,x;\theta ))=0,&t\in [0,T],x\in \partial \varOmega.\end{array} \right\}$

其中$ \theta $为一般微分方程解函数形式的参数,$ N(\cdot ) $为由时间导数、空间导数以及线性和非线性项组成的一般微分算子,t为定义在空间边界T内的位置变量,x为定义在有界连续空间域$\varOmega \subseteq {\bf{R}}^d $上的位置变量,$\partial \varOmega$为空间域的边界;$ I(\cdot ) $$ B(\cdot ) $分别为初始和边界条件,并且可以由微分、线性或非线性算子组成. 计算$ \theta $须考虑空间和时间域上的残差:

$ \left.\begin{aligned}{r}_{N}(\theta )&=\int{}_{[0,T]\times \varOmega}{(N(t,x;\theta ))}^{2}\text{d}t\text{d}x\text{,}\\{r}_{I}(\theta )&=\int{}_{{\varOmega }}{(I(x,p;\theta ))}^{2}\text{d}x\text{,}\\{r}_{B}(\theta )&=\int{}_{[0,T]\times \partial \varOmega}{(B(t,x;\theta ))}^{2}\text{d}t\text{d}x.\end{aligned} \right\}$

通过定义残差,将式(1)涉及的微分方程的解简化为优化问题,其中初始和边界条件被视为约束. 训练$ \theta $以逼近解$ u $,损失函数为

$ \begin{split}L(\theta ,\lambda ;T)=&{w}_{f}{L}_{f}(\theta ,\lambda ;{T}_{f})+{w}_{b}{L}_{b}(\theta ,\lambda ;{T}_{b})+ {w}_{i}{L}_{i}(\theta ,\lambda ;{T}_{i}).\end{split} $

式中:$ {w}_{f} $$ {w}_{b} $$ {w}_{i} $为权重,$ {L}_{f} $$ {L}_{b} $$ {L}_{i} $L分别为偏微分方程、边界条件、初始条件残差损失和总损失. 以最小化损失函数的方式训练$ \theta $. PINN的训练步骤如算法1所示.

算法1 物理信息神经网络

1. 从$ [0,T]\times N $中采样生成$ {N}_{i} $个配置点,从$ \partial \varOmega $中采样生成$ {N}_{b} $个边界点.

2. 设置模型框架(层数、神经元数、激活函数和输入输出维度). 指定优化器权重参数$ {w}_{f} $$ {w}_{b} $$ {w}_{i} $,训练点数量以及误差容限.

3. 初始化模型参数$ {\theta }^{(0)} $

根据均匀分布从N个配置点中随机选择一部分点用作训练.

4. 采取下降步骤$ \theta^{(i+1)}=\theta^{(i)}-\alpha^{(i)} \nabla_\theta L\left(\theta^{(i)}\right)$,其中$\alpha $为学习率、$\nabla_\theta L\left(\theta^{(i)}\right) $为损失函数L关于参数$\theta $的梯度.

5. 结束循环.

1.2. 物理信息径向基网络

径向基网络是Broomhead等[17]提出的单层神经网络. 在原始径向基网络中,RBF用作激活函数. RBF的取值仅由从给定中心$ {\boldsymbol{c}} $到输入$ {\boldsymbol{x}} $的距离确认:

$ \upsilon (x)=f(||\boldsymbol{x}-\boldsymbol{c}||). $

在径向基网络中常用的RBF是高斯函数:

$ f(||\boldsymbol{x}-\boldsymbol{c}||)=\text{e}^{-{b}^{2}{\left|\left|\boldsymbol{x}-\boldsymbol{c}\right|\right|}^{2}}. $

其中$ b $为控制径向基函数形状的变量. 除了高斯函数,典型的径向基函数还包括反二次函数、反多二次函数、薄板样条函数等[18]. 当使用高斯函数作为激活函数时,径向基网络中输入和输出的映射表示为

$ y=\frac{1}{\sqrt{d}}\sum\limits_{i}^{d}{a}_{i}{\upsilon }_{i}({\boldsymbol{x}}) \text{,} $

$ {\upsilon }_{i}({\boldsymbol{x}})={\mathrm{e}}^ {-{b}_{i}{}^{2}{\left|\left|\boldsymbol{x}-{\boldsymbol{c}}_{i}\right|\right|}^{2}} . $

式中:$ d $为径向基网络的宽度,$ {a}_{i} $$ {b}_{i} $$ {{\boldsymbol{c}}}_{i} $均为可训练的参数. $ {a}_{i} $通过独立同分布的随机变量完成初始化,并服从正态分布. $ {b}_{i} $控制高斯函数的宽度,PIRBN的NTK因$ {b}_{i} $的增加而表现出良好的对角特性. $ b $过大将使高斯函数神经元影响区域内的样本点不足,导致求解偏微分方程时精度较低. $ {{\boldsymbol{c}}}_{i} $的选择决定了RBF神经元中心的位置. 在这项工作中,网络用相应的数据及物理信息训练,损失函数$ L= {L}_{g}+ {L}_{{{b}}_1}+{L}_{{{b}}_2} $,其中$ L_{{g}}$$L_{{{b}}_1} 、L_{{{b}}_2} $分别为PDE和边界条件的损失项. 在PIRBNs训练过程中,每个RBF神经元仅在输入靠近神经元中心时被激活,直观地表现出径向基网络的局部逼近性质.

2. 基于残差/梯度高斯自适应采样的径向基网络

2.1. 重采样区间定位

PIRBN的RBF框架复杂,在拟合偏微分方程时相较于传统的PINN需要的迭代次数更多并且收敛缓慢. 本研究提出基于残差/梯度高斯分布的自适应采样方法,不仅能够加速模型的拟合速度,还在一定程度上提高了模型在高梯度区域的拟合精度. 现有神经网络的大部分自适应采样方法根据网络迭代过程中的残差进行样点筛选. 网络每个样点的损失函数为

$ {F}_{r}=\int r_{i}^{2}(x)\text{d}x . $

式中:$ {r}_{i}(x) $为第$ i $个样点的残差. 自适应采样通过提取所有样点残差绝对值中最大的几个点进行重采样,加大模型迭代训练中高残差区域的权重配比,达到加速模型收敛的目的. 对于具有高梯度区域的偏微分方程来说,仅靠残差获得的采样点无法使模型拟合达到最优解,考虑到函数的梯度可以用来衡量函数的锐度(函数高梯度特性),以梯度模量为补充判据,作为重采样点判定的标准之一:

$ {S }_{r}=|{r}_{i}(x)|,\;\;{S }_{d}=|\nabla {u}_{i}(x)|. $

图1所示,围绕每个关键样点会生成一个椭圆(即高斯区域),区域内的点是在该高斯区域内随机采样得到的补充点. 重采样的整体逻辑是围绕信息密度较高的关键样点,通过划定高斯区域来补充采样,以提升对应区域的采样覆盖度. 定义高梯度区域为函数变化速率显著高于平均水平的区间,由倒数绝对值(或梯度模量)的大小判定. 选取排在前20%的极大值作为阈值,所有超过该阈值的区域标记为高梯度区域,后续的样本点采取均在该区域内进行. 通过计算PIRBN中所有样点的残差和梯度的绝对值,分别选出2组中最高部分的点. 基于自适应有限元方法的核心思想,通过采样点的均值和协方差获得高斯分布并在分布区域内进行二次采样.

图 1

图 1   重采样示意图

Fig.1   Schematic diagram of resampling


2.2. 高斯分布采样

静态预采样无法做到精确定位,为此提出采用一般背景分布$ \rho (x) $对损失函数$ {F}_{r} $进行重构:

$ {F}_{r}(u(x))=\frac{1}{{N}_{{\mathrm{t}}}}\sum\limits_{i=1}^{{N}_{{\mathrm{t}}}}\int r_{i}^{2}(x)\rho (x)\text{d}x . $

式中:$ {N}_{{\mathrm{t}}} $为样点数量. 通过设计背景密度函数$ \rho (x) $,实现对高风险学习区域的定向采样强化. 一般情况下,最佳$ \rho $的不同定义会导致不同的自适应采样策略. 基于高斯分布在概率密度建模中的基础性优势[19-20],本研究使用${\rho }_{i} $表示每个重采样点附近添加点的分布情况:

$ {\rho }_{i}=\pi_{i}N(x|{\mu }_{i},{\varSigma }_{i}) . $

其中$\pi_{i} $为可调参数,$ N(x|{\mu }_{i},{\varSigma }_{i}) $为具有均值$ {\mu }_{i} $和协方差$ {\varSigma }_{i} $的高斯分布. 以一维情况为例,高斯中出现的均值和方差可以通过求解以下风险最大化问题来确定:

$ {\mu }^{*},{\sigma }^{*}=\arg \underset{\mu ,\sigma }{\max }\int{r}^{2}(x;\theta )N(x|\mu ,\sigma )\text{d}x . $

为了更好地得到$ {\mu }^{*} $$ {\sigma }^{*} $的显式表达式,引入拉普拉斯近似思想,渐近展开目标函数. 假设$ r(x) $$ {x}_{0} $处的残差/梯度达到重采样标准,残差写为

$ r(x;\theta )={\text{e}}^{-G(x)} . $

$ G(x) $$ {x}_{0} $处进行二阶泰勒展开,得到

$ \begin{split}r(x;\theta )=&{\text{e}}^{-[G({{x}_{0}})+{{G}^{\prime}}({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2}{{G}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}]}=\\& C\cdot {\text{e}}^{-\frac{1}{2}{{G}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}},\\r(x;\theta )=&{\text{e}}^{-[G({{x}_{0}})+{{G}^{\prime}}({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2}{{G}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}]}=\\& C\cdot {\text{e}}^{-\frac{1}{2}{{G}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}}.\end{split} $

其中$ C $为常数,由于$ {x}_{0} $为区域内残差极大值,得到$ {G}^{\prime}({x}_{0})=0 $. 对于非线性PDE,若解$ u(x) $在局部邻域内满足$ {H}^{2} $正则性,则根据隐函数定理,残差可以在$ {x}_{0} $附近展开成式(14). 令$ G''(x)=\dfrac{1}{2{a}^{2}} $,将式(14)带入式(12),得到

$ \begin{split}&{\mu }^{*},{\sigma }^{*}=\arg \underset{\mu ,\sigma }{\max }\frac{{C}^{2}}{\sqrt{\text{2π}}\sigma }\int{\text{e}}^{-\left[{{G}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+\frac{{(x-\mu )}^{2}}{2{\sigma }^{2}}\right]}\text{d}x =\\&\arg \underset{\mu ,\sigma }{\max }\frac{1}{\sigma }\int{\text{e}}^{-\left[\left(\frac{1}{2{\sigma }^{2}}+\frac{1}{2{a}^{2}}\right){{\left(x-\frac{{a}^{2}\mu +{\sigma }^{2}{x}_{0}}{{a}^{2}+{\sigma }^{2}}\right)^{2}}}+\frac{{(\mu -{{x}_{0}})}^{2}}{2{a}^{2}+2{\sigma }^{2}}\right]}\text{d}x =\\& \arg \underset{\mu ,\sigma }{\max }\sqrt{\frac{2}{1+(\sigma /a{)}^{2}}}\cdot {\text{e}}^{-\frac{{(\mu -{{x}_{0}})}^{2}}{2{a}^{2}+2{\sigma }^{2}}}.\\[-6pt]\end{split} $

式(15)只有在$ \sigma $为零时才能得到最优解,这样只是在损失最大的点上叠加新的点,在实践中没有意义. 对协方差矩阵施加参数约束($ \sigma \geqslant a $),通过扩大高风险的搜索范围,扩展重采样点区域. 相较于单一的高风险重采样点(尤其是当该点近似性较差时),该点区域内样点集合能够更快速有效地达到缩小损失函数的作用. 最终,均值$ \mu $和协方差$ \sigma $的表达式为

$ \mu ={x}_{0},\quad\sigma =a={[2{{G}^{''}}({{x}_{0}})]}^{-1/2} . $

通过高残差和高梯度2个方向进行理论论证,证明背景密度函数存在合理性,以下为推导过程. 在由残差得到的高风险点、式(13)和$ {r}^{\prime}({x}_{0})=0 $前提下,

$ {G}^{''}({x}_{0})=-\frac{{r}^{''}({x}_{0})}{r({x}_{0})} \approx-\frac{{r}^{\prime}({x}_{0}+\varepsilon )}{\varepsilon \cdot r({x}_{0})}. $

事实上,$ r(x) $的最大点$ {x}_{0} $由有限数据集中获得的残差最大样本点$ {\hat{x}}_{0} $来近似. 在这种情况下,令$ \varepsilon \left| {x}_{0}-{\hat{x}}_{0}\right| = O(\varepsilon ) $,协方差$ \sigma $的计算式为

$ \sigma ={[2{{G}^{''}}({{x}_{0}})]}^{-1/2}=\left|\frac{r({\hat{x}}_{0})}{2}\varepsilon \right|^{1/2}\cdot |{r}^{\prime}({\hat{x}}_{0}){|}^{-1/2} . $

以由梯度得到的高风险点、式(13)和$ \dfrac{1}{{r}^{\prime}({x}_{0})}\approx 0 $的条件为前提,

$ {G}^{''}({x}_{0})=\frac{{r}^{''}(x)}{{r}^{\prime}(x)}-\left[\frac{{r}^{\prime}(x)}{r(x)}\right]^{2}\approx-\left[\frac{{r}^{\prime}(x)}{r(x)}\right]^{2}. $

$ r(x) $的最大点$ {x}_{0} $由有限数据集中获得的梯度最大样本点$ {\hat{x}}_{0} $来近似,令$ \varepsilon \left| {x}_{0}-{\hat{x}}_{0}\right| =O(\varepsilon ) $,协方差

$ \sigma ={[2{{G}^{''}}({{x}_{0}})]}^{-\frac{1}{2}}=\frac{r({\hat{x}}_{0})}{\sqrt{2}{r}^{\prime}({\hat{x}}_{0})} . $

针对高风险区域,当样点处梯度越高,依据高斯分布获得的新采样点越紧凑、高风险点周围重采样点越密集. 在多峰和高维的情况下,通过对$ G(x) $的拉普拉斯近似和对角线简化,可以近似生成作为高斯混合的建议密度$ {\rho }_{\text{add}} $,分别通过残差和梯度确定的高风险样本点的均值和协方差定义如下:

$ {\mu }_{i}={x}_{i},\;\;\varSigma _{i}^{-1}=\lambda \cdot \text{diag}\,(|\nabla r({\mu }_{i})|) $

式中:$ \lambda $为超参数,梯度$ \nabla r({\mu }_{i}) $越大,协方差的值越小,采样点越集中. 依据式(21)得到的均值和协方差,能够在重采样过程中构建多个高斯分布区域,并通过随机采样获得新增内点. 对新增采样点进行损失函数计算,使用更新后的网络进行训练迭代,继续最小化损失函数:

$ {F}_{r}(u(x))=\frac{{a}_{n}}{2{N}_{{\mathrm{t}}}}\sum\limits_{i=1}^{{N}_{{\mathrm{t}}}}\int r_{i}^{2}(x)\text{d}x+\frac{(1-{a}_{n})}{2{N}_{{\mathrm{k}}}}\sum\limits_{j=1}^{{N}_{{\mathrm{k}}}}\int r_{j}^{2}(x)\text{d}x . $

其中$ {N}_{{\mathrm{k}}} $为新增采样点数量,$ {a}_{n}=0.9\times {{\mathrm{e}}}^{-0.05n} $是为了平衡新知识和旧知识的权重比例而引入的超参数,随着网络迭代次数n不断增加,损失函数的权重配比逐渐向新增采样点靠拢,$ {a}_{n} $持续减少,将损失函数的重心逐渐向重采样数据靠拢,以此来加速网络训练的速度并提高高梯度区域的精度. G-PIRBN框架如图2所示,G-PIRBN算法见算法2.

图 2

图 2   基于残差/梯度高斯自适应采样的径向基网络框架图

Fig.2   Framework diagram of radial basis network based on residual/gradient Gaussian adaptive sampling


算法2 基于残差/梯度高斯自适应采样的径向基网络

1. 确定网络结构,包括PIRBN的最大迭代次数$ {N}_{{\mathrm{p}}} $,RBF的类型和个数,输入层空间坐标$ x\in {{\bf{R}}}_{n} $以及输出层$ u(x) $的预测值.

2. 对每个输入点进行RBF激活并加权得到函数的预测值,再通过自动微分$ u(x) $得到的各阶导数构建物理方程残差.

3. 当网络迭代次数为$ m $(判定重采样标志)的倍数时,根据残差和梯度最大的采样点集合($ {x}_{i} $$ {x}_{k} $)确定自适应重采样区域位置.

4. 计算$ {x}_{i} $$ {x}_{k} $处均值和协方差,依据高斯分布获得高风险点附近的重采样区域.

5. 从每个高斯区域内随机获得$ {N}_{{{x}_{i}}} $$ {N}_{{{x}_{k}}} $个新采样点,计算该部分的损失函数记为$ {F}_{k} $.

6. 通过设置超参数$ {a}_{n} $,将获得的新损失函数与原有的损失函数进行加权处理(随着网络迭代次数的增加,权重配比逐渐向新损失函数靠拢),使用更新后的网络进行训练迭代.

7. 重复步骤2~6直到PIRBN迭代次数达到$ {N}_{{\mathrm{p}}} $.

3. 拟合性能验证实验

通过3个高梯度偏微分方程来展示G-PIRBN的模型拟合性能,设立其他网络作为对照组,比较不同网络的训练速度和精度. 实验在采用Intel(R) Core(TM) i7-9750H CPU @ 2.60GHz的Windows11系统上进行,神经网络基于TensorFlow库建立,选择Adam优化器作为训练算法.

3.1. 非线性弹簧方程

非线性弹簧方程的初始、边界条件式为

$ \begin{split}& \frac{{\text{d}}^{2}}{\text{d}{x}^{2}}u(x)+4u(x)+\sin\; (u(x))=f(x),\quad x\in [0,100];\\[-4pt]&\quad\quad u(0)=0,\;\;\frac{\text{d}}{\text{d}x}u(0)=0.\end{split} $

其中$ f(x) $为自定义函数,随$ u(x) $取值变化而更改,解析解为

$ u(x)=x\sin x . $

由于非线性弹簧方程具有超长计算域、大预测值和高梯度的特征,PINN在拟合这类方程中面临严峻的数值稳定性和收敛性挑战. Bai等[16]将神经网络的神经元变更为RBF,应用具有1 021个神经元的PIRBN,来解决模型在拟合过程中可能会遇到的高梯度区域拟合精度较低的问题. RBF的复杂性和隐藏层单一导致PIRBN训练速度缓慢,采用残差/梯度高斯分布的自适应采样来解决这个问题,残差和梯度分别获得20个重采样区域,每个高斯区域随机获得25个新采样点.

图3所示为PINN、PIRBN、EI-Grad和G-PIRBN在相同迭代次数条件下分别求解非线性弹簧方程的结果及逐点绝对误差$\varepsilon _i $. 可以看出,G-PIRBN预测值的误差最小,拟合效果最好,逐点绝对误差平均在$ 8\times {10}^{-3} $;PINN的预测仅在$ x=0 $附近区域的分析结果一致,EI-Grad的预测在高梯度区域的拟合效果不理想;PINN无法对方程进行拟合,PIRBN和EI-Grad的在低梯度区域具有很好的拟合效果,但梯度越高的区域误差越大. 如表1所示为不同网络在不同高斯分布区域内不同重采样点数量$N_{\mathrm{p}} $情况下的均方误差MSE. 可以看出,G-PIRBN拟合结果均方误差最小.

图 3

图 3   不同网络的非线性弹簧方程拟合结果和逐点绝对误差

Fig.3   Fitting results and point-wise absolute errors of different networks for nonlinear spring equation


表 1   不同网络的非线性弹簧方程重采样点数量和均方误差

Tab.1  Number of resampling points and mean square error of different networks for nonlinear spring equation

NpMSE
PIRBNEI-GradG-PIRBN
5×108.0×10−42.4×10−59.6×10−6
5×254.5×10−43.2×10−52.3×10−6
20×101.7×10−41.1×10−58.1×10−6
20×253.0×10−57.3×10−71.5×10−7

新窗口打开| 下载CSV


3.2. 波动方程

将G-PIRBN的应用扩展到二维问题上,考虑波动方程和相应的边界条件:

$ \begin{split}& \left(\frac{{\partial }^{2}}{\partial {x}^{2}}-4\frac{{\partial }^{2}}{\partial {y}^{2}}\right)u(x,y)=0;\;\;x\in [0,1],y\in [0,1].\\[-4pt]&\quad\quad u(x,0)=u(x,1)=\frac{\partial }{\partial x}u(0,y)=0,\\[-2pt]&\quad\quad u(0,y)=\sin\; ({\text{π}} y)+\frac{1}{2}\sin\; (4{\text{π}} y).\end{split} $

解析解为

$ u(x,y)=\cos\; (2{\text{π}} x)\sin\; ({\text{π}} y)+\frac{1}{2}\cos\; (8{\text{π}} x)\sin\; (4{\text{π}} y). $

利用具有61×61个的神经元的单层G-PIRBN来应对高梯度特征带来的挑战性. 神经元的中心均匀分布在计算域$ x\in [0.1,1.1] $$ y\in [0.1,1.1] $内,其中初始神经元的间距为0.02,设置初始b=20,通过残差和梯度获得的高斯区域均为20个,每个区域内获得的新采样点$ {N}_{{{x}_{i}}} $$ {N}_{{{x}_{k}}} $为25. 选择具有相同隐藏层和神经元数目的PINN和PIRBN比较模型拟合精准度. 如图4所示为不同网络的波动方程拟合结果及逐点绝对误差. 可以看出,G-PIRBN的误差最小,能够快速收敛,逐点绝对误差平均在$ 8\times {10}^{-3} $;PINN无法完成波动方程的预测;PIRBN与EI-Grad预测结果在大部分区域贴切解析解,但是在高梯度区域的误差开始不受控,PIRBN与EI-Grad无法在少量迭代次数下在高梯度区域达到收敛条件. 不同网络在不同高斯分布区域内不同重采样数量情况下的均方误差如表2所示. 可以看出,G-PIRBN拟合结果均方误差最小.

图 4

图 4   不同网络的波动方程拟合结果和逐点绝对误差

Fig.4   Fitting results and point-wise absolute errors of different networks for wave equation


表 2   不同网络的波动方程重采样点数量和均方误差

Tab.2  Number of resampling points and mean square error of different networks for wave equation

NpMSE
PIRBNEI-GradG-PIRBN
5×101.8×10−41.9×10−52.9×10−6
5×258.8×10−55.2×10−68.2×10−7
20×109.8×10−69.8×10−74.4×10−7
20×257.5×10−62.7×10−71.1×10−8

新窗口打开| 下载CSV


3.3. 扩散方程

扩散方程在工程中很常见,例如流体力学[21]和传热问题[22]. 考虑扩散方程,初始/边界条件为

$ \begin{split}&\left(\frac{\partial }{\partial t}-0.01\frac{{\partial }^{2}}{\partial {x}^{2}}\right)u(x,t)=g(x,t);\;\;x\in [5,10],\;\;t\in [5,10],\\&\quad\quad u(5,t)={b}_{1}(t),\;\;u(10,t)={b}_{2}(t),\;\;u(x,5)={b}_{3}\left(x\right).\\[-6pt]\end{split} $

其中$ g(x,t) $$ {b}_{1}(t) $$ {b}_{2}(t) $$ {b}_{3}(x) $为自定的函数. 解$ u(x,t) $

$ \begin{split}u(x,t)=&\left[2\cos \left({\text{π}} x+\frac{{\text{π}} }{5}\right)+\frac{3}{2}\cos \left(2{\text{π}} x-\frac{3{\text{π}} }{5}\right)\right]\times\\& \left[2\cos \left({\text{π}} t+\frac{{\text{π}} }{5}\right)+\frac{3}{2}\cos \left(2{\text{π}} t-\frac{3{\text{π}} }{5}\right)\right].\end{split} $

利用61×61个RBF神经元的单层G-PIRBN来应对高梯度特征带来的挑战性. 中心的神经元均匀分布在域$ x\in [4.5,10.5] $$ t\in [4.5,10.5] $内,其中神经元的间距为0.05,设置初始b=20,通过残差和梯度获得的高斯区域均为20个,每个区域内获得的新采样点$ {N}_{{{x}_{i}}} $$ {N}_{{{x}_{k}}} $为25. 选择具有相同隐藏层和神经元数目的PINN和PIRBN比较模型拟合精准度. 如图5所示为不同网络的扩散方程拟合结果及逐点绝对误差. 可以看出,G-PIRBN能够很好地学习解决方案,逐点绝对误差平均在8×10−3,PINN、PIRBN和EI-Grad都无法精准地预测波动方程图像. 其中PINN收敛迅速但效果极差;PIRBN和EI-Grad虽然低频区域拟合效果较好,但在高梯度区域出现明显偏差. 不同网络在不同重采样点数量情况下的均方误差如表3所示. 可以看出,G-PIRBN拟合结果均方误差最小.

图 5

图 5   不同网络的扩散方程拟合结果和逐点绝对误差

Fig.5   Fitting results and point-wise absolute errors of different networks for diffusion equation


表 3   不同网络的扩散方程重采样点数量和均方误差

Tab.3  Number of resampling points and mean square error of different networks for diffusion equation

NpMSE
PIRBNDAS-PIRBNEI-GradG-PIRBN
5×105.7×10−45.3×10−51.8×10−52.3×10−6
5×254.3×10−52.4×10−54.8×10−66.2×10−7
20×103.2×10−57.2×10−61.2×10−64.2×10−7
20×256.6×10−68.6×10−77.5×10−89.3×10−9

新窗口打开| 下载CSV


神经元数量会影响模型拟合结果,如表4所示为G-PIRBN在不同RBF神经元数量$N_{{\mathrm{RBF}}} $下拟合不同方程的结果. 可以看出,拟合精度与神经元数量相关,RBF数量越多网络拟合精度越高. 经过系统性实验验证,统计不同网络拟合不同方程在固定迭代次数k条件下的训练平均耗时tt,结果如表5所示. 当训练迭代次数相同时,G-PIRBN不仅比其他2种网络花费的CPU计算时间少,还提升了网络的拟合效率. 对比结果表明,G-PIRBN相对于PINN、PIRBN、DAS-PIRBN和EI-Grad在求解具有高梯度特性的偏微分方程问题上具有更高的精度与效率.

表 4   不同物理信息径向基网络在不同径向基函数神经元数量下的方程拟合均方误差

Tab.4  Equation fitting mean squared errors of physics-informed radial basis networks with varying numbers of radial basis function neurons

NRBFMSE
PIRBNDAS-PIRBNG-PIRBN
25×308.3×10−28.2×10−31.6×10−3
25×556.3×10−42.4×10−43.8×10−5
50×309.2×10−54.6×10−68.8×10−7
50×556.6×10−68.6×10−79.3×10−9

新窗口打开| 下载CSV


表 5   固定迭代次数下不同网络的方程求解平均耗时

Tab.5  Average time consumption for solving equations across different networks with fixed number of iterations

方程名称ktt/s
PINNPIRBNEI-GradG-PIRBN
非线性弹簧方程5500357514602323
波动方程5000435680703422
扩展方程5000302464539285

新窗口打开| 下载CSV


4. 结 语

本研究提出基于残差/梯度高斯分布的自适应采样方法,并使用该方法改进物理信息径向基网络,得到可以有效地拟合具有高梯度特性偏微分方程的新型神经网络G-PIRBN. 通过计算样点的残差和梯度绝对值自主找出奇异区域,在区域内进行高斯分布式采样以加速神经网络的收敛速度并提高网络在高梯度区域的拟合精度. 与现有的自适应采样方法相比,所提方法能够根据不同的高残差或高梯度点的特性制定合适的采样密度,用更少的训练数据和计算成本获得更低的误差结果,提高网络拟合效率. 模型拟合实验结果表明,与PINN、PIRBN和EI-Grad相比,G-PIRBN在相同的迭代次数下能够在更少的时间内有效表现出方程的高梯度特征. G-PIRBN在泛化性、采样动态调节能力上还有提升空间,为了更快更好地建立模型,计划引入迁移学习,借助训练好的先验知识,进一步加快模型收敛速度,提升训练稳定性.

参考文献

VOULODIMOS A, DOULAMIS N, DOULAMIS A, et al

Deep learning for computer vision: a brief review

[J]. Computational Intelligence and Neuroscience, 2018, 2018 (1): 7068349

DOI:10.1016/bs.host.2023.01.003      [本文引用: 1]

SUN D, LIANG Y, YANG Y, et al. Research on optimization of natural language processing model based on multimodal deep learning [C]// Proceedings of the IEEE 2nd International Conference on Image Processing and Computer Applications. Shenyang: IEEE, 2024: 1358–1362.

[本文引用: 1]

RICHTMYER R D, MORTON K W. Difference methods for initial-value problems [M]. New York: [s.n.], 1967.

[本文引用: 1]

WANG X, YIN Z Y, WU W, et al

Neural network-augmented differentiable finite element method for boundary value problems

[J]. International Journal of Mechanical Sciences, 2025, 285: 109783

DOI:10.1016/j.ijmecsci.2024.109783      [本文引用: 1]

YANG C, NIU R, ZHANG P

Numerical analyses of liquid slosh by finite volume and lattice Boltzmann methods

[J]. Aerospace Science and Technology, 2021, 113: 106681

DOI:10.1016/j.ast.2021.106681      [本文引用: 1]

RAISSI M, PERDIKARIS P, KARNIADAKIS G E

Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations

[J]. Journal of Computational Physics, 2019, 378: 686- 707

DOI:10.1016/j.jcp.2018.10.045      [本文引用: 1]

MUSTAJAB A H, LYU H, RIZVI Z, et al

Physics-informed neural networks for high-frequency and multi-scale problems using transfer learning

[J]. Applied Sciences, 2024, 14 (8): 3204

DOI:10.3390/app14083204      [本文引用: 1]

RAMABATHIRAN A A, RAMACHANDRAN P

SPINN: sparse, physics-based, and partially interpretable neural networks for PDEs

[J]. Journal of Computational Physics, 2021, 445: 110600

DOI:10.1016/j.jcp.2021.110600      [本文引用: 1]

JAGTAP A D, EM KARNIADAKIS G

Extended physics-informed neural networks (XPINNs): a generalized space-time domain decomposition based deep learning framework for nonlinear partial differential equations

[J]. Communications in Computational Physics, 2025, 28 (5): 2002- 2041

DOI:10.4208/cicp.oa-2020-0164      [本文引用: 1]

DOLEAN V, HEINLEIN A, MISHRA S, et al

Multilevel domain decomposition-based architectures for physics-informed neural networks

[J]. Computer Methods in Applied Mechanics and Engineering, 2024, 429: 117116

DOI:10.1016/j.cma.2024.117116      [本文引用: 1]

LIU D, WANG Y

A Dual-Dimer method for training physics-constrained neural networks with minimax architecture

[J]. Neural Networks, 2021, 136: 112- 125

DOI:10.1016/j.neunet.2020.12.028      [本文引用: 1]

TANG K, WAN X, LIAO Q

Deep density estimation via invertible block-triangular mapping

[J]. Theoretical and Applied Mechanics Letters, 2020, 10 (3): 143- 148

DOI:10.1016/j.taml.2020.01.023      [本文引用: 1]

LIU Y, CHEN L, DING J, et al

An adaptive sampling method based on expected improvement function and residual gradient in PINNs

[J]. IEEE Access, 2024, 12: 92130- 92141

DOI:10.1109/ACCESS.2024.3422224      [本文引用: 1]

JACOT A, GABRIEL F, HONGLER C. Neural tangent kernel: convergence and generalization in neural networks (invited paper) [C]// Proceedings of the 53rd Annual ACM SIGACT Symposium on Theory of Computing. [S.l.]: ACM, 2021: 6.

[本文引用: 1]

SCABINI L F S, BRUNO O M

Structure and performance of fully connected neural networks: emerging complex network properties

[J]. Physica A: Statistical Mechanics and Its Applications, 2023, 615: 128585

DOI:10.1016/j.physa.2023.128585      [本文引用: 1]

BAI J, LIU G R, GUPTA A, et al

Physics-informed radial basis network (PIRBN): a local approximating neural network for solving nonlinear partial differential equations

[J]. Computer Methods in Applied Mechanics and Engineering, 2023, 415: 116290

DOI:10.1016/j.cma.2023.116290      [本文引用: 2]

BROOMHEAD D S, LOWE D

Multivariable functional interpolation and adaptive networks

[J]. Complex System, 1988, 2: 321- 355

[本文引用: 1]

CHEN C S, NOORIZADEGAN A, YOUNG D L, et al

On the selection of a better radial basis function and its shape parameter in interpolation problems

[J]. Applied Mathematics and Computation, 2023, 442: 127713

DOI:10.1016/j.amc.2022.127713      [本文引用: 1]

ZHANG W, HE Y, YANG S

A multi-step probability density prediction model based on Gaussian approximation of quantiles for offshore wind power

[J]. Renewable Energy, 2023, 202: 992- 1011

DOI:10.1016/j.renene.2022.11.111      [本文引用: 1]

YOSHIDA I, NAKAMURA T, AU S K

Bayesian updating of model parameters using adaptive Gaussian process regression and particle filter

[J]. Structural Safety, 2023, 102: 102328

DOI:10.1016/j.strusafe.2023.102328      [本文引用: 1]

ZHANG C, REZAVAND M, ZHU Y, et al

SPHinXsys: an open-source multi-physics and multi-resolution library based on smoothed particle hydrodynamics

[J]. Computer Physics Communications, 2021, 267: 108066

DOI:10.1016/j.cpc.2021.108066      [本文引用: 1]

BATUWATTA-GAMAGE C P, RATHNAYAKA C M, KARUNASENA H C P, et al

A physics-informed neural network-based surrogate framework to predict moisture concentration and shrinkage of a plant cell during drying

[J]. Journal of Food Engineering, 2022, 332: 111137

DOI:10.1016/j.jfoodeng.2022.111137      [本文引用: 1]

/