EI、Scopus 收录
中文核心期刊

基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法

潘小果, 王凯, 邓维鑫

潘小果, 王凯, 邓维鑫. 基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法. 力学学报, 2024, 56(7): 1943-1958. DOI: 10.6052/0459-1879-24-087
引用本文: 潘小果, 王凯, 邓维鑫. 基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法. 力学学报, 2024, 56(7): 1943-1958. DOI: 10.6052/0459-1879-24-087
Pan Xiaoguo, Wang Kai, Deng Weixin. Accelerating convergence algorithm for physics-informed neural networks based on NTK theory and modified causality. Chinese Journal of Theoretical and Applied Mechanics, 2024, 56(7): 1943-1958. DOI: 10.6052/0459-1879-24-087
Citation: Pan Xiaoguo, Wang Kai, Deng Weixin. Accelerating convergence algorithm for physics-informed neural networks based on NTK theory and modified causality. Chinese Journal of Theoretical and Applied Mechanics, 2024, 56(7): 1943-1958. DOI: 10.6052/0459-1879-24-087
潘小果, 王凯, 邓维鑫. 基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法. 力学学报, 2024, 56(7): 1943-1958. CSTR: 32045.14.0459-1879-24-087
引用本文: 潘小果, 王凯, 邓维鑫. 基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法. 力学学报, 2024, 56(7): 1943-1958. CSTR: 32045.14.0459-1879-24-087
Pan Xiaoguo, Wang Kai, Deng Weixin. Accelerating convergence algorithm for physics-informed neural networks based on NTK theory and modified causality. Chinese Journal of Theoretical and Applied Mechanics, 2024, 56(7): 1943-1958. CSTR: 32045.14.0459-1879-24-087
Citation: Pan Xiaoguo, Wang Kai, Deng Weixin. Accelerating convergence algorithm for physics-informed neural networks based on NTK theory and modified causality. Chinese Journal of Theoretical and Applied Mechanics, 2024, 56(7): 1943-1958. CSTR: 32045.14.0459-1879-24-087

基于NTK理论和改进时间因果的物理信息神经网络加速收敛算法

基金项目: 国家重点研发计划(2018YFB1700702), 四川省重点研发计划(2022YFG0246), 2022年度四川大学达州市市校战略合作专项资金(2022CDDZ-06)和2023年度四川大学自贡市校市战略合作专项资金(2023CDZG-03)资助项目
详细信息
    通讯作者:

    王凯, 副教授, 主要研究方向为人工智能技术. E-mail: kai.wang@scu.edu.cn

    邓维鑫, 副研究员, 主要研究方向为吸气式高超声速推进技术. E-mail: dengweixin21@aliyun.com

  • 中图分类号: TP183

ACCELERATING CONVERGENCE ALGORITHM FOR PHYSICS-INFORMED NEURAL NETWORKS BASED ON NTK THEORY AND MODIFIED CAUSALITY

  • 摘要: 物理信息神经网络(physics-informed neural networks, PINNs)是一类将先验物理知识嵌入神经网络的方法, 目前已经成为求解偏微分方程领域的研究热点. 尽管PINNs在数值模拟方面展现出巨大的应用前景, 但它仍然面临收敛缓慢的挑战. 文章从神经正切核(neural tangent kernel, NTK)理论出发, 通过对单隐藏层神经网络模型进行分析, 推出PINNs的神经正切核矩阵具体表达式, 并以此进一步分析PINNs收敛速度的影响因素, 给出PINNs快速收敛的两个必要条件. 应用神经正切核理论分析PINNs领域的3种相关算法(时间因果算法、傅里叶特征嵌入、学习率退火)的加速收敛效果, 结果表明这3种算法均不能满足PINNs加速收敛的所有必要条件. 文章提出一种动态傅里叶特征嵌入时间因果算法(dynamic Fourier feature embedding causality, DFFEC), 综合考虑了NTK矩阵特征值平衡和时间顺序收敛对PINNs收敛速度的影响, 在Allen-Cahn, Reaction, Burgers和Advection等4个算例上的数值实验结果表明, 所提出的DFFEC算法可以显著提高PINNs的收敛速度. 特别是在Allen-Cahn算例上, 与时间因果算法相比, 所提出的DFFEC算法具有至少50倍的加速收敛效果.
    Abstract: Physics-informed neural networks (PINNs) are a class of neural networks that embed prior physical knowledge into the neural network, and have emerged as a focal area in the study of solving partial differential equations. Despite showing the significant potential in numerical simulation, PINNs still encounter the challenge of slow convergence. Through the lens of neural tangent kernel (NTK) theory, this paper conducts an analysis on single-hidden-layer neural network models, derives the specific form of the NTK matrix for PINNs, and further analyzes the factors affecting the convergence rate of PINNs, proposing two necessary conditions for high convergence rate. Applying the NTK theory, analysis of three algorithms in the PINNs domain including causality, Fourier feature embedding and learning rate annealing indicates that none of them satisfies all the necessary conditions for high convergence rate. This paper proposes dynamic Fourier feature embedding causality (DFFEC) method which takes both the impact of NTK matrix eigenvalue balance and chronological convergence on the convergence speed into account. The numerical experiments on four benchmark problems including Allen-Cahn, Reaction, Burgers and Advection, illustrate that the proposed DFFEC method can remarkably improve the convergence rate of PINNs. Especially, in the Allen-Cahn case, the proposed DFFEC method achieves an acceleration effect of at least 50 times compared to the causality algorithm.
  • 人工智能技术已经成为近十年来最为热门的话题, 人脸识别及Chat-GPT的成功让许多学科都开始对其进行研究. 然而在工程技术领域, 真正成熟的人工智能技术仅占少数, 仅应用于气象预测、故障诊断这类数据极为丰富且内在规律成熟的领域[1]. 对于许多现实工程问题, 传统神经网络技术仍不具备解决问题的能力, 一方面纯数据驱动的神经网络的外推泛化能力不具备理论依据[2-3], 另一方面大量存在的数据没有建立内在联系, 无法被合理利用[4]. 物理信息神经网络(physics-informed neural networks, PINNs)因其对偏微分方程(partial differential equation, PDE)的优越求解能力受到广泛关注. 这是一种将传统神经网络与先验物理知识相融合的方法, 该方法将已知先验物理知识(以偏微分方程表达)嵌入到神经网络损失函数中, 作为对神经网络训练的约束[5]. PINNs训练完成后可以得到满足物理约束(偏微分方程、初边值条件)的神经网络模型(即, PINNs计算得到的解同时满足偏微分方程和初边值条件). 此外, PINNs还可以利用已知部分物理变量的实验或仿真数据求解出其他物理变量. PINNs的设计理念最早可以追溯到Lagaris等[6]的工作, 最近由Raissi等[7]提出PINNs的一般结构, 并成功应用在流体相关领域. 近年来, 物理信息神经网络已经在众多领域获得应用, 包括化学燃烧[8]、天气预测[9]、血液动力学[10]、PIV图像增强[11]、电磁材料设计[12]和翼型优化设计[13]等.

    作为一种通用求解手段, PINNs仍然具有两点限制[14-16]. 一是求解准确性, 虽然Mishra等[17]给出了逆问题PINNs的理论泛化误差上界, 但是该理论并未扩展到非线性(nonlinear) PDE, 仍无法保证PINNs的准确性. 在应用研究中模型的相对误差多维持在${10^{ - 2}}$量级内, 部分问题上甚至达到了10−1[14]量级, 结果并不准确. 众多文献证明PINNs的求解误差随着问题的复杂而增大, 甚至不收敛[18-19]. 二是PINNs相比纯数据驱动的神经网络需要更长的训练时间来达到收敛. 关于第一个缺陷, 在不同应用领域中可以采用不同方法和技术手段以提高网络的准确率, 比如根据目标进行简化、使用特定构型的控制方程等[20-21], 以及通过体积权重法为训练域内样本点分配不同权重从而改善 PINNs损失函数的误差[22], 或是在 PINNs 的基础上结合网格变换将计算域从物理空间转变到参数空间减少尺度差异来提高流场的求解精度[23]. 关于第二个缺陷, 主流做法是使用迁移学习加快特征提取, 或是对模型结构[24-27]、模型的损失权重分配[18]及训练样本选取规则[28]进行修改.

    解决PINNs收敛缓慢的缺陷对其实际应用具有重要意义, 尽管已有研究在该问题上做出改进, 但这类模型的训练时间仍处在较高水平. 针对这一缺陷, 本文从神经正切核理论(neural tangent kernel, NTK)和时间因果出发, 提出一种具有更快收敛速度的改进算法. 不同于已有工作中PINNs损失函数中各项平衡超参数基于先验知识和部分实验结果选取确定而忽略了动态更新该参数对于加速PINNs收敛的作用, 以及PINNs在求解非稳态问题时忽略了时间因果按时间顺序求解PDE方程对于加速PINNs收敛的促进作用, 本文提出的方法融合了动态权重和按时间收敛求解的优点. 本文的贡献包括: (1)基于神经正切核理论, 推出PINNs的NTK矩阵的具体形式, 给出PINNs加速收敛应该满足的两个必要条件; (2)对PINNs领域3种算法进行分析, 包括时间因果算法[29]、傅里叶特征嵌入[30]和学习率退火[18], 分析表明这些算法仅满足部分PINNs加速收敛条件; (3)本文提出的DFFEC算法, 大幅提高PINNs模型的收敛速度. 在Allen-Cahn, Reaction, Burgers和Advection算例上的实验验证了提出的DFFEC算法的有效性, 特别是在Allen-Cahn问题上获得了至少50倍的加速效果. 本工作采用神经正切核和时间因果理论指导PINNs模型的训练过程, 利用数值实验验证了所提方法在提升PINNs收敛速度方面的有效性, 以期为偏微分方程求解提供快速有效的方法.

    首先本节给出PINNs的NTK矩阵具体表达式, 从理论上分析PINNs收敛速度的影响因素, 推出PINNs快速收敛的两个必要条件. 接着对FFE、LRA和时间因果3种算法从NTK角度分析它们的加速效果, 揭示这些方法在收敛速度方面存在的缺陷. 最后本节还介绍了提出的DFFEC算法, 说明算法如何加速PINNs收敛.

    PINNs是神经网络作为算子通用逼近器的扩展, 通常用于解决PDE问题[5]. 物理信息神经网络由两部分构成: (1)一个全连接神经网络(full connected neural network, FCNN); (2)一组描述物理问题的PDE, 其基本模型结构如图1所示.

    图  1  物理信息神经网络的基本结构
    Figure  1.  Basic structure of PINNs

    一般地, 物理问题可以被描述为

    $$ {u_t} + \mathcal{N}[u;\lambda ] = 0 $$ (1)

    为了封闭该方程组通常需要赋予合理的边界条件和初始条件

    $$\qquad u\left( {{\boldsymbol{x}},0} \right) = f\left( {\boldsymbol{x}} \right),\quad {\boldsymbol{x}} \in \varOmega $$ (2)
    $$ \qquad u\left( {{\boldsymbol{x}},t} \right) = g\left( {{\boldsymbol{x}},t} \right),\quad {\boldsymbol{x}} \in \partial \varOmega ,\quad t \in \left[ {0,T} \right] $$ (3)

    其中, $ u $是待求解的目标量, 它是时间$ t $和空间坐标$ {\boldsymbol{x}} $的函数, 可以写作$ u({\boldsymbol{x}},t) .$ $ {u_t} $表示$ u $对$ t $的一阶偏导数. $ \mathcal{N}[u;\lambda ] $是一个非线性算子. 这个设置包含了数学物理学中广泛的问题, 包括守恒定律、扩散过程、平流-扩散-反应系统和动力学方程等[5].

    下面给出PINNs的完整损失函数$L\left( {\boldsymbol{\theta}} \right) $, 包含两部分: 一是在传统深度学习中出现的数据损失$ {L_d} $, 用于评价模型对观测数据的拟合程度; 二是用于评价模型对物理规律的遵守程度的控制方程损失$ {L_r} $、初始条件损失$ {L_i} $以及边界损失$ {L_b} $. 在没有给定边界条件时, 提供的观测数据可以保证求解结果的唯一

    $$ L\left( {\boldsymbol{\theta}} \right) = {\lambda _d}{L_d}\left( {\boldsymbol{\theta}} \right) + {\lambda _r}{L_r}\left( {\boldsymbol{\theta}} \right) + {\lambda _b}{L_b}\left( {\boldsymbol{\theta}} \right) + {\lambda _i}{L_i}\left( {\boldsymbol{\theta}} \right) $$ (4)
    $$ {L_d}\left( {\boldsymbol{\theta}} \right) = \frac{1}{{{N_d}}}\sum\limits_{i = 1}^{{N_d}} {{{\left[ {\hat u\left( {{\boldsymbol{x}}_d^i,t_d^i;{\boldsymbol{\theta}} } \right) - u_d^i} \right]}^2}} $$ (5)
    $$ {L_r}\left( {\boldsymbol{\theta}} \right) = \frac{1}{{{N_r}}}\sum\limits_{i = 1}^{{N_r}} {{{\left\{{{u_t}\left( {{\boldsymbol{x}}_r^i,t_r^i;{\boldsymbol{\theta}} } \right) + N\left[ {{u_t}\left( {{\boldsymbol{x}}_r^i,t_r^i;{\boldsymbol{\theta}} } \right);\lambda } \right]} \right\}}^2}} $$ (6)
    $$ {L_i}\left( {\boldsymbol{\theta}} \right) = \frac{1}{{{N_i}}}\sum\limits_{j = 1}^{{N_i}} {{{\left[ {u\left( {{\boldsymbol{x}}_i^j,t_i^j;{\boldsymbol{\theta}} } \right) - f\left( {{\boldsymbol{x}}_i^j,t_i^j;{\boldsymbol{\theta}} } \right)} \right]}^2}} $$ (7)
    $$ {L_b}\left( {\boldsymbol{\theta}} \right) = \frac{1}{{{N_b}}}\sum\limits_{i = 1}^{{N_b}} {{{\left[ {\hat u\left( {{\boldsymbol{x}}_b^i,t_b^i;{\boldsymbol{\theta}} } \right) - g\left( {{\boldsymbol{x}}_b^i,t_b^i;{\boldsymbol{\theta}} } \right]} \right)}^2}} $$ (8)

    式中, $ {\boldsymbol{\theta}} $表示模型的待优化参数, $ {u_d} $代表观测数据, $ \hat u $代表模型输出. 通常用于计算$ {L_d},{L_r},{L_i}和{L_b} $的样本来源并不相同: 在$ {L_d} $中样本来自于已知数据集, 可以来自仿真或观测结果; $ {L_r} $的样本(collocation points)在大多数研究中都采用随机采样方式获取; $ {L_b} $和$ {L_i} $则一般采用固定样本计算. $ {\lambda _d},{\lambda _r},{\lambda _i}和{\lambda _b} $为各损失的权重, 表示各项损失的重要程度.

    有研究表明, 神经网络普遍存在一种隐式偏差即谱偏差(spectrum bias)[31], 也叫做频率原则(frequency principal)[32], 它描述了神经网络优先拟合目标中低频成分的现象. 这种收敛速度的不平衡使得模型难以训练, 导致收敛缓慢. 对此, 神经正切核理论从数学上给出收敛速度差异的来源, 推出只有在NTK矩阵特征值相同时才不存在谱偏差. 由于PINNs的模型主体是一个普通的神经网络, 这类模型训练过程中也存在谱偏差现象. 本节从神经正切核理论出发, 推导出PINNs的NTK矩阵具体表达式, 并给出PINNs快速收敛的两个必要条件.

    考虑如图2所示的一个单隐藏层神经网络模型, 该模型被指定拟合一组固定输入$ {\boldsymbol{X}} \in {{\boldsymbol{R}}^{m \times D}} $(其中m为样本数量, D为样本的特征维数)的函数$ y = y({\boldsymbol{x}}) $. 假设该模型输入层与隐藏层的连接权重$ [ {{\boldsymbol{W}}^1},{{\boldsymbol{b}}^1}|{{\boldsymbol{W}}^1} \in {{\boldsymbol{R}}^{D \times n}},{{\boldsymbol{b}}^1} \in {{\boldsymbol{R}}^{1 \times n}}] $固定, n代表该隐藏层的神经元数量, 如果假设输出层没有偏置, 那么可训练参数仅包括隐藏层与输出层的连接权重$ {\boldsymbol{W}} $, 即$ {\boldsymbol{\theta}} = \{ {\boldsymbol{W}} \in {{\boldsymbol{R}}^{D \times 1}}\} $. 指定模型使用均方误差(mean-square error, MSE)函数构建损失, 并且本文假设在训练刚开始时所有样本的损失相同.

    图  2  单隐藏层网络结构示意图
    Figure  2.  Schematic of one hidden layer neural network

    模型对输入$ {\boldsymbol{X}} = \{ {{\boldsymbol{x}}_i}|{{\boldsymbol{x}}_i} \in {{\boldsymbol{R}}^{1 \times D}},i = 1,2, \cdots, m\} $进行如下变换

    $$ {z^l}\left( {{z^{l - 1}}} \right) = \sigma \left( {{{\boldsymbol{W}}^l}{z^{l - 1}} + {{\boldsymbol{b}}^l}} \right) $$ (9)
    $$ \begin{split} & {\boldsymbol{X}}\xrightarrow{{\sigma \left( {{{\boldsymbol{W}}^1}{\boldsymbol{X}} + {{\boldsymbol{b}}^1}} \right)}}{\left[ {\begin{array}{*{20}{c}} {{f_1}\left( {{{\boldsymbol{x}}_1}} \right)}& \cdots &{{f_n}\left( {{{\boldsymbol{x}}_1}} \right)} \\ \vdots & \ddots & \vdots \\ {{f_1}\left( {{{\boldsymbol{x}}_m}} \right)}& \cdots &{{f_n}\left( {{{\boldsymbol{x}}_m}} \right)} \end{array}} \right]_{m \times n}} = \\ &\qquad\left[ {\begin{array}{*{20}{c}} {{F_1}\left( {\boldsymbol{X}} \right)}& \cdots &{{F_n}\left( {\boldsymbol{X}} \right)} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {F\left( {{{\boldsymbol{x}}_1}} \right)} \\ \vdots \\ {F\left( {{{\boldsymbol{x}}_m}} \right)} \end{array}} \right] = F\left( {\boldsymbol{X}} \right) \end{split} $$ (10)
    $$ \hat {\boldsymbol{Y}} = F\left( {\boldsymbol{X }}\right){\boldsymbol{W}} $$ (11)

    模型损失$ L\left( {\boldsymbol{\theta}} \right) $记为

    $$ L\left( {{\boldsymbol{X}},{\boldsymbol{\theta}} } \right) = \frac{1}{m}\sum\limits_{i = 1}^m {{{\left[ {F\left( {{{\boldsymbol{x}}_i}} \right){\boldsymbol{W}} - {y_i}} \right]}^2}} = \frac{1}{m}\sum\limits_{i = 1}^m {{a^2}} $$ (12)

    由此可以构建出该模型的NTK矩阵$ {\boldsymbol{K}} $

    $$ \frac{{\partial L\left( {{{\boldsymbol{x}}_i},{\boldsymbol{\theta}} } \right)}}{{\partial {\boldsymbol{\theta}} }} = 2\left[ {F\left( {{{\boldsymbol{x}}_i}} \right){\boldsymbol{W}} - {Y_i}} \right]{{F}}\left( {{{\boldsymbol{x}}_i}} \right) = 2a{{F}}\left( {{{\boldsymbol{x}}_i}} \right) $$ (13)
    $$ {{\boldsymbol{K}}_{i,j}} = \left\langle {\frac{{\partial L\left( {{{\boldsymbol{x}}_i},{\boldsymbol{\theta}} } \right)}}{{\partial {\boldsymbol{\theta}} }},\frac{{\partial L\left( {{{\boldsymbol{x}}_j},{\boldsymbol{\theta}} } \right)}}{{\partial {\boldsymbol{\theta}} }}} \right\rangle = 4{a^2}{{F}}\left( {{{\boldsymbol{x}}_i}} \right){{F}}{\left( {{{\boldsymbol{x}}_j}} \right)^{\mathrm{T}}} $$ (14)

    再考虑特征值相同的条件, 并让特征值为1, 则有

    $$ {{F}}\left( {{{\boldsymbol{x}}_i}} \right){{F}}{\left( {{{\boldsymbol{x}}_j}} \right)^{\mathrm{T}}} = {\delta _{i,j}} = \left\{ \begin{split} & {1,\quad i = j} \\ & {0,\quad i \ne j} \end{split}\right. $$ (15)

    这表示矩阵$ {{F}}\left( {\boldsymbol{X}} \right) $正交

    $$ {{F}}\left( {\boldsymbol{X}} \right){{F}}{\left( {\boldsymbol{X}} \right)^{\mathrm{T}}} = {\boldsymbol{E}} $$ (16)

    式(16)也可以写为连续形式

    $$ \int {{F_i}\left( {\boldsymbol{X}} \right){F_j}\left( {\boldsymbol{X}} \right) = {\delta _{i,j}}} $$ (17)

    这表示浅层模型实际上代表$ { {\boldsymbol{R}}^D} $空间下的一组正交基函数. 图3给出了$ {{F}}\left( {\boldsymbol{X}} \right) $正交化对NTK矩阵的影响(由随机样本绘制).

    图  3  随机初始化模型的NTK矩阵和$ {{F}}\left( {\boldsymbol{X}} \right) $正交模型的NTK矩阵对比
    Figure  3.  Comparison of the NTK matrix between randomly initialized NN and the one with orthogonal$ {{F}}\left( {\boldsymbol{X}} \right) $

    与一般神经网络的输出直接构建损失函数不同, PINNs模型输出需要经过的非线性算子$ \mathcal{H} $映射后再构建损失函数. 将初始条件视为边界条件的一类, 可以推出PINNs的NTK矩阵具体表达形式

    $$ L\left( {{\boldsymbol{X}},{\boldsymbol{\theta}} } \right) = \lambda \frac{1}{m}\sum\limits_{i = 1}^m {{{\left\{ {\mathcal{H}\left[ {{{F}}\left( {{{\boldsymbol{X}}_i}} \right){\boldsymbol{W}}} \right],{y_i}} \right\}}^2}} = \lambda \frac{1}{m}\sum\limits_{i = 1}^m {{a^2}} $$ (18)
    $$ {\boldsymbol{K}}\left( t \right) = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{K}}_{rr}}\left( t \right)}&{{{\boldsymbol{K}}_{br}}\left( t \right)} \\ {{{\boldsymbol{K}}_{rb}}\left( t \right)}&{{{\boldsymbol{K}}_{bb}}\left( t \right)} \end{array}} \right] $$ (19)
    $$ {{\left( {{{\boldsymbol{K}}}_{bb}} \right)}_{i,j}}\left( t \right)=4{{\lambda }_{b}}^{2}{{a}^{2}}\mathcal{H}_{b}^{\prime}{{F}}\left( {\boldsymbol{x}}_{b}^{i} \right){{F}}{{\left( {\boldsymbol{x}}_{b}^{j} \right)}^{{\mathrm{T}}}}\mathcal{H}{{_{b}^{\prime}}^{{\mathrm{T}}}} $$ (20)
    $$ {{\left( {{{\boldsymbol{K}}}_{rr}} \right)}_{i,j}}\left( t \right)=4{{\lambda }_{r}}^{2}{{a}^{2}}\mathcal{H}_{r}^{\prime}{{F}}\left( {\boldsymbol{x}}_{r}^{i} \right){{F}}{{\left( {\boldsymbol{x}}_{r}^{j} \right)}^{{\mathrm{T}}}}\mathcal{H}{{_{r}^{\prime}}^{{\mathrm{T}}}} $$ (21)
    $${{\left( {{{\boldsymbol{K}}}_{br}} \right)}_{i,j}}\left( t \right)=4{{\lambda }_{b}}{{\lambda }_{r}}{{a}^{2}}\mathcal{H}_{b}^{\prime}{{F}}\left( {\boldsymbol{x}}_{b}^{i} \right){{F}}{{\left( {\boldsymbol{x}}_{r}^{j} \right)}^{{\mathrm{T}}}}\mathcal{H}{{_{r}^{\prime}}^{{\mathrm{T}}}} $$ (22)

    式中, $ {\boldsymbol{x}}_b^i $表示边界损失的样本, $ {\boldsymbol{x}}_r^i $表示控制方程的样本, $ i,j $表示对应矩阵的ij列元素. $ {{\boldsymbol{K}}_{rr}} \in {{\boldsymbol{R}}^{{N_r} \times {N_r}}} $, 表示控制方程损失的NTK矩阵, $ {{\boldsymbol{K}}_{bb}} \in {{\boldsymbol{R}}^{{N_b} \times {N_b}}} $, 表示边界条件损失的NTK矩阵, $ {{\boldsymbol{K}}_{br}} \in {{\boldsymbol{R}}^{{N_b} \times {N_r}}} $, 表示控制方程损失和边界条件损失混合构成的混合NTK矩阵. $ \mathcal{H}_r^{\prime} $表示控制方程的非线性算子的导数, $ \mathcal{H}_b^{\prime} $表示边界条件的非线性算子的导数.

    式(20) ~ 式(22)表明: (1)矩阵$ {\boldsymbol{F}}\left( {\boldsymbol{X }}\right) $正交产生的加速效果对PINNs也同样有效; (2)不同损失项的NTK矩阵受到相关非线性算子$ \mathcal{H} $的控制, 非线性算子$ \mathcal{H} $的不同直接导致不同损失项之间收敛速度的不平衡. (3)权重λ直接影响$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $的特征值从而影响PINNs的收敛速度. 图4图5展示了PINNs求解Helmholtz问题时的两种NTK矩阵, 可以发现模型两类损失的收敛速度非常不平衡.

    图  4  随机初始化的PINNs的$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $矩阵
    Figure  4.  The NTK matrix$ {{\boldsymbol{K}}_{rr}} $and$ {{\boldsymbol{K}}_{bb}} $of a randomly initialized PINNs
    图  5  矩阵$ {\boldsymbol{F}}\left( {\boldsymbol{X}} \right) $正交的PINNs的$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $矩阵
    Figure  5.  The NTK matrix$ {{\boldsymbol{K}}_{rr}} $and$ {{\boldsymbol{K}}_{bb}} $of a PINNs with orthogonal$ {\boldsymbol{F}}\left( {\boldsymbol{X}} \right) $

    由式(20) ~ 式(22)可以推出PINNs快速收敛的必要条件:

    (1) PINNs模型的浅层输出矩阵$ {{F}}\left( {\boldsymbol{X}} \right) $正交;

    (2)权重λ的选择需要使得不同NTK矩阵的特征值相同.

    在神经网络层数更深的情况下, 可以将除最后一个隐藏层与输出层的连接权重外的参数固定以满足本文的假设, 使得式(20) ~ 式(22)仍然适用. 目前有许多研究对PINNs做出改进以加快收敛, 本文对FFE、LRA和时间因果从NTK角度进行加速效果分析.

    Tancik等[30]构造了一个特征投影矩阵$ {\boldsymbol{b}} $, 将样本从输入空间投影到高维超球表面. 在相关文献[33-34]中该方法被称作傅里叶特征嵌入(FFE), 本文沿用该叫法. 投影后的特征可以表示为

    $$ \gamma \left( {\boldsymbol{X}} \right) = \left[ {\cos \left( {2\text{π} {\boldsymbol{X}}{{\boldsymbol{b}}^{\mathrm{T}}}} \right),\sin \left( {2\text{π} {\boldsymbol{X}}{{\boldsymbol{b}}^{\mathrm{T}}}} \right)} \right] $$ (23)

    其中, $ {\boldsymbol{X}} \in {{\boldsymbol{R}}^{m \times D}} $代表输入样本, m表示样本数量, D表示特征的维度. $ {\boldsymbol{b}} \in {{\boldsymbol{R}}^{d \times D}} $表示投影矩阵, d表示投影矩阵的长度.

    由于三角函数的正交性质, 该算法可以分别使得$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $对角化, 满足快速收敛条件(1), 但是不会改变非线性算子$ \mathcal{H}'_r $和$ \mathcal{H}'_b $的导数值和损失权重$ {\lambda _d},{\lambda _r},{\lambda _i}和{\lambda _b} $, 无法使得这两个NTK矩阵的特征值保持平衡, 不满足快速收敛条件(2).

    本文还关注被广泛使用的学习率退火算法(learning rate annealing, LRA)[18], 这是一种基于梯度统计值的动态权重选取方法, 该算法通过修改损失权重以满足PINNs快速收敛条件(2)

    $$\qquad L\left( {\boldsymbol{\theta}} \right) = {L_r}\left( {\boldsymbol{\theta}} \right) + {\lambda _b}{L_b}\left( {\boldsymbol{\theta}} \right) + {\lambda _i}{L_i}\left( {\boldsymbol{\theta}} \right) $$ (24)
    $$ \qquad{\lambda _b} = \left( {1 - \alpha } \right){\lambda _b} + {\hat \lambda _b} $$ (25)
    $$ \qquad {\hat \lambda _b} = \frac{{\max \left[ {{\nabla _{\boldsymbol{\theta}} }{L_r}\left( {\boldsymbol{\theta}} \right)} \right]}}{{\overline {\left| {{\nabla _{\boldsymbol{\theta}} }{\lambda _b}{L_b}\left( {\boldsymbol{\theta}} \right)} \right|} }} $$ (26)
    $$\qquad {\lambda _i} = \left( {1 - \alpha } \right){\lambda _i} - {\hat \lambda _i} $$ (27)
    $$\qquad {\lambda _i} = \frac{{\max \left[ {{\nabla _{\boldsymbol{\theta}} }{L_r}\left( {\boldsymbol{\theta}} \right)} \right]}}{{\overline {\left| {{\nabla _{\boldsymbol{\theta}} }{\lambda _i}{L_i}\left( {\boldsymbol{\theta}} \right)} \right|} }} $$ (28)

    上式从不同损失梯度的L1范数推出权重选取规则, 显然这种方法只能关注到$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $对角线上值的相对大小, 保持两个矩阵量级接近, 效果等同于对NTK矩阵点乘一个秩为1的系数矩阵, 显然并不会使得NTK矩阵成为满秩对角矩阵, 不满足快速收敛条件(1).

    虽然满足快速收敛条件的PINNs模型从理论上保证了收敛速度, 但是这类模型在求解非定常问题如Allen-Cahn (AC)和Burgers方程时仍然存在收敛速度慢的问题, 这表明PINNs仍然存在其他影响收敛速度的因素. Wang等[29]通过改写PINNs的损失函数证明现有PINNs的训练过程违背时间逻辑, 模型没有按照时间顺序求解PDE, 这使得模型收敛到错误结果. 为此, 他们提出一种修改的损失函数(式(29) ~ 式(31)), 通过引入时间权重保证模型按时间顺序学习样本. 该方法在一维AC问题上表现出色. 然而, 有研究表明这种方法在一维平流(advection)问题上不适用[34]

    $$\qquad\qquad {L_r}\left( {\boldsymbol{\theta}} \right) = \frac{1}{T}\sum\limits_{k = 1}^{{T}} {{\omega _k}{L_{r,k}}\left( {\boldsymbol{\theta}} \right)} $$ (29)
    $$ \qquad\qquad {\omega _k} = \exp \left[ { - \varepsilon \sum\limits_{j = 1}^{k - 1} {{L_{r,j}}\left( {\boldsymbol{\theta}} \right)} } \right] $$ (30)
    $$ {\omega _1} = 1,\quad \varepsilon = 100 $$ (31)

    这种权重系数方法对NTK矩阵的影响可以表示为

    $$ {L_r} = \frac{1}{{{N_r}}}\sum\limits_{i = 1}^{{N_r}} {{a_i}{L_r}\left( {{{\boldsymbol{X}}_i},{\boldsymbol{\theta}} } \right)} $$ (32)
    $$ {{\boldsymbol{K}}_{rr}}\left( t \right) = {\boldsymbol{\beta}} {{\boldsymbol{\beta}} ^{\mathrm{T}}} \odot \left[ {\frac{{\partial {L_r}\left( {{\boldsymbol{X}},{\boldsymbol{\theta}} \left( t \right)} \right)}}{{\partial {\boldsymbol{\theta}} }}} \right]{\left[ {\frac{{\partial {L_r}\left( {{\boldsymbol{X}},{\boldsymbol{\theta}} \left( t \right)} \right)}}{{\partial {\boldsymbol{\theta}} }}} \right]^{\mathrm{T}}} $$ (33)
    $$ {\boldsymbol{\beta }}= {\left[ {{a_1},{a_2}, \cdots ,{a_{{N_r}}}} \right]^{\mathrm{T}}} $$ (34)

    式中, $ {\alpha _i} $表示样本$ {{\boldsymbol{X}}_i} $所属子域的时间权重, $ \odot $表示哈达玛积(Hadamard product).

    按照神经正切核理论, 只有NTK矩阵特征值相同时才不存在谱偏差, 此时的神经正切核是一个对角矩阵. 然而在$ {\alpha _i} \ne 0 $时, $ {\mathrm{rank}}\left( {{\boldsymbol{\beta}} {{\boldsymbol{\beta}} ^{\mathrm{T}}}} \right) = 1 $, 不存在一个$ {\boldsymbol{\beta}} \in {{\boldsymbol{R}}^{{N_r} \times 1}} $使得$ {{\boldsymbol{K}}_{rr}} $为满秩对角矩阵. 这种赋予权重的方法无法使NTK矩阵对角化, 不满足PINNs快速收敛条件(1).

    此外, 本文认为时间因果算法忽略了边界条件错误对PDE求解的影响. 尽管模型会尝试修正这一错误, 但这也将导致更长的训练时间. 当把该方法应用到一维平流问题上时, 模型的收敛速度甚至慢于一般的PINNs. 为了解决这一缺陷, 本文提出一种改进的时间因果算法(modified causality, MC)(式(35) ~ 式(37)). 图6展示了改进算法的工作原理, 与原始算法不同. 改进算法将边界条件也纳入时间权重的作用范围内, 保证模型不会受到未来时刻下任意误差的影响. 为区别这两个算法, 后文将原始算法记为时间因果(original causality, OC). 本文在3.1.1节和3.4.1节对比这两种算法的收敛差异, 结果表明改进算法具有更快的收敛速度

    图  6  改进时间因果算法的工作原理: $ t + 1 $时刻的边界误差不会传播给$ t $时刻
    Figure  6.  Principle of modified causality: the boundary error at time$ t + 1 $will not back propagate to time$ t $
    $$ {L_r}\left( {\boldsymbol{\theta}} \right) = \frac{1}{T}\sum\limits_{k = 1}^{{T}} {{\omega _k}{L_{r,k}}\left( {\boldsymbol{\theta}} \right)} $$ (35)
    $$ {L_b}\left( {\boldsymbol{\theta}} \right) = \frac{1}{T}\sum\limits_{k = 1}^{{T}} {{\omega _k}{L_{b,k}}\left( {\boldsymbol{\theta}} \right)} $$ (36)
    $$ {\omega _k} = \exp \left\{ { - \varepsilon \sum\limits_{j = 1}^{k - 1} {\left[ {{L_{r,j}}\left( {\boldsymbol{\theta}} \right) + {L_{b,j}}\left( {\boldsymbol{\theta}} \right)} \right]} } \right\} $$ (37)

    为了满足PINNs快速收敛条件(1)和(2)、保证模型按时间顺序收敛, 本文提出动态傅里叶特征嵌入时间因果算法(DFFEC). 该算法采用FFE对输入样本进行投影以完成NTK矩阵$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $的正交化, 使用LRA算法平衡$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $的数量级, 并使用改进时间因果保证模型按时间顺序收敛

    $$ L\left( {\boldsymbol{\theta}} \right) = {\lambda _r}{L_r}\left( {\boldsymbol{\theta}} \right) + {L_b}\left( {\boldsymbol{\theta}} \right) + {\lambda _i}{L_i}\left( {\boldsymbol{\theta}} \right) $$ (38)
    $$ {L_r}\left( {\boldsymbol{\theta}} \right) = \frac{1}{T}\sum\limits_{k = 1}^{{T}} {{\omega _k}{L_{r,k}}\left( {\boldsymbol{\theta}} \right)} $$ (39)
    $$ {L_b}\left( {\boldsymbol{\theta}} \right) = \frac{1}{T}\sum\limits_{k = 1}^{{T}} {{\omega _k}{\lambda _{b,k}}{L_{b,k}}\left( {\boldsymbol{\theta}} \right)} $$ (40)
    $$ {\omega _k} = \exp \left\{ { - \varepsilon \sum\limits_{j = 1}^{k - 1} {\left[ {{L_{r,j}}\left( {\boldsymbol{\theta}} \right) + {\lambda _{b,j}}{L_{b,j}}\left( {\boldsymbol{\theta}} \right)} \right]} } \right\} $$ (41)
    $$ {\lambda _{b,k}} = \left( {1 - \alpha } \right){\lambda _{b,k}} + {\hat \lambda _{b,k}} $$ (42)
    $$ {\hat \lambda _{b,k}} = \frac{{\max \left[ {{\nabla _{\boldsymbol{\theta}} }{L_{r,k}}\left( {\boldsymbol{\theta}} \right)} \right]}}{{\overline {\left| {{\nabla _{\boldsymbol{\theta}} }{\lambda _{b,k}}{L_{b,k}}\left( {\boldsymbol{\theta}} \right)} \right|} + \delta }} $$ (43)
    $$ {\lambda _i} = \left( {1 - \alpha } \right){\lambda _i} + {\hat \lambda _i} $$ (44)
    $$ {\hat \lambda _i} = \frac{{\max \left[ {{\nabla _{\boldsymbol{\theta}} }{L_r}\left( {\boldsymbol{\theta}} \right)} \right]}}{{\overline {\left| {{\nabla _{\boldsymbol{\theta}} }{\lambda _i}{L_i}\left( {\boldsymbol{\theta}} \right)} \right|} + \delta }} $$ (45)
    $$ T = 10,\quad {\omega _1} = 1,\quad \alpha = 0.1,\quad \varepsilon = 100,\quad \delta = {10^{ - 3}} $$ (46)

    式中, 下标k表示第k个时间子域, 所有λ的初值均为1, $ {\omega _1} = 1 $可以保证第一个子域的样本得到了充分学习. 此外式(43)和式(45)中加入的平滑系数δ可以避免产生过大的λ, 避免由于λ下降缓慢造成的模型收敛错误.

    本文对比一般PINNs (Vanilla)[5]、时间因果(OC)[29]、FFE + LRA等几种方法的收敛速度. 在除2.1.1节实验外的对比实验中, 本文使用4层32神经元的神经网络, 并采用tanh作为激活函数, 在3.1.2节的实验中发现这种结构表现出相对较好的表达能力和收敛速度. 在DFFEC方法中使用标准正态分布采样维度为(2, 2000)的投影矩阵$ {\boldsymbol{b}} $. $ {\boldsymbol{b}} $的参数固定并且不计入隐藏层数. 学习率指定为$ {10^{ - 3}} $, 并且使用Adam优化器进行训练. 所有算例都使用固定样本点计算损失, $ {N_r} = 3200 $, 同时每一个边界条件都拥有400个样本点. 模型每150世代才更新一次损失权重, 所有模型都在含有一张RTX 4090计算平台上完成训练. 文章使用L2相对误差作为模型精度的评价指标, 定义为

    $$ {e_r} = \frac{{{{\left\| {\hat u - u} \right\|}_2}}}{{{{\left\| u \right\|}_2}}} $$ (47)

    一维Allen-Cahn方程是本文关注的重点问题. PINNs在该问题上需要超过150000次训练才能收敛[29, 34]. AC方程是材料学中进行相场模拟的主要模型, 可以描述二元合金在一定温度下相位分离的过程. 该问题的参考解由MATLAB计算得出.

    考虑如下形式的一维AC方程

    $$ \left. \begin{split} & {{u_t} - 0.000\;1{u_{xx}} + 5{u^3} - 5u = 0,x \in \left[ { - 1,1} \right],t \in \left[ {0,1} \right]} \\ & {u\left( {x,0} \right) = {x^2}\cos \left( {\text{π} x} \right)} \\ & {u\left( { - 1,t} \right) = u\left( {1,t} \right)} \\ & {{u_x}\left( { - 1,t} \right) = {u_x}\left( {1,t} \right)} \end{split} \right\} $$ (48)

    按照文献[29]的实验条件设置对比OC和MC方法的收敛速度, 两种方法的模型以相同初始参数进行上限300000世代的训练. 图7给出了两个模型的L2相对误差的下降过程, 可以发现改进方法的L2相对误差更快地下降到5%, 且下降过程更加平稳.

    图  7  MC和OC方法的L2误差曲线: 前者花费73855世代达到收敛指标而后者需要 97665世代
    Figure  7.  L2 relative error curve of MC and OC in AC case: the former takes 73855 epochs to converge while the later takes 97665 epochs

    本文以L2相对误差小于5%为收敛指标, 每个方法都进行10次实验, 并以其中结果最好的一次作为成绩. 实验持续追踪模型的相对L2误差变化, 在结果展示阶段向上取整, 并以100世代为最小计量单位. 后续实验中也采用了相同方法展示不同模型的收敛速度差异. 图8比较了不同方法的收敛速度, 本文提出的DFFEC方法拥有最快的收敛速度, 需要大约1300世代, 收敛速度是时间因果算法[29]的至少50倍, 并且优于时间因果与FFE和LRA方法的结合, 表1给出了训练时间. 结合图9所展示的绝对误差图, 可以发现即使到100000, Vanilla、OC和MC方法仍表现出较高的误差, 没有达到收敛条件.

    图  8  不同方法求解AC方程时所需的世代数. 其中Vanilla、OC和MC方法未在100000世代内收敛
    Figure  8.  Epochs to converge for different methods. Vanilla, OC and MC can converge
    表  1  不同方法模型达到5%的L2误差需要的训练时间: DFFEC方法拥有最快的收敛速度
    Table  1.  Comparison of time to reaching 5% L2 relative error: DFFEC shows the highest convergence speed
    Methods Epoch/103 Time L2 error/%
    Vanilla[5] 100 16 min 43 s 51.79
    OC[29] 100 21 min 3 s 44.29
    MC 100 17 min 51 s 50.95
    FFE + LRA 51.6 11 min 47 s 4.98
    FFE + OC + LRA 3.3 45 s 4.97
    DFFEC 1.3 19 s 4.22
    下载: 导出CSV 
    | 显示表格
    图  9  不同算法求解Allen-Cahn问题的绝对误差
    Figure  9.  Absolute prediction error for different methods for solving Allen-Cahn equation

    DFFEC方法提供了两个超参数: 映射矩阵$ {\boldsymbol{b}} $的维度和矩阵$ {\boldsymbol{b}} $的标准差. 前者决定了投影矩阵提供的基础频率数量, 后者影响基频的大小. 实验指定训练世代为2000代, 图10展示了投影矩阵$ {\boldsymbol{b}} $的规模和标准差对DFFEC方法的影响, 结果表明过小的映射矩阵维度会影响模型表达能力, 过大的标准差会导致不同输入经过映射后产生重复特征, 造成特征丢失. 对于取值在[0,1] (或者[−1,1])的输入特征, 适合的做法是指定投影矩阵$ {\boldsymbol{b}} $的标准差为1.0、宽度为750.

    图  10  不同投影矩阵$ {\boldsymbol{b}} $的DFFEC模型在训练10000世代后的L2相对误差
    Figure  10.  The L2 relative error of DFFEC with different mapping matrix$ {\boldsymbol{b}} $

    本文考察了模型全连接层的宽度和深度对收敛速度的影响, 从图11的结果可知模型并不是越宽、越深越好. 在所有结构中4层每层64个单元的结构表现最为出色, 且在深度超过4层时, 层数越深, 模型越难训练.

    图  11  不同全连接层宽度和深度的DFFEC模型在求解Allen-Cahn问题时收敛需要的训练世代
    Figure  11.  Epochs to converge of DFFEC with different width and depth of fully connected layer for solving Allen-Cahn equation

    近期在PINNs领域有研究表明Adam + L-BFGS优化器共同优化的方法将取得比单独使用Adam或L-BFGS优化器更好的结果[35]. 实验指定采用Adam优化器训练1000世代接着使用L-BFGS优化器训练9000世代(最大迭代次数设为100). 表2展示了所有模型采用该组合训练方法运行10次中的最优训练结果. 可以发现相比于仅使用Adam优化器, 组合优化方法确实带来了收敛速度提升, 其中本文提出的DFFEC算法仍然收敛最快. 此外, 在实验中可以观察到L-BFGS优化器可能会导致模型训练错误, 因此本文还比较不同方法的训练未产生异常的次数占总训练次数(10次)的比例(表2中Ratio列), 实验发现引入FFE和时间因果可以显著提高L-BFGS训练时的稳定性.

    表  2  采用Adam + L-BFGS组合优化器时不同方法的收敛速度差异
    Table  2.  Convergence speed of different methods using Adam + L-BFGS combination optimization
    Methods Epoch/103 Ratio L2 error/%
    Vanilla[5] 10 0.4 99.09
    OC[29] 10 0.6 51.57
    MC 10 0.7 52.02
    FFE + LRA 2.7 0.6 4.89
    FFE + OC + LRA 1.4 0.9 4.47
    DFFEC 1.1 0.9 3.55
    下载: 导出CSV 
    | 显示表格

    该方程常用于模拟化学反应, 是一个半线性常微分方程, 一般PINNs被证明在该问题上不具备求解能力[34]. 考虑如下形式的一维反应问题

    $$ \left. \begin{split} & {{u_t} - 5 u\left( {1 - u} \right) = 0,x \in \left[ {0,2\text{π} } \right],t \in \left[ {0,1} \right]} \\ & {u\left( {x,0} \right) = \exp \left[ { - \frac{{{{\left( {x - \text{π} } \right)}^2}}}{{2{{\left( {\text{π} /4} \right)}^2}}}} \right]} \\ & {u\left( {0,t} \right) = u\left( {2\text{π} ,t} \right)} \end{split} \right\} $$ (49)

    注意到在该问题上$ x $方向数据的范围是在$ t $方向的2π倍, 如果对映射矩阵${\boldsymbol{ b}} $的两个维度都使用标准正态分布进行采样, 将导致两个维度产生的频率范围相差较大. 因此本文将作用于$ x $方向的映射矩阵$ {\boldsymbol{b}} $的标准差乘上一个缩放系数(scaler coefficient) $ {1 \mathord{\left/ {\vphantom {1 4}} \right. } 4} $, 以减小两个维度的频率上限差异.

    图12表明, 本文提出的DFFEC方法具有最快的收敛速度(约500世代), 比FFE + OC + LRA方法(约1300世代)和FFE + LRA方法(约3400世代)更快. 图13展示了所有方法的预测误差图. 表3给出了所有算法的计算时间和收敛世代数, 在该问题上DFFEC可以做到秒级别的求解速度.

    图  12  不同方法求解Reaction问题所需世代数比较
    Figure  12.  Comparison of epochs to converge of different methos for solving Reaction equation
    图  13  不同算法求解Reaction时预测值的绝对误差
    Figure  13.  Absolute prediction error of different methods for solving Reaction equation
    表  3  不同方法求解Rection问题所需世代数对比
    Table  3.  Comparison of epochs to converge between different methods for solving Reaction equation
    Methods Epoch/103 Time L2 error/%
    Vanilla[5] 18.4 52 s 4.99
    OC[29] 11 48 s 4.98
    MC 9.5 1 min 9 s 4.99
    FFE + LRA 3.4 21 s 4.97
    FFE + OC + LRA 1.3 6 s 4.90
    DFFEC 0.5 3 s 4.84
    下载: 导出CSV 
    | 显示表格

    图14给出了使用正态分布初始化DFFEC时$ x $和$ t $两个维度上使用不同缩放系数改变正态分布的标准差对模型的最终L2相对误差的影响, 可以发现在差距较大时求解并不稳定且误差也较大.

    图  14  在反应问题上不同缩放系数(作用于$ x $方向)对DFFEC方法的求解稳定性影响
    Figure  14.  The influence of scaler coefficient (acting on x) for the stability when use DFFEC method to solve Reaction equation

    Burgers是一类典型的非线性方程, 本文在该问题上考察DFFEC算法能否加速PINNs收敛. 考虑如下形式的一维Burgers方程

    $$ \left. \begin{split} & {{u_t} - u{u_x} - \left( {0.01/\text{π} } \right){u_{xx}} = 0,x \in \left[ { - 1,1} \right],t \in \left[ {0,1} \right]} \\ & {u\left( {0,x} \right) = - \sin \left( {\text{π} x} \right)} \\ & {u\left( { - 1,t} \right) = u\left( {1,t} \right) = 0} \end{split} \right\} $$ (50)

    本文对所有方法都进行10次实验, 图15展示了各方法中最好的结果. 本文提出的DFFEC方法拥有最快的收敛速度, 表现略优于原始时间因果和FFE与LRA方法的结合. 表4给出了各方法的收敛时间和相对误差, 出乎意料的是FFE + LRA算法在多轮实验中都没有收敛. 观察图16可以发现, 该方法的模型收敛到一个错误结果, 模型的预测值并不光滑. 结合图10 中显示的不同大小投影矩阵$ {\boldsymbol{b}} $对DFFEC方法的精度影响, 本文认为FFE + LRA算法由于初始化产生了过高频率, 导致预测值过于间断, 较大时刻的预测值不受收到初始条件的约束, 同时误差向初始时刻传播, 使得靠近初始时刻的局部产生错误预测值, 最终导致求解失败.

    图  15  不同方法求解Burgers的收敛世代数对比
    Figure  15.  Comparison of epochs to converge between different methods for solving Burgers equation
    表  4  不同方法求解Burgers问题的收敛时间对比
    Table  4.  Comparison of convergence time between different methods for solving Burgers equation
    Methods Epoch/×103 Time L2 error/%
    FFE + LRA 100 20 min 55 s 65.89
    OC[29] 10.6 1 min 53 s 4.97
    Vanilla[5] 5.3 34 s 4.84
    MC 3.7 43 s 4.99
    FFE + OC + LRA 3.6 40 s 3.78
    DFFEC 3.1 41 s 4.38
    下载: 导出CSV 
    | 显示表格
    图  16  不同算法求解Burgers方程时的绝对误差图
    Figure  16.  Point-wise absolute prediction error of different methods for solving Burgers equation

    作为第4个算例, 本文考虑一维平流问题. 该问题具有代表性: 在常系数较小时仍然能够被PINNs准确求解, 但是随着常系数增大, PINNs的求解误差快速增大[15]

    $$ \left. \begin{split} & {{u_t} + 30{u_x} = 0,x \in \left[ {0,2\text{π} } \right],t \in [0,1]} \\ & {u\left( {x,0} \right) = \sin x } \\ & {u\left( {0,t} \right) = u\left( {2\text{π} ,t} \right)} \end{split} \right\} $$ (51)

    该问题具有解析解

    $$ u = \sin \left( {x - 30t} \right),\quad x \in \left[ {0,2\text{π} } \right],\quad t \in \left[ {0,1} \right] $$ (52)

    观察图17展示的误差图像可以发现改进时间因果算法在9000世代左右误差开始快速下降, 比原始时间因果算法更早. 结果表明本文所提出的改进时间因果算法在收敛速度上优于原始算法.

    图  17  在一维Advection问题上OC和MC方法在10000世代的L2误差曲线: 最终L2误差分别为58.99%和24.37%
    Figure  17.  The L2 error curves of OC and MC methods within 10000 epochs in 1D Advection problem: the final L2 errors are 58.99% and 24.37%, respectively

    图18给出了所有方法求解Advection方程所需的训练世代数, 在该问题上DFFEC方法略快于FFE + OC + LRA和FFE + LRA方法, 同时远快于一般的PINNs、OC和MC方法. 表5给出了不同方法的收敛时间对比, 图19展示了不同方法收敛时的绝对误差图.

    图  18  不同方法求解Advection的收敛世代数对比
    Figure  18.  Comparison of epochs to converge for solving Advection equation
    表  5  不同方法求解Advection问题的时间对比
    Table  5.  Comparison of converge time between different methods in Advection problem
    Methods Epoch/103 Time/s L2 error/%
    OC[29] 16.9 77 4.79
    MC 15.5 88 4.98
    Vanilla[5] 8.7 35 4.96
    FFE + LRA 3.9 30 4.44
    FFE + OC + LRA 3.9 30 4.78
    DFFEC 3.5 32 4.38
    下载: 导出CSV 
    | 显示表格
    图  19  不同算法求解Advection方程时的绝对误差
    Figure  19.  Point-wise absolute error of different methods for solving Advection equation

    本文针对PINNs训练时间长及收敛速度慢的缺陷, 通过固定部分浅层网络参数, 从NTK理论出发, 推出PINNs加速收敛的必要条件. 并对时间因果、傅里叶特征嵌入和学习率退火算法进行加速效果分析, 结果表明这3种方法均无法满足PINNs快速收敛条件. 本文对时间因果算法进行改进, 提出DFFEC算法. 数值结果表明, 该算法可以大幅提高PINNs的收敛速度, 并且成功利用PINNs求解反应问题. 特别是在Allen-Cahn问题上的模型的收敛速度是时间因果算法的至少50倍. 此外, 本文考察了模型深度和宽度对求解速度的影响, 结果表明4层结构的模型拥有较好的学习能力和稳定性. 并且随着模型加宽, 求解速度也有一定的提升. 本文还研究不同投影矩阵b对模型的影响, 发现如果两个方向数据的宽度相差过大将导致模型对初始化敏感、求解稳定性较差.

    本文注意到DFFEC算法存在不足: (1)由于算法使用固定样本点, 在求解高维问题时需要的样本数量会几何式增长, 计算效率会显著低于随机采样方法; (2)参数ε的选择直接影响模型对刚性问题的求解能力, 在刚性较大的问题上过大的ε会导致收敛停滞. 在下一步工作中可以通过密集采样的方式克服固定样本的缺陷. 利用进度条思想, 通过对比当前训练与初始时刻的残差量级差异或许可以自适应地调节参数ε, 避免收敛停滞.

  • 图  1   物理信息神经网络的基本结构

    Figure  1.   Basic structure of PINNs

    图  2   单隐藏层网络结构示意图

    Figure  2.   Schematic of one hidden layer neural network

    图  3   随机初始化模型的NTK矩阵和$ {{F}}\left( {\boldsymbol{X}} \right) $正交模型的NTK矩阵对比

    Figure  3.   Comparison of the NTK matrix between randomly initialized NN and the one with orthogonal$ {{F}}\left( {\boldsymbol{X}} \right) $

    图  4   随机初始化的PINNs的$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $矩阵

    Figure  4.   The NTK matrix$ {{\boldsymbol{K}}_{rr}} $and$ {{\boldsymbol{K}}_{bb}} $of a randomly initialized PINNs

    图  5   矩阵$ {\boldsymbol{F}}\left( {\boldsymbol{X}} \right) $正交的PINNs的$ {{\boldsymbol{K}}_{rr}} $和$ {{\boldsymbol{K}}_{bb}} $矩阵

    Figure  5.   The NTK matrix$ {{\boldsymbol{K}}_{rr}} $and$ {{\boldsymbol{K}}_{bb}} $of a PINNs with orthogonal$ {\boldsymbol{F}}\left( {\boldsymbol{X}} \right) $

    图  6   改进时间因果算法的工作原理: $ t + 1 $时刻的边界误差不会传播给$ t $时刻

    Figure  6.   Principle of modified causality: the boundary error at time$ t + 1 $will not back propagate to time$ t $

    图  7   MC和OC方法的L2误差曲线: 前者花费73855世代达到收敛指标而后者需要 97665世代

    Figure  7.   L2 relative error curve of MC and OC in AC case: the former takes 73855 epochs to converge while the later takes 97665 epochs

    图  8   不同方法求解AC方程时所需的世代数. 其中Vanilla、OC和MC方法未在100000世代内收敛

    Figure  8.   Epochs to converge for different methods. Vanilla, OC and MC can converge

    图  9   不同算法求解Allen-Cahn问题的绝对误差

    Figure  9.   Absolute prediction error for different methods for solving Allen-Cahn equation

    图  10   不同投影矩阵$ {\boldsymbol{b}} $的DFFEC模型在训练10000世代后的L2相对误差

    Figure  10.   The L2 relative error of DFFEC with different mapping matrix$ {\boldsymbol{b}} $

    图  11   不同全连接层宽度和深度的DFFEC模型在求解Allen-Cahn问题时收敛需要的训练世代

    Figure  11.   Epochs to converge of DFFEC with different width and depth of fully connected layer for solving Allen-Cahn equation

    图  12   不同方法求解Reaction问题所需世代数比较

    Figure  12.   Comparison of epochs to converge of different methos for solving Reaction equation

    图  13   不同算法求解Reaction时预测值的绝对误差

    Figure  13.   Absolute prediction error of different methods for solving Reaction equation

    图  14   在反应问题上不同缩放系数(作用于$ x $方向)对DFFEC方法的求解稳定性影响

    Figure  14.   The influence of scaler coefficient (acting on x) for the stability when use DFFEC method to solve Reaction equation

    图  15   不同方法求解Burgers的收敛世代数对比

    Figure  15.   Comparison of epochs to converge between different methods for solving Burgers equation

    图  16   不同算法求解Burgers方程时的绝对误差图

    Figure  16.   Point-wise absolute prediction error of different methods for solving Burgers equation

    图  17   在一维Advection问题上OC和MC方法在10000世代的L2误差曲线: 最终L2误差分别为58.99%和24.37%

    Figure  17.   The L2 error curves of OC and MC methods within 10000 epochs in 1D Advection problem: the final L2 errors are 58.99% and 24.37%, respectively

    图  18   不同方法求解Advection的收敛世代数对比

    Figure  18.   Comparison of epochs to converge for solving Advection equation

    图  19   不同算法求解Advection方程时的绝对误差

    Figure  19.   Point-wise absolute error of different methods for solving Advection equation

    表  1   不同方法模型达到5%的L2误差需要的训练时间: DFFEC方法拥有最快的收敛速度

    Table  1   Comparison of time to reaching 5% L2 relative error: DFFEC shows the highest convergence speed

    Methods Epoch/103 Time L2 error/%
    Vanilla[5] 100 16 min 43 s 51.79
    OC[29] 100 21 min 3 s 44.29
    MC 100 17 min 51 s 50.95
    FFE + LRA 51.6 11 min 47 s 4.98
    FFE + OC + LRA 3.3 45 s 4.97
    DFFEC 1.3 19 s 4.22
    下载: 导出CSV

    表  2   采用Adam + L-BFGS组合优化器时不同方法的收敛速度差异

    Table  2   Convergence speed of different methods using Adam + L-BFGS combination optimization

    Methods Epoch/103 Ratio L2 error/%
    Vanilla[5] 10 0.4 99.09
    OC[29] 10 0.6 51.57
    MC 10 0.7 52.02
    FFE + LRA 2.7 0.6 4.89
    FFE + OC + LRA 1.4 0.9 4.47
    DFFEC 1.1 0.9 3.55
    下载: 导出CSV

    表  3   不同方法求解Rection问题所需世代数对比

    Table  3   Comparison of epochs to converge between different methods for solving Reaction equation

    Methods Epoch/103 Time L2 error/%
    Vanilla[5] 18.4 52 s 4.99
    OC[29] 11 48 s 4.98
    MC 9.5 1 min 9 s 4.99
    FFE + LRA 3.4 21 s 4.97
    FFE + OC + LRA 1.3 6 s 4.90
    DFFEC 0.5 3 s 4.84
    下载: 导出CSV

    表  4   不同方法求解Burgers问题的收敛时间对比

    Table  4   Comparison of convergence time between different methods for solving Burgers equation

    Methods Epoch/×103 Time L2 error/%
    FFE + LRA 100 20 min 55 s 65.89
    OC[29] 10.6 1 min 53 s 4.97
    Vanilla[5] 5.3 34 s 4.84
    MC 3.7 43 s 4.99
    FFE + OC + LRA 3.6 40 s 3.78
    DFFEC 3.1 41 s 4.38
    下载: 导出CSV

    表  5   不同方法求解Advection问题的时间对比

    Table  5   Comparison of converge time between different methods in Advection problem

    Methods Epoch/103 Time/s L2 error/%
    OC[29] 16.9 77 4.79
    MC 15.5 88 4.98
    Vanilla[5] 8.7 35 4.96
    FFE + LRA 3.9 30 4.44
    FFE + OC + LRA 3.9 30 4.78
    DFFEC 3.5 32 4.38
    下载: 导出CSV
  • [1]

    Karniadakis GE, Kevrekidis IG, Lu L, et al. Physics-informed machine learning. Nature Reviews Physics, 2021, 3(6): 422-440 doi: 10.1038/s42254-021-00314-5

    [2]

    Jeon J, Lee J, Kim SJ. Finite volume method network for the acceleration of unsteady computational fluid dynamics: Non-reacting and reacting flows. International Journal of Energy Research, 2022, 46(8): 10770-10795 doi: 10.1002/er.7879

    [3] 查文舒, 李道伦, 沈路航等. 基于神经网络的偏微分方程求解方法研究综述. 力学学报, 2022, 54(3): 543-556 (Zha Wenshu, Li Daolun, Shen Luhang, et al. Review of neural network-based methods for solving partial differential equations. Chinese Journal of Theoretical and Applied Mechanics, 2022, 54(3): 543-556 (in Chinese) doi: 10.6052/0459-1879-21-617

    Zha Wenshu, Li Daolun, Shen Luhang, et al. Review of neural network-based methods for solving partial differential equations. Chinese Journal of Theoretical and Applied Mechanics, 2022, 54(3): 543-556 (in Chinese) doi: 10.6052/0459-1879-21-617

    [4]

    Reichstein M, Camps-Valls G, Stevens B, et al. Deep learning and process understanding for data-driven earth system science. Nature, 2019, 566(7743): 195-204 doi: 10.1038/s41586-019-0912-1

    [5]

    Raissi M, Perdikaris P, Karniadakis GE. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 2019, 378: 686-707 doi: 10.1016/j.jcp.2018.10.045

    [6]

    Lagaris IE, Likas A, Fotiadis DI. Artificial neural networks for solving ordinary and partial differential equations. IEEE Transactions on Neural Networks, 1998, 9(5): 987-1000 doi: 10.1109/72.712178

    [7]

    Raissi M, Yazdani A, Karniadakis GE. Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations. Science, 2020, 367(6481): 1026-1030 doi: 10.1126/science.aaw4741

    [8] 王意存, 邢江宽, 罗坤等. 基于物理信息神经网络的燃烧化学微分方程求解. 浙江大学学报(工学版), 2022, 56(10): 2084-2092 (Wang Yicun, Xing Jiangkuan, Luo Kun, et al. Solving combustion chemical differential equations via physics-informed neural network. Journal of Zhejiang University (Engineering Science), 2022, 56(10): 2084-2092 (in Chinese) doi: 10.3785/j.issn.1008-973X.2022.10.020

    Wang Yicun, Xing Jiangkuan, Luo Kun, et al. Solving combustion chemical differential equations via physics-informed neural network. Journal of Zhejiang University (Engineering Science), 2022, 56(10): 2084-2092 (in Chinese) doi: 10.3785/j.issn.1008-973X.2022.10.020

    [9]

    Li D, Deng K, Zhang D, et al. LPT-QPN: A lightweight physics-informed transformer for quantitative precipitation nowcasting. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-19 doi: 10.1109/TGRS.2023.3328945

    [10]

    Rissas G, Yang Y, Hwuang E, et al. Machine learning in cardiovascular flows modeling: Predicting arterial blood pressure from non-invasive 4D flow MRI data using physics-informed neural networks. Computer Methods in Applied Mechanics and Engineering, 2020, 358: 112623 doi: 10.1016/j.cma.2019.112623

    [11]

    Hasanuzzaman G, Eivazi H, Merbold S, et al. Enhancement of PIV measurements via physics-informed neural networks. Measurement Science and Technology, 2023, 34(4): 044002 doi: 10.1088/1361-6501/aca9eb

    [12]

    Fang Z, Zhan J. Deep physical informed neural networks for metamaterial design. IEEE Access, 2019, 8: 24506-24513 doi: 10.1109/ACCESS.2019.2963375

    [13]

    Cao W, Song J, Zhang W. A complete state-space solution model for inviscid flow around airfoils based on physics-informed neural networks. arXiv Preprint. arXiv, 2024, 2401.07203

    [14]

    Jagtap AD, Kharazmi E, Karniadakis GE. Conservative physics-informed neural networks on discrete domains for conservation laws: Applications to forward and inverse problems. Computer Methods in Applied Mechanics and Engineering, 2020, 365: 113028 doi: 10.1016/j.cma.2020.113028

    [15]

    Krishnapriyan A, Gholami A, Zhe S, et al. Characterizing possible failure modes in physics-informed neural networks. Advances in Neural Information Processing Systems, 2021, 34: 26548-26560

    [16] 李野, 陈松灿. 基于物理信息的神经网络: 最新进展与展望. 计算机科学, 2022, 49(4): 254-262 (Li Ye, Chen Songcan. Physics-informed neural networks: Recent advances and prospects. Computer Science, 2022, 49(4): 254-262 (in Chinese)

    Li Ye, Chen Songcan. Physics-informed neural networks: Recent advances and prospects. Computer Science, 2022, 49(4): 254-262 (in Chinese)

    [17]

    Mishra S, Molinaro R. Estimates on the generalization error of physics-informed neural networks for approximating a class of inverse problems for PDEs. IMA Journal of Numerical Analysis, 2022, 42(2): 981-1022 doi: 10.1093/imanum/drab032

    [18]

    Wang S, Teng Y, Perdikaris P. Understanding and mitigating gradient flow pathologies in physics-informed neural networks. SIAM Journal on Scientific Computing, 2021, 43(5): A3055-A3081 doi: 10.1137/20M1318043

    [19]

    Deshpande M, Agarwal S, Bhattacharya AK. Investigations on convergence behaviour of physics informed neural networks across spectral ranges and derivative orders//2022 IEEE Symposium Series on Computational Intelligence (SSCI). IEEE, 2022: 1172-1179. DOI: 10.1109/SSCI51031.2022.10022020

    [20]

    Jin X, Cai S, Li H, et al. NSFnets (Navier-Stokes flow nets): Physics-informed neural networks for the incompressible Navier-Stokes equations. Journal of Computational Physics, 2021, 426: 109951 doi: 10.1016/j.jcp.2020.109951

    [21]

    Haghighat E, Amini D, Juanes R. Physics-informed neural network simulation of multiphase poroelasticity using stress-split sequential training. Computer Methods in Applied Mechanics and Engineering, 2022, 397: 115141 doi: 10.1016/j.cma.2022.115141

    [22]

    Song J, Cao W, Liao F, et al. VW-PINNs: A volume weighting method for PDE residuals in physics-informed neural networks. arXiv Preprint, arXiv, 2024, 2401.06196

    [23]

    Cao W, Song J, Zhang W. A solver for subsonic flow around airfoils based on physics-informed neural networks and mesh transformation. Physics of Fluids, 2024, 36(2): 0188665

    [24]

    Jagtap AD, Kawaguchi K, Karniadakis GE. Adaptive activation functions accelerate convergence in deep and physics-informed neural networks. Journal of Computational Physics, 2020, 404: 109136 doi: 10.1016/j.jcp.2019.109136

    [25]

    Jagtap AD, Shin Y, Kawaguchi K, et al. Deep kronecker neural networks: A general framework for neural networks with adaptive activation functions. Neurocomputing, 2022, 468: 165-180 doi: 10.1016/j.neucom.2021.10.036

    [26] 韦昌, 樊昱晨, 周永清等. 基于龙格库塔法的多输出物理信息神经网络模型. 力学学报, 2023, 55(10): 2405-2416 (Wei Chang, Fan Yuchen, ZhouYongqing, et al. Multi-output physics-informed neural networks model based on the Runge-Kutta method. Chinese Journal of Theoretical and Applied Mechanics, 2023, 55(10): 2405-2416 (in Chinese) doi: 10.6052/0459-1879-23-299

    Wei Chang, Fan Yuchen, ZhouYongqing, et al. Multi-output physics-informed neural networks model based on the Runge-Kutta method. Chinese Journal of Theoretical and Applied Mechanics, 2023, 55(10): 2405-2416 (in Chinese) doi: 10.6052/0459-1879-23-299

    [27] 宋家豪, 曹文博, 张伟伟. FD-PINN: 频域物理信息神经网络. 力学学报, 2023, 55(5): 1195-1205 (Song Jiahao, Cao Wenbo, Zhang Weiwei. FD-PINN: Frequency domain physics-informed neural networks. Chinese Journal of Theoretical and Applied Mechanics, 2023, 55(5): 1195-1205 (in Chinese) doi: 10.6052/0459-1879-23-169

    Song Jiahao, Cao Wenbo, Zhang Weiwei. FD-PINN: Frequency domain physics-informed neural networks. Chinese Journal of Theoretical and Applied Mechanics, 2023, 55(5): 1195-1205 (in Chinese) doi: 10.6052/0459-1879-23-169

    [28]

    Nabian MA, Gladstone RJ, Meidani H. Efficient training of physics-informed neural networks via importance sampling. Computer-Aided Civil and Infrastructure Engineering, 2021, 36(8): 962-977 doi: 10.1111/mice.12685

    [29]

    Wang S, Sankaran S, Perdikaris P. Respecting causality for training physics-informed neural networks. Computer Methods in Applied Mechanics and Engineering, 2024, 421: 116813 doi: 10.1016/j.cma.2024.116813

    [30]

    Tancik M, Srinivasan P, Mildenhall B, et al. Fourier features let networks learn high frequency functions in low dimensional domains. Advances in Neural Information Processing Systems, 2020, 33: 7537-7547

    [31]

    Rahaman N, Baratin A, Arpit D, et al. On the spectral bias of neural networks//International Conference on Machine Learning. PMLR, 2019: 5301-5310

    [32]

    Chen GY, Gan M, Chen CL P, et al. Frequency principle in broad learning system. IEEE Transactions on Neural Networks and Learning Systems, 2021, 33(11): 6983-6989 doi: 10.1109/TNNLS.2021.3081568

    [33]

    Wang S, Wang H, Perdikaris P. On the eigenvector bias of Fourier feature networks: From regression to solving multi-scale PDEs with physics-informed neural networks. Computer Methods in Applied Mechanics and Engineering, 2021, 384: 113938

    [34]

    Monaco S, Apiletti D. Training physics-informed neural networks: One learning to rule them all? Results in Engineering, 2023, 18: 101023 doi: 10.1016/j.rineng.2023.101023

    [35]

    Chen X, Chen R, Wan Q, et al. An improved data-free surrogate model for solving partial differential equations using deep neural networks. Scientific Reports, 2021, 11(1): 19507 doi: 10.1038/s41598-021-99037-x

图(19)  /  表(5)
计量
  • 文章访问数:  157
  • HTML全文浏览量:  62
  • PDF下载量:  66
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-02-22
  • 录用日期:  2024-06-12
  • 网络出版日期:  2024-06-13
  • 发布日期:  2024-06-13
  • 刊出日期:  2024-07-17

目录

/

返回文章
返回