深度学习创新之如何引入先验知识
传统深度学习具有以下几个问题:
(1)黑盒特性使人难以相信其能获得可解释性强且与物理规律相一致的结果;
(2)严重依赖于训练过程,在与训练数据分布不同的实际应用中泛化能力不佳;
(3)依赖于大量的观测数据,数据的获取费时费力,且观测数据不可避免的缺失或误差可能导致深度学习结果无法达到令人满意的准确度。
基于此,为改善数值机理模型和深度学习方法的局限性,结合经验、理论与计算科学范式知识的深度学习方法为研究者提供了新的思路。
经验、理论、计算科学范式经历了长时间的发展,积累了丰富的知识与研究成果。在深度学习领域内,这些知识与研究成果包括包括物理定律、物理机理、专家经验等,被称为物理信息(或物理知识),将这些物理信息应用并融合到深度学习中,可以为深度学习模型内嵌领域物理知识,形成了物理引导的深度学习或理论引导深度学习。将物理信息与深度学习方法融合可在一定程度上提升深度学习方法的可解释性与物理一致性,同时,由于物理信息的融入,可大大减少深度学习方法对观测数据的依赖。
在物理引导深度学习框架的构造方法中,通常存在物理信息组合与物理信息融合两种模式。
物理信息组合将领域物理知识编码为物理引导项并从外部介入引导神经网络的计算过程,通常将物理引导项应用于深度学习模型的前端以构建物理引导的数据处理方法;应用于后端以构建输出优化方法;应用于优化阶段以构建损失函数。
不同于物理信息组合的引入外部引导的方式,物理信息融合针对特定问题将领域物理知识与深度学习模型进行深度融合,构建融合框架以实现优势互补。常用的方法包括物理引导的结构设计、预训练任务设计与混合模型构建等。
物理引导深度学习相关方法的机制如下:
物理引导的数据处理
利用数值机理模型或 客观物理信息来补充或修正数据
比如·在桥梁损失误差建模任务中,可以通过分析桥梁激励响应对桥梁损失数据进行校正,并将加速度信号转化为时频图像以提取更多频率信息,改变数据预处理方式以确保深度学习模型的输入数据包含正确的原始物理信息,也是物理引导数据处理的重要方法。还有大佬针对不均匀域中的翼面流体力学预测问题,采用 PointNet 架构处理数据集,以保留翼面数据的原始物理特性为目标相较传统计算流体力学方法运行速度提升数百倍。
物理引导的输出优化
利用领域知识对模型的输出进行后处理
比如有大佬将领域物理知识(地下水渗流控制方程)离散化为约束矩阵,以确定符合控制方程解的超平面,使用投影法将模型输出预测矩阵映射到该超平面,从而优化模型输出并满足理论约束,较传统多层神经网络,物理信息的加入有效提高了预测精度。
物理引导的损失函数
软约束:基于已知的物理方程、领域专家知识构建物理引导项
硬约束:为模型引入严格的限制条件,在定解条件上严格满足物理一致
可以根据具体问题和领域知识构建带有物理约束的损失函数,以进一步指导模型的优化调整。这种物理约束可以以多种形式融入损失函数中。例如,可以通过引入与物理规律相关的物理引导项,用于约束模型输出与物理规律一致。这样的物理引导项可以基于已知的物理方程、领域专家知识(经验知识)或通过施加硬约束来构建,从而提供额外的引导方向,帮助模型更好地拟合真实物理系统。
物理引导的结构设计
信息嵌入:将物理信息以神经元节点、数据流等形式嵌入深度学习模型中
结构定制:以特定物理知识为灵感定制模型结构可抽象地结构化反映物理信息
比如有大佬基于LSTM网络预测时间序列的湖泊温度,在LSTM数据流外额外添加湖泊能量数据流以结合物理信息,两路数据流共同影响最终输出的湖泊温度数据。其中湖泊能量数据流以模型输出的湖泊水温、气温、气压及湖泊气候环境变量等为输入变量,结合能量守恒公式计算湖泊系统能量净变化量,指导模型的最终输出在一定程度上符合能量守恒定律
物理引导的预训练
构建包含领域知识经验的预训练任务
比如有大佬使用相对较大、生成成本低廉的数据集并结合物理约束来学习 RAE2822机翼周围欧拉方程的解以生成物理引导的预训练初级模型。然后,利用基于Navier-Stokes方程的物理引导损失函数更新和扩充使用大量低保真欧拉数据获得的预训练模型。
物理引导的混合模型
模型集成:数值机理模型与深度学习进行结构或过程的集成
残差建模:深度学习模型关注预测数值机理模型的残差以弥补模型误差
如何把先验知识引入到深度学习的损失函数中?
可以根据具体问题和领域知识构建带有物理约束的损失函数,以进一步指导模型的优化调整。这种物理约束可以以多种形式融入损失函数中。例如,可以通过引入与物理规律相关的物理引导项,用于约束模型输出与物理规律一致。这样的物理引导项可以基于已知的物理方程、领域专家知识(经验知识)或通过施加硬约束来构建,从而提供额外的引导方向,帮助模型更好地拟合真实物理系统。
1)基于物理方程:构建基于已知的物理方程的物理引导项时,常常会涉及到含有高阶微分项的非线性微分方程,如Burgers 方程和KdV 方程等。物理引导损失函数的方法避免了直接求解微分方程的数值解,而是通过平衡方程的方式提取物理信息。
2)基于领域专家知识:在某些领域中,经验知识可以以单调性关系或变量的合理值范围等形式表达,并可以使用不等式进行表示。通过合理的数学变换方法,可以灵活地运用各种领域知识来构建物理引导项。
基于物理引导项残差构建的物理引导损失函数可以用于对深度学习模型施加物理信息约束。通过将多个损失函数进行加权和连接,可以构建多样化的损失函数。
2)基于领域专家知识:在某些领域中,经验知识可以以单调性关系或变量的合理值范围等形式表达,并可以使用不等式进行表示。通过合理的数学变换方法,可以灵活地运用各种领域知识来构建物理引导项。
基于物理引导项残差构建的物理引导损失函数可以用于对深度学习模型施加物理信息约束。通过将多个损失函数进行加权和连接,可以构建多样化的损失函数。
超参数用于调整各损失函数的权重,从而综合考虑标签数据与物理信息的重要性。通过灵活调整这些超参数,可以平衡标签数据与物理信息之间的权衡关系以使模型能够响应不同任务的具体需求(如满足物理一致性)。
基于物理方程或领域知识构建物理引导损失函数是目前流行的一种物理引导深度学习方法,属于软约束的范畴。以降雨径流建模为例,有大佬总结了降雨径流的极端天气情况与基本物理机制之间的关系,包括长期强降雨导致土壤含水量饱和、长期无雨导致极端干旱以及降雨强度与径流量大小的单调关系等。基于这些物理机制,构建了物理引导项,并将其与LSTM网络结合进行训练。实验结果显示,与传统的LSTM 模型相比,物理机制的加入不仅将MSE 平均值从0.36下降至0.11,还显著改进了对洪峰的预测,并完全消除了不符合基本物理规律的“负流量”错误预测。
有学者基于等离子体的欧姆定律损失函数的理论指导深度学习模型,消除了模型产生违反欧姆定律约束的预测的可能性,在不同太阳周期背景下进行的太阳风模拟实验中,物理约束模型的决定系数R2 相比其他无约束深度学习回归模型平均提升约25%。
有学者针对轴承剩余使用寿命预测问题,利用轴承退化信息与监测信息间的单调约束关系构建了轴承退化过程的物理引导项,并引入时空注意机制,通过构建物理引导损失函数与深度学习模型相结合,对比其他先进模型,物理信息的加入显著提高了对现有数据的利用效率,R2 指标达到0.902,物理一致性得分方面平均提升约36%。
因此,物理引导损失函数的引入可以有效地将领域物理知识融入深度学习模型中,提升模型的性能和可解释性,并使模型能够更好地符合真实世界的物理规律。对模型施加软约束的一个主要优势在于,能够在输出(观察)数据不可用的情况下通过计算物理引导损失函数训练模型。进一步,当观测数据较稀疏时,也可以通过引入物理引导损失函数训练模型。此外,在算法复杂度方面,该方法在不显式增加模型参数的情况下,通过正则化项约束参数的更新方向。这种约束确保了模型预测沿着合理的方向优化。然而,基于软约束的模型可能仍然会产生物理上不一致的结果,因为它仅计算模型预测与物理机制之间一致性程度的加权平均值。这种策略只能在平均意义上保证预测结果不严重违反约束,无法确保预测结果在每个点都符合物理约束,即模型可能会在某些点上产生偏离控制方程的物理不一致的预测。目前,尚无适用的解决方案可以通过调整正则化项的权重,让模型更侧重于某项或多项基于物理的损失,实现各物理约束项的自适应优化控制。
3)硬约束:复杂系统中的领域先验知识通常由泛定方程和定解条件等组成。硬约束指为模型引入严格的限制条件,保证其在定解条件上严格与物理一致。施加物理硬约束后得到的总损失函数无需考虑由边界和初始条件构成的惩罚项。
引入严格限制的定解条件是目前常用的施加硬约束的方法。有学者在多材料扩散问题上,通过将解和通量的连续性条件作为硬约束整合到神经网络的数学形式中,完美解决了轴向界面处的不连续问题,与其他增强型PINN 方法在多场景下相比,总计算时间平均减少约20%。为解决神经网络中的“频谱偏差”现象.
有学者将多尺度深度神经网络与硬约束技术相结合,惩罚指定边界和初始约束的任何偏差,以将平流扩散方程的解转化为一个无约束优化问题。不同维度的ADE 数值实验表明,硬约束的引入增强了模型的有效性,MSE 平均降低了6 个数量级。
基于硬约束指导的模型具有一定的灵活性,有利于融合模型训练过程中的各种信息,这对提高模型精度具有重要意义。理论上,硬约束方法可以有效减少算法的数据需求,并且在较少的配置点(观测点)、边界点和观测值的情况下,依然能够获得较高的预测精度,同时对有噪声的观测具有更强的鲁棒性。从优化角度来看,硬约束通常比软约束更有效。对模型施加硬约束避免了直接构建边界和初始条件的残差项,减少了残差项的数量,降低了模型面对多重优化问题时的压力,并为手动调整训练超参数提供了便利。硬约束方法提高了模型的学习能力,可以有效利用领域知识和先验信息,但也存在一定的局限性。目前,对硬约束的研究还处于初级阶段,需要进一步深入探索。
当前的硬约束方法只能保证严格的限制条件区域周围的配置点的预测结果严格符合物理约束,不能保证整体满足。换句话说,硬约束方法是一种从局部到全局的应用方法,而局部遵守约束是全局满意的必要不充分条件。只有所有位置都满足泛定方程和定解条件,才能保证整体的物理约束。同时,扩大硬约束的覆盖范围会增加计算时间。因此,如何平衡硬约束的覆盖范围和计算效率是一个值得进一步研究的问题。
如何利用先验信息修改深度学习模型结构?
除了在深度学习模型前后端与优化阶段结合物理信息,直接使用物理信息修改深度学习模型结构能直接影响模型对物理机制的学习效果。合理运用理论知识可以很大程度上指导模型的结构设计,如Warren McCulloch基于大脑神经元信息交换传输的原理,提出了最早的人工神经网络;而由大脑记忆与遗忘机制启发的LSTM 网络,则改进了传统循环神经网络。
物理引导结构设计的主要思想是根据特定的物理知识修改模型的结构,从而保证模型本身在一定程度上反映物理知识。物理引导的模型结构有多种设计思路,如信息嵌入及结构定制等。
1)信息嵌入
信息嵌入指将物理信息以神经元节点、数据流等形式嵌入深度学习模型中,直接使物理信息在深度学习前向传播中耦合,强化模型输出与物理信息指导的相关性。
有学者基于LSTM网络预测时间序列的湖泊温度,在LSTM 数据流外额外添加湖泊能量数据流以结合物理信息,两路数据流共同影响最终输出的湖泊温度数据。其中湖泊能量数据流以模型输出的湖泊水温、气温、气压及湖泊气候环境变量等为输入变量,结合能量守恒公式计算湖泊系统能量净变化量,指导模型的最终输出在一定程度上符合能量守恒定律。融合模型相比于传统RNN 模型与基于物理的模型在湖泊温度预测的RMSE 方面分别实现了最高0.5℃与1.5℃的提升。在预训练任务中,这种融合模型还展现了平均0.5℃的精度优势,证明了其优异的泛化性能。
有学者基于RNN 构建模型以精确模拟高山流域径流对气候变化的响应,其中神经元的连接是通过系统动力学的显式离散表示来指定的(如描述土壤水分运动、融雪等的物理方程)。受Stefan 方程启发从序列中忘记、记忆和输出信息,使输出变量具有物理意义,成功地将物理可解释性和一致性与深度学习的强大学习能力结合,模型对日、月、年流量模拟的纳什-萨特克利夫效率系数均接近0.9。
因此将物理信息嵌入到深度学习模型架构中,可以增强模型对复杂问题的建模能力。这样不仅可以利用深度学习模型强大的非线性拟合能力来更全面地捕捉复杂系统的动态行为,还能指导模型更准确地预测关键变量,并确保输出更加符合物理定律。然而,这种方法可能会使模型参数变得更加复杂,优化过程更为困难,需要精细的超参数调整,致使训练和推理过程中计算成本的增加。此外,嵌入的物理信息的准确性至关重要,因为不准确的物理信息会导致预测偏差。信息嵌入的优势依赖于高质量且多样化的物理信息。
2)结构定制
以特定物理知识为灵感定制模型结构可抽象地结构化反映物理信息。
有学者使用基于图结构的LSTM 网络研究河网的流量与温度变化,将图神经网络与LSTM 网络结合,以真实河网的连接关系为图神经网络建立邻接矩阵,将河流流量数据添加到网络节点中,约束河流流量数值关系符合现实河道拓扑结构;同时以能量守恒定律约束河流水温,从多方面将物理信息立体结合入网络模型中在温度和流量预测的RMSE方面;
有学者采用物理引导的图卷积神经网络用于最优潮流计算,聚合局部邻域特征构建物理引导图卷积来提取拓补特征和物理关系,以使神经网络中的特征传播遵循物理定律。进一步,由于物理引导项的引入使得模型学习了通用的结构动力学物理规律,模型具有对包含部分未知物理关系的结构动力系统进行建模的能力。
因此,通过在结构上直接反映物理信息,可以使训练和优化过程更贴近真实的物理系统,从而为各种应用带来显著的优势。这种方法不仅大幅提升了模型效率,还增强了模型对复杂现象的可解释性,为处理复杂的科学和工程问题提供了一个可靠的工具,特别是在需要精确模拟物理现象的场景中展现出巨大的潜力。然而,在实施结构定制时,选择何种结构来反映物理信息以优化模型性能并无统一标准,这在实践中带来一定的不确定性。通常需要根据具体问题和场景特别定制模型结构,牺牲模型泛化性以提高其鲁棒性。尽管这种方法在优化模型性能上取得了进展,但关于结构定制的实用指南仍相对有限,因此模型结构的设计在很大程度上还是依赖于工程直觉和试错方法。总而言之,物理引导的结构设计方法紧密结合了物理信息,基于物理指导的模型结构切实参与了模型的计算与优化,通过观察物理信息数据流,研究者可以直观地研究理论引导项对模型的影响,有助于对模型机理的解释。由于不同领域拥有多样的物理定律或领域经验知识,每项不同领域的研究都对应着独特的定制模型,多样且复杂的物理信息导致构建模型的经验难以继承,因此,广泛的将物理定律映射到模型结构上仍具有挑战性。
如何融合数值机理模型与基于数据驱动的深度学习模型?
融合基于自然物理系统机理的数值机理模型与基于数据驱动的深度学习模型以构建混合模型是一种有效的物理引导深度学习框架。混合模型的构建有多种方法,如模型集成及构建残差模型等。
1)模型集成:将数值机理模型与深度学习进行结构或过程的集成,是发挥两种模型优势的重要方法。措施包括为深度学习模型引入数值机理模型数据流以进行特征增强;实施模型级联或替代等。
如有学者使用深度学习方法研究翼形气动问题,尝试使用特征增强方法将简化数值机理模型的物理信息导入深度学习模型以构造集成模型,使用翼形数据驱动深度学习网络以回归升力系数,在第三隐藏层增加了气流物理参数(雷诺数与功角)、数值机理模型(Hess-Smith 面板法)产出的升力系数及压力阻力系数,所提混合模型取得了很好的效果。特别地,由于Hess-Smith 面板法在小功角条件下表现出较好的预测效果,混合模型成功地继承了数值机理模型的优点;
有学者开发了用于预测刀具磨损的物理引导混合模型,以自适应神经模糊系统基础,以加工条件参数和传感器数据为输入特征,融合刀具磨损率预测数值机理模型构建混合模型,其对于磨损的预测精度得到了较大提升;
有学者在GCNN中引入物理模型的刚度退化信息与导波信号的功率谱密度变化关系进行学习,以确保模型输出满足现有物理,通过仅对一种特定碳纤维增强复合材料结构的数据进行训练,混合模型就可以将其出色的性能扩展到NASA 发布的CFRP数据集中的所有其他CFRP 层上;
有学者通过整合作物生长和生产模型、非饱和流模型等数值模型与径向基函数神经网络构建了集成模型以进行生态水文建模。在有限硬件条件下的测试中集成模型降低了约6%的运行时间,增强了运行效率。在多个数据集上,集成模型与数值模拟的结果高度一致,显示出良好的泛化性能。
模型集成方法有效地结合了基于物理的模型和基于数据驱动的深度学习模型的优势。通过利用两者的互补特性,不仅提升了模型的性能,还减轻了各自的不足。通过结合数值机理模型的物理准确性和深度学习的数据处理能力,该方法改善了物理过程的建模,提供了比单一模型更高的预测精度,并确保模型输出在物理上的一致性。集成模型还能有效利用数值机理模型的低成本数据与深度学习的快速计算能力,提升模型的运行速度。然而,在集成基于物理的模型和深度学习模型之前,需考虑到基于物理的模型的可用性和准确性。由于物理过程的复杂性可能随应用场景而变化,基于物理的模型需要在细节上进行适当校准,而未经校准的模型可能会引入物理信息的误差。因此,使用经过校准的模型进行集成能更好地捕获与目标系统相关的关键物理特征,从而提高整体模型的实用性和准确性。
2)残差建模:残差建模是构建混合模型的一种重要方法。在面对未知的物理机理和观测误差时,基于领域物理知识的数值机理模型在实际应用中难以完全准确地描述现实物理系统,因此其输出结果会存在不可避免的误差。然而,深度学习模型具有复杂函数逼近的能力,可以对数值模型的误差进行回归。基于这一原理,可以构建残差建模框架来弥补模型误差。
有学者针对数值天气预报模型在降水预测任务中存在的系统偏差问题,利用空间信息和大气环流变量作为辅助预测因子,使用CNN对数值模型的残差进行建模,通过其对空间信息的提取能力,有效改进了数值机理模型在预测任务中的RMSE;
有学者采用CFD和深度学习模型交替计算时间序列并监测第一原理残差的混合方法,两者的交叉点可以由第一原理的物理信息确定。通过进行中间CFD 模拟,始终如一地防止深度学习模型预测的时间序列中的残差超过公差,网络参数可以在最新的CFD 时间序列数据中使用类似的变量拓扑更新,包括参数更新时间在内,混合模型的仿真速度得到了较大提升。
这些研究表明残差建模是直接解决基于物理的模型的缺陷的有效方法。当数值机理模型无法捕捉所有复杂非线性关系时,深度学习模型能通过学习这些差异来提供更精确的预测结果。残差模型通过校正数值机理模型的系统误差,不仅提升了特定数据集上的表现,还增强了对新或未见数据的适应能力。尽管深度学习模型容易受到过拟合的影响,但在残差建模中,其主要关注预测物理模型的残差,这种专注性降低了过拟合的可能性,并提高了模型的稳定性和可靠性。
与完全基于数据驱动的模型相比,残差模型通常需要较少的计算资源,因为物理模型提供了一个近似解决方案,深度学习模型只需调整这些解决方案以适应特定的误差模式。这种方法增强了模型在不同环境中的应用灵活性和鲁棒性,为处理复杂的实际问题提供了一种有效的技术路线。
然而,在使用深度学习模型进行残差建模时需谨慎。例如在某些情况下,动态系统可能需要保持稳定或状态需为非负。如果没有对残差模型施加额外的约束,深度学习模型的过度灵活性可能导致不良行为。此外,这种方法旨在模拟由物理模型产生的误差,而不是直接预测某些物理量,无法强制执行基于物理系统内部状态的更广泛约束,不能提供与已知物理定律绝对一致的预测。该方法仍然需要大量的训练数据,因此无法解决数据稀缺性的挑战。
总之,物理引导的混合模型方法通过整合基于物理的模型和深度学习模型,充分利用两者的优势,增强模型的物理意义和实用性。研究者可通过利用数值机理模型的结构性和深度学习的灵活性,改进各领域对物理知识或自然物理系统机理的应用。尽管如此,混合模型的发展仍面临诸多挑战,包括提高模型可解释性、保证决策透明度及实现绝对物理一致性等。面对这些挑战,可尝试在构建深度学习残差模型的过程中利用物理引导方法融入物理信息。
案例
(1)一个简单地将先验引入深度学习损失函数的例子(机械疲劳损伤预测)
损失函数主要用于模型的训练阶段,每个批次的训练数据发送到模型中后,通过前向传播输出预测值,然后损失函数计算预测值与真实值之间的差,即损失值。在获得损失值后,模型通过反向传播更新各种参数,以减少真实值和预测值之间的损失,使模型生成的预测值接近真实值方向,从而达到学习的目的。标准损失函数用于评估数据驱动模型中输出值和实际值之间的不一致性,常用的MSE损失函数如下:
Miner理论认为,材料在交变载荷作用下,都有一定的寿命,应力每循环一次,就会对材料造成微量损伤,这种损伤是不可逆且逐渐积累的。然而,数据模型的性能受到训练数据集数量少和缺乏关于真实世界过程物理信息的限制,预测结果可能违背疲劳损伤不可逆这一物理知识。通过堆叠更多的层和使用更多的训练数据来扩展当前的深度学习技术只能从表面上缓解其中的一些问题。这些所代表的范围非常有限,无法解决深度学习模型更根本的问题,即缺乏与真实物理模型的联系。为了解决这个问题,提出了一种物理引导损失函数作为指导,以实现预测结果与物理知识的一致性。如下所示:
i表示当前样本,n表示样本总数,Γ( A,B) 是一个状态指示符函数。当 A 小于B时,函数输出1,否则输出 0。输出1时表示违反了物理定律,即机械系统的疲劳损伤应是不可逆的,损伤差值
应为非负,且违反程度定义为
输出 0 时表示模型的训练方向符合物理约束。
通过将物理约束编码到网络训练的损失函数中,在方程中构造了复合损失函数,损失函数的第一项强制对从测试中收集的实验数据进行数据拟合,第二项强制神经网络与物理知识保持一致,引入惩罚因子来保持数据拟合和物理约束之间的平衡通常被称为软约束方法。通常,较小的值不能保证物理约束,而较大的值将使解决方案更好地遵守物理约束。然而,值过大可能会使优化问题变得难以收敛。
(2)
将信号进行小波包分解的过程本质上是一个小波函数的低通、高通滤波器与数字信号之间进行卷积运算的过程,这里的卷积运算有别于卷积神经网络层中的“卷积”操作,是数学定义上的运算操作,这点在很多文章中都有体现。下图举例说明了在卷积神经层和数学定义中卷积操作的异同。从图中可以发现,通过反转卷积核的权值顺序,两者之间的卷积操作可以很容易地进行切换,如果将图(a)中卷积核参数的位置进行翻转,将K3处在原先的K0的位置,K2处在原先的K1的位置,K1处在原先K2的位置,K0在原先的K3的位置,那么图(a)中的卷积结果便会等于图(b)的结果,反之亦然。在了解卷积神经网络层能以翻转卷积核参数的方式实现数学意义上的卷积运算后,很自然地联想到可以利用一维卷积神经层来实现对输入信号的小波包变换。
考虑到小波包变换与卷积神经网络层在实现细节上的相似性,可以构建一种特殊的卷积神经网络层,来实现原始信号在分类模型内部的时频域转换。将小波包变换以卷积层的形式植入神经网络结构中的目的不仅是为了提高分类方法的整体性和可植入性,更是考虑到卷积层能够通过梯度反向传播算法自主训练,从而赋予时频域分析方法自适应诊断任务、提升分解质量、增强与分类模型的适应度等重要能力。
小波包系数是通过信号序列与两个小波滤波器进行卷积运算获得的,现假设已经选定好了一个小波函数,并且它的小波滤波器系数的长度为2 ,则一个单层的小波包变换可以下图形式实现。
为了实现图中的多层小波包变换过程,需要将图上图中的一维卷积层改成递归一维卷积层的形式,即不断地将原始输出重新反馈回卷积层结构中,并不断生成下一层分解系数。
当信号需要进行p层的小波包分解时,一维卷积层的递归次数要设定为p次,上图中的递归一维卷积层每次运算后的输出数量都会变成输入数量的两倍,这点与常见的递归卷积层不同,但并不额外增加编程实现的难度。
关于小波卷积神经网络
小波卷积神经网络的思想是采用小波激活函数,通过小波函数的伸缩平移来逼近那些非平稳信号中尖锐变化部分,从而更为真实地反映原信号在某一时间尺度上的变化。此外,想要对时间序列得到更好拟合,需要得到时间序列振幅和相位两方面的信息,就要选择复值小波,因为复值小波具有虚部,可以对相位进行很好地表达。
1.离散仿射小波网络模型。思想是将离散小波变换引入神经网络模型,通过对Sigmoid 函数的平移伸缩构成L^2 (R)中的仿射框架,进而构造小波神经网络。
2.小波元代替神经元,即用已定位的小波函数代替Sigmod 函数作激活函数,通过仿射变换建立起小波变换与网络系数之间的联接,并应用于函数逼近。
3.采用正交小波函数作为神经元的激活函数,即正交多分辨小波神经网络。依据多分辨率分析理论,把尺度函数和小波函数共同包含在网络中,并采用逐级学习的方法来训练网络。即先在粗分辨率下(尺度函数)对信号进行逼近,而后由粗到细逐渐增加结点(小波函数)。由于正交小波基具有良好的时-频分辨性能,当信号剧烈突变时,网络可增加分辨尺度来保证逼近的精度。此外,由于各函数基的相互正交性,训练过程中添加、删除网络结点不影响已训练好的网络权值,可使网络学习的时间大大缩短。
(3)关于线调频小波CNN的可解释性故障诊断
针对当前机械故障智能诊断缺乏可解释性的现状,可以将视角投向具有明显物理意义的传统信号处理方法。传统信号处理方法和神经网络相结合的方向已涌现出不少成果,信号处理赋能神经网络是其中的代表性工作。这类网络融入了传统信号处理方法的先验知识,且将信号处理方法的重要变量设为网络可训练参数,解决了传统诊断方法参数优化难的问题,在机械故障诊断任务中通常能够取得更为优异的诊断表现。
信号处理方法是具有明确的物理意义,这类网络通过梯度传播对嵌入其中的信号处理方法的重要变量进行优化,这些优化后的变量一方面提高神经网络的故障诊断能力,另一方面也能够借助信号处理理论进行分析,获取优化变量背后对应的物理意义,从而实现对网络的解释。
线调频核函数与正弦核函数、Morlet小波核函数的时域图和频谱图如下图 所示。
Morlet核函数
线调频核函
由频谱图可知,3种核函数均可视为带通滤波器,但在滤波特性上存在显著差别。正弦核函数仅通过频率因子f来调整滤波器中心频率,滤波带宽则保持恒定;Morlet小波核函数则通过尺度因子s对滤波特性进行调控,低频带宽小,高频带宽大;线调频小波核函数则通过频率因子f独立调整滤波器中心频率,通过线性调频因子α独立调整滤波器的带宽。因此,相比于正弦核函数和Morlet小波核函数,线调频小波核函数的滤波器中心频率和带宽均可独立调节,更具灵活性。
卷积层的卷积过程是卷积核和输入样本的滑动内积过程,这等价于信号处理领域中的有限冲激响应FIR滤波过程,其中卷积核对应FIR滤波器,输入样本为待滤波信号。基于卷积核和FIR滤波器的对应关系,对卷积核进行适当长度的补零后进行快速傅里叶变换并取模,可得到卷积核滤波过程的幅频响应。考虑到卷积层包含多个通道,因此可以计算出单通道卷积核的幅频响应,并在通道维度上进行平均,得到综合幅频响应。
线调频卷积层本质上是中心频率和带宽可学习的多个带通滤波器,不同通道对信号不同频带进行滤波,其输出为多个滤波子信号的拼接。将 线调频卷积层作为预处理层与基准CNN相结合,也就是在基准 CNN 的数据入口处增加一个多通道带通滤波器,当然这个多通道带通滤波器是在整个神经网络框架中的,滤波器的中心频率和带宽由神经网络的 BP 过程进行参数更新。在振动信号中,故障类别信息存在于特定的频带中,即故障信息频带,这些频带能够有效区分各类故障。可以给基准 CNN 添加可学习、可调整的带通滤波器组,即线调频卷积层。基准CNN以提高故障诊断准确率为目标,当带通滤波器组与故障信息频带对应时则获得正反馈,反之与故障无关频带对应时则获得负反馈。网络训练过程使得带通滤波器的中心频率和带宽逐渐与数据集故障信息频带相对应,从而在提高故障表现的同时,也揭示了神经网络模型对数据集不同频带的关注,一定程度上地实现对神经网络这一“黑箱”模型的间接解释。
综合幅频响应可以表征卷积层对于数据集在频域上的关注侧重,即幅频响应中的峰值频率受卷积层的高度关注,携带着重要的类别信息;反之,幅频响应谷值频率则不被卷积层关注,说明该频率的信息与类别特征无关。
将线调频变换融入CNN的卷积层,能够给“黑箱模型”的CNN引入物理层面的可解释性,即通过幅频响应分析方法,可以揭示卷积神经网络提取类别特征和做出判断的频带依据。
以CWRU数据集里负载为3HP工况、采样频率为12kHz的振动信号作为输入样本,对Backbone-CNN 、SincNet、Morlet-WKN和Chirplet-CNN 进行训练。为了得到清楚的模型可解释效果,四类模型的预处理层通道数均设置为 8,其他的试验设置与之前一致。
在完成模型训练后开展卷积层幅频响应分析,得到的数据集振动信号的频谱和模型卷积层的幅频响应如下图所示。
从数据集频谱图a中可知,频谱幅值主要存在于四个频带中,这些频带包含重要的故障类别信息,一个良好的故障诊断模型应该重点关注这些频带,以获得更好的诊断准确率。从模型卷积层的幅频响应图 b~f 可知如下。
(1) 训练后的Backbone-CNN无明显的频响幅值变化,训练后的 Rondom-CNN 仅在频带 4 有明显幅值上升,从而说明作为基准的 Backbone-CNN 和Rondom-CNN 对振动信息提取是不充分的。
(2) 训练后的 SincNet 在频带 1、2、3、4 上均存在明显的幅值峰。说明 SincNet 在训练过程中有效地关注了数据集的信息频带,提取了部分故障分类的相关特征,因此得到了较好的准确率表现。但由于SincNet的核函数只能通过频率因子f调节各通道的中心频率,并不能调节各通道的带宽,所以SincNet 在没有信息分布的高频段仍然存在2个幅值峰,与数据集频谱并非完全吻合。
(3) 训练后的Morlet-WKN在频带 2、3、4 上存在明显的幅值峰,与 Morlet-WKN 在故障诊断中的良好表现相对应。但由于 Morlet 小波具有可变时频窗口的特点,其低频分辨率过于密集而在高频分辨率则过于稀疏,Morlet-WKN 很难具有一个良好的解释效果。
(4) 训练后的 Chirplet-CNN 在频带 1、2、3、4上存在明显的幅值峰和训练变化,表明Chirplet-CNN 很好地关注了数据集的信息频带。Chirplet 核函数不仅能够通过频率因子 f 改变滤波器频率,还能通过线性调频因子α 间接改变滤波器带宽,所以在没有数据集信息的通道中,Chirplet-CNN 可通过调整α 来使得滤波器带宽增大,间接性地降低该通道的频响幅值。因此,Chirplet-CNN 的幅频响应并未如 SincNet 一样,在高频段存在与数据集不相关的 2 个幅值峰,其幅频响应和数据集频谱完全符合,具有良好的物理可解释性。
将时频变换方法融入卷积神经网络的操作,在提高模型诊断能力的同时,也为不可解释的神经网络引入了物理可解释性。通过分析网络学习到的参数,获取背后的物理含义,实现对网络的解释,是一条可行的思路。
原文地址:https://blog.csdn.net/Angelina_Jolie/article/details/143901774
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!