Advanced Engineering Informatics • Volume 65 • 2025 • Article 103297

持续对比强化学习(CCRL)

面向故障类别高度不平衡场景,通过长期优化构建更强的环境感知商用航空发动机故障诊断智能体。

持续学习对比学习深度强化学习不平衡分类高度不平衡场景航空发动机 PHMACARS + CNR

作者

Haoze Wu; Shisheng Zhong; Minghang Zhao; Xuyun Fu; Yongjian Zhang; Song Fu

作者单位

  • a. School of Mechatronics Engineering, Harbin Institute of Technology, Harbin 150001, China
  • b. Department of Mechanical Engineering, Harbin Institute of Technology, Weihai 264209, China
  • c. Weihai Key Laboratory of Intelligent Operation and Maintenance, Harbin Institute of Technology, Weihai 264209, China

核心思想

持续对比强化学习(CCRL)结合了“面向类别不平衡的奖励设计”与“不依赖新样本生成的对比学习”,以应对故障诊断中正常样本与故障样本高度不平衡的问题。通过在强化学习中提升少样本故障状态的奖励权重,智能体能够在在线交互与增量更新过程中持续关注关键故障模式,并适应发动机运行阶段与工况的变化。同时,通过对比学习损失函数的调整,在不引入额外合成样本的前提下充分利用既有不平衡时间序列数据,实现“增大类间差异、减小类内差异”的表征学习目标。

CCRL 速览

针对航空发动机故障诊断中的类别高度不均衡问题,CCRL 将对比学习驱动的 Agent 引入 D3QN 框架,通过不依赖样本生成的特征区分与不平衡奖励机制,实现稳定有效的故障识别,并在真实诊断场景与消融实验中得到验证。

CCRL 整体流程示意图(图 2)
图 2:CCRL 交互闭环(智能体、环境、经验、维护)。

问题

航空发动机故障诊断面临类别高度不平衡、小样本故障以及运行环境非平稳等挑战,传统对比学习方法依赖样本扩增,在时间序列场景下难以保证物理一致性。

思路

通过对比学习增强特征区分能力,并结合带不平衡奖励设计的 D3QN,实现对少样本故障类型的稳定识别。

输入数据

起飞时刻的ΔEGT(排气温度偏差)、ΔN2(核心转速偏差)、ΔFF(燃油流量偏差)和 N1(风扇转速)。

故障类型

涵盖 VBV 系统故障、EGTI 故障、TAT 传感器故障以及正常航班状态。

总体概述

摘要

航空发动机故障发生频率低,但一旦发生可能造成灾难性后果。传统数据驱动诊断方法通常依赖有限的历史故障样本,在环境变化和监测数据持续增长的条件下难以及时更新模型。CCRL 将环境交互与持续动态演化相结合,用于解决高度不平衡且数据不断增长条件下的航空发动机故障诊断问题。航空公司运行环境被视为学习环境,飞行数据作为状态,专家或地面确认的故障类型作为标签。CCRL 通过在大量正常样本上进行预训练,并利用真实正负故障样本对进行微调,设计了适用于高度不平衡场景的对比学习编码器;随后将该编码器嵌入强化学习模型中,以提升环境感知能力和故障区分能力。基于真实数据的对比实验和消融实验验证了该方法在工程应用中的潜力。

关键概念

持续强化学习对比表示学习时间序列度量学习环境感知故障诊断非平稳监测稀有故障检测长尾分类PHM 决策支持航空维修流程ACARS 报文状态通知报告(CNR)VBV / EGTI / TAT气路性能偏差LSTM 编码器自编码器预训练不平衡奖励塑形D3QN 智能体

论文信息

题目
持续对比强化学习:面向高度不平衡场景下通过长期优化实现航空发动机环境感知故障诊断的更强智能体
期刊
Advanced Engineering Informatics
PyPI
ccrl
关键词
航空发动机故障诊断;持续对比强化学习;环境感知;监测数据增长

工程实践意义

  • 面向真实航空公司运行场景设计,可随新航班数据持续更新。
  • 无需合成时间序列数据即可应对极端类别不平衡问题。
  • 通过加权对比学习提升稀有故障的判别表示能力。
  • 针对不平衡类别的奖励塑形机制提升长尾故障的决策性能。

方法

CCRL 将特征区分模块(基于自编码器预训练的对比学习)与类型识别模块(带不平衡奖励的 D3QN)相结合,形成统一且可持续更新的诊断流程。

1)环境感知的持续学习闭环

将航空公司运行流程视为学习环境。每次飞行结束后,传感器数据通过 ACARS 传输并存储。智能体预测故障类型,并与专家确认结果进行评估,随后基于不断增长的经验库进行持续学习,实现长期优化。

2)特征区分模块

不同于时间序列数据增强方法,CCRL 通过同类故障样本构建正样本对,不同故障类型样本构建负样本对。为缓解故障样本稀缺问题,编码器首先在大量正常样本上采用 LSTM 自编码器进行预训练,然后在加权对比损失下进行微调,以学习高度不平衡场景下具有判别力的表示。

3)类型识别模块

冻结后的对比学习编码器作为特征提取器输入至 Dueling Double Deep Q Network(D3QN)。通过按类别逆频率缩放奖励,强化稀有故障(长尾类别)的学习,从而提升不平衡条件下的故障识别能力。模型结合经验回放和目标网络实现稳定的 Q 学习。

面向时间序列故障诊断的对比学习演进

在传统 SimCLR 框架中,对比学习依赖数据增强来构造正样本对。然而,航空发动机时间序列数据缺乏理论基础以保证增强操作能够保持故障的物理特性。本文提出从标准自监督损失向不平衡感知加权损失的转变。

公式 1:标准 NT-Xent 损失(SimCLR)
li,j=log(exp(sim(zi,zj)/τ)k=12N1[ki]exp(sim(zi,zk)/τ))l_{i,j} = -\log\left(\frac{\exp(\operatorname{sim}(z_i, z_j)/\tau)}{\sum_{k=1}^{2N} \mathbb{1}_{[k \neq i]} \exp(\operatorname{sim}(z_i, z_k)/\tau)}\right)

局限性: 该损失将所有其他样本视为等价负样本,并隐含数据集均衡假设,导致模型容易忽略稀有发动机故障。

公式 2:提出的不平衡感知加权损失
L=1Pi=1Pwplog(exp(sim(zi,zj)/τ)exp(sim(zi,zj)/τ)+kiexp(wnsim(zi,zk)/τ))L = -\frac{1}{P} \sum_{i=1}^{P} w_p \log\left(\frac{\exp(\operatorname{sim}(z_i, z_j)/\tau)}{\exp(\operatorname{sim}(z_i, z_j)/\tau) + \sum_{k \neq i} \exp\left(w_n \cdot \operatorname{sim}(z_i, z_k)/\tau\right)}\right)

优化点: 引入正样本权重 wpw_p 以增强稀有故障的聚类效果,并通过负样本权重 wnw_n 降低占主导地位的“正常”类别干扰。

符号说明

  • τ\tau相似度 logits 的温度缩放因子。
  • sim(zi,zj)\operatorname{sim}(z_i, z_j)潜在向量 z_i 与 z_j 之间的余弦相似度。
  • wpw_p用于强调稀有故障的正样本对权重。
  • wnw_n用于降低主导类别(如正常)影响的负样本对权重。
  • PP一个批次中正样本锚点对的数量。

技术实现细节:

  • 物理一致性: 采用同一故障类型的不同真实样本构造样本对,而非合成增强,从而保证模型学习真实的传感器模式。
  • 编码器预训练: 首先在大量正常数据上训练 LSTM 自编码器,以捕获发动机的基线动态特性,再在加权损失下进行微调。
  • 特征区分: 通过设置不同权重,使模型优先分离高度不平衡的故障类别(VBV、EGTI、TAT)。

框架流程示意图

特征区分模块示意图(图 3)

图 3:自编码器预训练与加权对比学习流程。首先仅采用正常样本训练自编码器学习样本的基本特征,然后训练对比学习网络。

信号与故障类型

输入

ΔEGT、ΔN2、ΔFF、N1 的 10 个航班窗口时间序列。

类别

正常、VBV 系统故障、EGTI、TAT 传感器故障。

部署目标

在高度类别不平衡场景下实现稳健的航空发动机故障诊断,并持续适应逐步演化的运行环境。

实验结果

在重复随机划分条件下,将 CCRL 与采用下采样(DS)和上采样(OS)的 D3QN 基线方法进行对比评估。主要目标是实现 类别高度不平衡条件下的稳健航空发动机故障诊断,持续自适应能力为次要目标。

F1 值

84.26 ± 4.62

多次重复实验中的最佳整体 F1 表现。

精确率

87.19 ± 4.34

在不平衡条件下显著减少误报。

召回率

84.00 ± 4.77

对少数类故障具有更强识别能力。

验证内容

  • 不平衡诊断: 针对长尾故障类别的不平衡诊断能力得到验证。
  • 无需额外样本: 在不增加样本数量的情况下实现性能提升。
  • 稳定性: 在多次随机划分实验中表现出更低的性能方差。
  • 网络结构合理性: 消融实验验证了所提出各模块设计的合理性。

实验设置

任务

在严重类别不平衡条件下进行多类别航空发动机故障诊断(长尾故障与大量正常样本)。

对比方法

D3QN、DS + D3QN、OS + D3QN(重复随机划分)。

评价指标

F1、精确率、召回率(均值 ± 标准差),重点关注少数类性能。

关键验证结论

在极端不平衡条件下实现更优的故障可分性和决策学习能力,持续演化能力为次要贡献。

结果表

多次重复实验的均值 ± 标准差
方法F1(均值 ± 标准差)精确率(均值 ± 标准差)召回率(均值 ± 标准差)
D3QN77.19 ± 3.8180.71 ± 4.1576.75 ± 3.88
DS + D3QN68.15 ± 9.2671.05 ± 9.1068.00 ± 9.14
OS + D3QN74.38 ± 5.0781.20 ± 3.6674.00 ± 4.90
CCRL84.26 ± 4.6287.19 ± 4.3484.00 ± 4.77

结果解读:下采样因信息损失而降低性能;上采样提升召回率但稳定性不足;CCRL 在各指标之间取得最佳平衡。

主要结论

  • CCRL 在不增加样本数量的情况下显著提升少数类故障识别能力。
  • 更高的精确率意味着在工程部署中误报更少。
  • 更低的性能波动表明模型在随机划分下具有更强鲁棒性。

消融实验结论

  • 对比特征学习 在不平衡条件下显著增强类别可分性。
  • 不平衡奖励机制 稳定稀有故障的决策学习过程。
  • 完整流程 完整 CCRL 框架在性能和稳定性上均表现最佳。

训练动态

与 DS/OS 基线相比,CCRL 表现出更平滑的收敛过程和更稳定的奖励变化。

训练过程中损失和测试奖励变化情况(图 12)

图 12:不同方法的训练损失与测试奖励变化。

错误模式

混淆矩阵显示基线方法易将稀有故障误判为正常状态,而 CCRL 明显缓解了该问题。

测试集上四种方法的混淆矩阵(图 15)

图 15:混淆矩阵展示了不同方法对稀有故障的误判情况。

图片速览

图 2
图 2 CCRL 整体流程与环境交互闭环。
图 3
图 3 特征区分模块:自编码器预训练与加权对比学习。
图 5
图 5 发动机结构以及传感器数据采集与转换背景。
图 6
图 6 飞行序列采样与数据集构建(滑动时间窗)。
图 12
图 12 训练损失与测试奖励变化轨迹。
图 15
图 15 CCRL 与基线方法的混淆矩阵对比。

文章影响

以下为引用本文的代表性工作。

Advanced Engineering Informatics

融合多模态非高斯去噪扩散生成对抗网络的故障诊断数据增强方法

在实际工业环境中,故障数据的获取远比健康数据困难,小样本与严重类别不平衡已成为故障诊断中的核心挑战。

Energy

嵌入物理约束的传播与演化图方法用于航空发动机多因素耦合深度故障诊断

Wu 等人结合深度迁移学习、强化学习与持续对比强化学习,实现了航空发动机故障诊断与维修策略优化。

Mathematics

基于条件变分自编码器的航空燃油泵故障诊断与自适应少样本增强方法

类别不平衡会使监督学习模型偏向多数类,导致少数类识别性能差、误报率高以及决策边界不清晰。

Measurement

面向域偏移的航空发动机虚拟传感器模型构建:特征对齐与时空域自适应策略

Wu 等人提出了一种面向高度不平衡数据环境的鲁棒代理建模框架,强调域自适应与表示对齐。

IEEE Transactions on Instrumentation and Measurement

一种面向类别不平衡条件下齿轮箱跨工况故障诊断的有效框架

通过将对比学习嵌入强化学习中,智能体能够更好地感知环境变化,并在类别不平衡条件下提升诊断鲁棒性。

Journal of Mechanical Engineering and Sciences

基于模型的深度确定性策略梯度技术的智能喷气发动机控制器开发

强化学习技术,包括持续对比学习与自适应滤波,在高度不平衡和运行工况突变条件下增强了航空发动机故障检测能力。

引用

如果本研究对您有帮助,请引用该论文。

BibTeX

@article{wu2025ccrl,
  title   = {Continual contrastive reinforcement learning: Towards stronger agent for environment-aware fault diagnosis of aero-engines through long-term optimization under highly imbalance scenarios},
  author  = {Wu, Haoze and Zhong, Shisheng and Zhao, Minghang and Fu, Xuyun and Zhang, Yongjian and Fu, Song},
  journal = {Advanced Engineering Informatics},
  volume  = {65},
  pages   = {103297},
  year    = {2025},
  doi     = {10.1016/j.aei.2025.103297},
  url     = {https://doi.org/10.1016/j.aei.2025.103297}
}

联系方式

如有合作、咨询或复现实验需求,请联系通讯作者。

联系邮箱

Shisheng Zhong: zhongss#hit.edu.cn
Minghang Zhao: zhaomh#hit.edu.cn

致谢

本研究得到国家重点研发计划(2023YFB4302400)资助。