原始研究的文章gydF4y2Ba

前面。第一版。科学。,25January 2023
秒。软件gydF4y2Ba
卷4 - 2022 |gydF4y2Ba https://doi.org/10.3389/fcomp.2022.1007665gydF4y2Ba

故障检测方法基于敌对的强化学习gydF4y2Ba

吕林涛、李军怀等gydF4y2Ba ^1gydF4y2Ba,gydF4y2Ba

吴YunwengydF4y2Ba ^1gydF4y2Ba,gydF4y2Ba

王HuaijungydF4y2Ba^1gydF4y2Ba ^*gydF4y2Ba和gydF4y2Ba

徐姜gydF4y2Ba^2gydF4y2Ba

^1gydF4y2Ba计算机科学与工程学院、西安理工大学、西安,中国gydF4y2Ba
^2gydF4y2Ba中国重型机械研究院有限公司,西安,中国gydF4y2Ba

大规模的工业故障检测是一个重要的任务维护。然而,在实际应用中,由于故障数据的收集,可能带来的伤害导致的故障样本标签通常很少。大多数现有的方法认为培训无监督模式与大量的未标记数据而忽略了丰富的知识,存在于少量的标记数据。充分利用先验知识,本文提出了强化学习模型,即采用强化学习以弱监督(WS-ARL),执行更好的共同学习小标签异常数据和大型无标号数据。我们使用一个代理强化学习模型的故障检测器和添加一个新的环境代理作为样本选择器,通过提供一个相反的两个代理的奖励,他们在一个敌对的环境中学习。验证模型的可行性和有效性,实验分析和比较模型的性能与五个最先进的弱/联合国监管方法液压机故障检测任务。gydF4y2Ba

1。介绍gydF4y2Ba

自德国带头提出的概念”行业4.0,“这标志着制造业的转型的开始,情报和信息技术。近年来,中国、美国和其他国家也提出了2025年“中国制造”的概念和“物联网”,旨在将传统生产模式与现代信息技术来提高生产效率和安全性。预见性维护(PDM)技术被认为是一个关键的数据驱动的分析应用程序在大型制造业。快速增长的复杂性和近年来工业系统自动化,意想不到的系统故障可能会带来严重的财务影响,业务损失,和致命的工伤工厂(gydF4y2Ba谢et al ., 2022gydF4y2Ba)。PDM应用程序可以提前预测失败,以便决策者可以采取适当的行动,如维修、更换,甚至计划关闭(gydF4y2Ba萨哈et al ., 2020gydF4y2Ba)。然而,也有一些问题与数据驱动的应用程序。在工业场景中,有大量的未标记数据容易获得,而故障数据的收集通常是破坏性的,会造成巨大的损失。结果,很少工厂可以遇到故障状态和收集样本训练故障诊断系统(gydF4y2BaKingma et al ., 2014gydF4y2Ba),导致目标失败,没有或较少的数据,因此,无监督方法在这一领域几十年的统治(gydF4y2BaMaale et al ., 2016gydF4y2Ba)。例如,gydF4y2Ba徐et al。(2018)gydF4y2Ba,gydF4y2Ba苏et al。(2019)gydF4y2Ba,gydF4y2Ba崔et al。(2022)gydF4y2Ba,gydF4y2Ba王et al。(2022)gydF4y2Ba使用变分autoencoder (VAE)重建输入数据并确定异常基于重建的可能性。gydF4y2Ba盖革et al。(2020)gydF4y2Ba和gydF4y2Ba金et al。(2021)gydF4y2Ba设计了一个异常探测器基于生成敌对的网络(甘)。gydF4y2Ba

无监督学习模型假设所有训练数据是正常的故障检测和学习紧张的边界(gydF4y2Ba马库斯et al ., 2000gydF4y2Ba)。然而,在实际工业应用中,除了一批大的未标记样本,通常会有一组已知类的故障实例,例如,一个子集验证正常或异常的一些领域专家;异常提供了有价值的先验知识。因此,相对于无监督方法,semi-supervised (gydF4y2Ba高et al ., 2021gydF4y2Ba;gydF4y2Ba吴et al ., 2021gydF4y2Ba学习有效地利用这些标记异常,可以显著提高检测精度。semi-supervised方法之一是假定大量的未标记数据集群是正常的,学会正常的数据在一起而把少量的标签异常数据(gydF4y2Ba刘et al ., 2012gydF4y2Ba;gydF4y2Ba李et al ., 2020gydF4y2Ba)。另一种方法是学习不同的模式不同的类,如深概率生成模型(gydF4y2Ba维诺德•辛顿,2010gydF4y2Ba;gydF4y2Ba之上et al ., 2015gydF4y2Ba)。gydF4y2Ba

大多数相关研究利用少量的标记数据来训练检测模型,但他们只了解标签异常而不考虑可能存在的异常实例在大批量的无标号数据。事实上,在工业故障检测任务,经常有大量的未标记数据异常实例。有效利用这些知识可以显著提高模型的理解异常类型和条件。gydF4y2Ba

因此,对于工业故障检测的问题,如何充分利用标记数据,同时探索无标号数据已成为目前的研究热点。gydF4y2Ba彭日成et al。(2020)gydF4y2Ba提出利用强化学习模型的学习同时标记数据和未标记数据。然而,在高维度将欧氏距离减少算法的可靠性,进一步影响观测样本的选择。灵感来自于gydF4y2Ba彭日成et al。(2020)gydF4y2Ba,本文提出了一种模型,即采用强化学习以弱监督(WS-ARL),我们设计一个额外的代理,通过不断试图减少检测代理的奖励,同时积极探索异常无标号数据,迫使检测代理关注学习最困难的可能的故障样本。给出我们的主要贡献如下:gydF4y2Ba

•我们设计两个代理,即检测代理和一个环境代理,实现故障检测和数据采样在对抗的条件下,分别。除了常规的主要检测代理负责输出检测结果,环境代理是用作下一个选择器观察样本。模型将奖励检测代理根据识别结果,给环境代理完全相反的回报。我们所知,这是第一次,敌对的强化学习应用于弱监督工业故障检测。gydF4y2Ba

•结合示例生成技术和无监督算法,一个独特的奖励函数设计。根据检测代理的行为,标准−1/1奖励监督奖励在采样过量生成标记异常实例集。无标号的实例集,生成异常分数作为一种无监督的奖励。模拟环境中随机抽样,使联合学习小批量的标记数据和一批大型无标号数据。gydF4y2Ba

•我们构建一个模型,即采用强化学习以弱监督(WS-ARL),并评估在液压机故障检测任务。通过设置不同的已知的故障类型和故障污染率,结果表明,与其他模型相比,precision-recall曲线下的面积(AUC-PR)提高约1 - 5%。gydF4y2Ba

2。相关的研究gydF4y2Ba

2.1。异常检测gydF4y2Ba

异常检测(本文中故障检测)是各领域一个活跃的话题。我们研究的问题是工业设备的故障检测时间序列的基础上,如发动机(gydF4y2BaMalhotra et al ., 2016gydF4y2Ba)和液压系统(gydF4y2BaHelwig et al ., 2015gydF4y2Ba)。通过监测多个时间序列(如遥测数据和传感器数据),设备可以检测异常条件。然而,分析单个时间序列分别有很多问题。首先,它是劳动密集型的培训和维护一个单独的异常检测模型为每个指标;其次,操作工程师们更关心比每一个实体组成的整体状态指标(gydF4y2Ba丫et al ., 2019gydF4y2Ba)。因此,在本文中,我们将多个单变量时间序列到多元时间序列分析设备的整体异常数据。gydF4y2Ba图1gydF4y2Ba显示了一个多变量时间序列数据集与液压阀故障机器。gydF4y2Ba

图1gydF4y2Ba

图1gydF4y2Ba。时间序列指标四个温度传感器(TSs)和一个压力传感器(VS)在15年代,用红色突出显示的故障区域(gydF4y2BaHelwig et al ., 2015gydF4y2Ba)。gydF4y2Ba

近年来,最相关的异常检测方法的研究包括弱监督和监督学习。监督学习方法(gydF4y2BaHeras和Donati, 2014gydF4y2Ba;gydF4y2Ba公园et al ., 2017gydF4y2Ba)需要标记数据训练模型,不能识别未知的异常类。事实上,在异常检测任务在许多领域,异常样本通常很难观察和记录,从而导致无监督方法对于大多数任务的需要。gydF4y2Ba苏et al。(2019)gydF4y2Ba提出一个encoder-decoder模型,使用一个封闭的复发性单元(格勒乌)捕获序列信息和识别异常根据重建的可能性。gydF4y2BaZenati et al。(2018)gydF4y2Ba两个网络用于对抗学会学习的潜力空间数据和重建计算错误。上述研究单独表示学习异常检测方法,导致次优的或不稳定的检测性能(gydF4y2Ba彭日成et al ., 2019gydF4y2Ba)。同时,无监督方法不考虑存在少量的带安全标签的数据时,这阻止了进一步提高模型的准确性。gydF4y2Ba

考虑到无监督方法的不足,最新的研究侧重于异常检测基于弱监督和检测精度可以进一步提高了几个标记异常。gydF4y2BaWilletts et al。(2020)gydF4y2Ba结合聚类算法和生成模型来检测异常;gydF4y2BaKingma et al。(2014)gydF4y2Ba应用变分推理问题的弱监督分类和恢复原始数据从低维空间部分标签信息。gydF4y2Ba拉夫et al。(2019)gydF4y2Ba旨在找到一个紧凑的潜在空间中的超球面代表正常样本和异常样本距离的地方。与无监督方法相比,这些semi-supervised方法充分利用少量的标记数据的先验知识,因此,有可能达到更高的性能增益。gydF4y2Ba

目前,深强化学习(DRL)已经证明人类在几个任务能力。一个相关的应用程序异常检测,最近调查gydF4y2Ba吉尔勒莫et al。(2019)gydF4y2Ba,包含环境的行为为入侵检测学习的过程。我们的研究是完全不同的gydF4y2Ba吉尔勒莫et al。(2019)gydF4y2Ba。(a)他们使用DRL实现不均监督学习与我们实现semi-supervised学习少量的标签。(b)他们使用一个简单的1/0奖励函数进行评估,而我们使用两个定制奖励函数应用于不同的代理。另一个相关的研究gydF4y2Ba彭日成et al。(2018)gydF4y2Ba利用几个标签异常了解更多application-relevant特性表征。不同于只使用一个代理(gydF4y2Ba彭日成et al ., 2018gydF4y2Ba)实现样本选择和异常检测,我们分别使用两个代理商来完成这些任务。(a)我们设计新的奖励函数两个代理,并让他们进行对抗性的学习。(b)我们使用环境代理样本选择和证明在低维空间欧氏距离可以更好地衡量样本之间的距离。gydF4y2Ba

2.2。强化学习gydF4y2Ba

作为一种机器学习方法,强化学习的自主学习能力和发展在动态环境中通过试验和错误(gydF4y2Ba萨顿和Barto, 1998gydF4y2Ba)。通过代理与环境之间的相互作用,强化学习模型不需要任何监督过程培训(gydF4y2Ba吉尔勒莫et al ., 2019gydF4y2Ba)。在入侵检测领域的研究已经证明,强化学习是一个更好的选择比监督和非监督学习的数据集是足够大的。gydF4y2Ba

2.2.1。简要介绍强化学习gydF4y2Ba

强化学习(gydF4y2Ba萨顿和Barto, 1998gydF4y2Ba)是一种机器学习方法包括代理行为,环境,和奖励。开始时间gydF4y2BatgydF4y2Ba,代理执行一个动作gydF4y2Ba一个gydF4y2Ba_tgydF4y2Ba在环境中,环境生成一个奖励gydF4y2BargydF4y2Ba_tgydF4y2Ba,表示为一个国家gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba,并且模型学习,递归地喂养这种状态回代理。gydF4y2Ba

强化学习的目标是找到一个最大化的政策π奖励的方程(1)。gydF4y2Ba

\begin{array}{l} {RgydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {\sumgydF4y2Ba}_{kgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba}^{∞gydF4y2Ba} {γgydF4y2Ba}_{kgydF4y2Ba} {τgydF4y2Ba}_{tgydF4y2Ba} +gydF4y2Ba κgydF4y2Ba & (gydF4y2Ba 1gydF4y2Ba)gydF4y2Ba \end{array}

在哪里gydF4y2BaRgydF4y2Ba_tgydF4y2Ba代表累积获得的回报的总和时间t的代理之后任何时间步长;γ∈(0,1)表示折现系数;τgydF4y2Ba_tgydF4y2Ba+κ代表在每个时间步后获得的奖励时间t。强化学习定义的值函数计算累计回报的期望值在每一步的状态gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba,也就是说,它是用来测量的优缺点gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba的影响下代理。价值函数方程(2)所示:gydF4y2Ba

\begin{array}{l} {VgydF4y2Ba}^{πgydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba)gydF4y2Ba =gydF4y2Ba EgydF4y2Ba (gydF4y2Ba {RgydF4y2Ba}_{tgydF4y2Ba} |gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba 年代gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 2gydF4y2Ba)gydF4y2Ba \end{array}

函数的值取决于代理人的政策π。在所有可能的功能,存在一个最优值函数值作为最高的方程(3),(4):gydF4y2Ba

\begin{array}{l} {VgydF4y2Ba}^{*gydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba)gydF4y2Ba =gydF4y2Ba {马克斯gydF4y2Ba}_{πgydF4y2Ba} {VgydF4y2Ba}^{πgydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 3gydF4y2Ba)gydF4y2Ba \end{array}

\begin{array}{l} {πgydF4y2Ba}^{*gydF4y2Ba} =gydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba {马克斯gydF4y2Ba}_{πgydF4y2Ba} {VgydF4y2Ba}^{πgydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 4gydF4y2Ba)gydF4y2Ba \end{array}

在πgydF4y2Ba^*gydF4y2Ba最优政策功能的可实现的行动价值最大化状态gydF4y2Ba年代gydF4y2Ba。为了方便起见,强化学习建立一个函数调用gydF4y2BaQfunctiongydF4y2Ba一个状态和行动对作为输入,输出一个奖励的价值。因此,πgydF4y2Ba^*gydF4y2Ba成为方程(5)。gydF4y2Ba

\begin{array}{l} {πgydF4y2Ba}^{*gydF4y2Ba} =gydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba {马克斯gydF4y2Ba}_{一个gydF4y2Ba} {问gydF4y2Ba}^{*gydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 5gydF4y2Ba)gydF4y2Ba \end{array}

在哪里gydF4y2Ba问gydF4y2Ba^*gydF4y2Ba代表了gydF4y2Ba问gydF4y2Ba可以获得的最优值。gydF4y2Ba

2.2.2。深的q学习算法gydF4y2Ba

q学习的沃特金斯在1989年提出的一个值基于函数的算法可以获得期望的好处gydF4y2Ba问gydF4y2Ba函数执行某个操作时的状态(gydF4y2BaValenzuela et al ., 2013gydF4y2Ba)。q学习提供了一个学习的学习和更新一个新的代理gydF4y2Ba问gydF4y2Ba值迭代,如公式(6)所示:gydF4y2Ba

\begin{array}{l} {问gydF4y2Ba}^{ngydF4y2Ba egydF4y2Ba wgydF4y2Ba} (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba})gydF4y2Ba \leftarrowgydF4y2Ba,gydF4y2Ba \\ (gydF4y2Ba 1gydF4y2Ba - - - - - -gydF4y2Ba αgydF4y2Ba)gydF4y2Ba 问gydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba})gydF4y2Ba +gydF4y2Ba αgydF4y2Ba (gydF4y2Ba {rgydF4y2Ba}_{tgydF4y2Ba} +gydF4y2Ba γgydF4y2Ba {马克斯gydF4y2Ba}_{一个gydF4y2Ba} 问gydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba},gydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba})gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 6gydF4y2Ba)gydF4y2Ba \end{array}

的过程中连续状态gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba过渡,gydF4y2Ba问gydF4y2Ba值是不断更新。在方程(6),α∈(0,1)代表了学习速率,和更高的学习速率可以加快学习过程,但也可能损失更多的信息。gydF4y2Ba

深q学习(DQN)结合了神经网络和q学习,填补这些差距的q学习的无限等复杂问题的状态空间。DQN近似最优gydF4y2Ba问gydF4y2Ba通过深层神经网络功能,如方程(7)所示:gydF4y2Ba

\begin{array}{l} 问gydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba;gydF4y2Ba θgydF4y2Ba)gydF4y2Ba =gydF4y2Ba {问gydF4y2Ba}^{*gydF4y2Ba} (gydF4y2Ba 年代gydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba)gydF4y2Ba & (gydF4y2Ba 7gydF4y2Ba)gydF4y2Ba \end{array}

通过反复的训练,学习以下损失最小化参数θ:gydF4y2Ba

\begin{array}{l} \begin{matrix} {lgydF4y2Ba}_{jgydF4y2Ba} (gydF4y2Ba {θgydF4y2Ba}_{jgydF4y2Ba})gydF4y2Ba,gydF4y2Ba =gydF4y2Ba {EgydF4y2Ba}_{(gydF4y2Ba 年代gydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba,gydF4y2Ba rgydF4y2Ba,gydF4y2Ba 年代gydF4y2Ba^{′gydF4y2Ba})gydF4y2Ba \overset{~gydF4y2Ba}{} UgydF4y2Ba (gydF4y2Ba εgydF4y2Ba)gydF4y2Ba} \\ (gydF4y2Ba (gydF4y2Ba rgydF4y2Ba +gydF4y2Ba γgydF4y2Ba {马克斯gydF4y2Ba}_{一个gydF4y2Ba} 问gydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba^{′gydF4y2Ba},gydF4y2Ba 一个gydF4y2Ba^{′gydF4y2Ba};gydF4y2Ba {θgydF4y2Ba}_{jgydF4y2Ba}^{- - - - - -gydF4y2Ba})gydF4y2Ba - - - - - -gydF4y2Ba 问gydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba,gydF4y2Ba 一个gydF4y2Ba;gydF4y2Ba {θgydF4y2Ba}_{jgydF4y2Ba})gydF4y2Ba)gydF4y2Ba]gydF4y2Ba \end{matrix} & (gydF4y2Ba 8gydF4y2Ba)gydF4y2Ba \end{array}

其中ε是代理的学习经验,每个元素存储为gydF4y2BaegydF4y2Ba_tgydF4y2Ba= (gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba,gydF4y2Ba一个gydF4y2Ba_tgydF4y2Ba,gydF4y2BargydF4y2Ba_tgydF4y2Ba;gydF4y2Ba年代gydF4y2Ba_{tgydF4y2Ba+ 1gydF4y2Ba}),该模型将使用小批量样品随机选择从经验集计算损失;θgydF4y2Ba_jgydF4y2Ba的参数吗gydF4y2Ba问gydF4y2Ba网络gydF4y2BajgydF4y2Ba迭代过程;目标网络的参数gydF4y2Ba ${θgydF4y2Ba}_{jgydF4y2Ba}^{- - - - - -gydF4y2Ba}$ 负责计算每一轮的目标价值和更新吗gydF4y2Ba ${θgydF4y2Ba}_{jgydF4y2Ba}^{- - - - - -gydF4y2Ba}$ 由θgydF4y2Ba_jgydF4y2Ba在每一个gydF4y2BaKgydF4y2Ba的一步。gydF4y2Ba

DQN可以学习策略从大量的高维原始数据有更好的准确性和稳定性,结合深度学习的强大的表现能力和强大的强化学习的决策能力。因此,在本文中,我们使用一个版本的DQN适应实施环境检测代理和代理,分别。通过并行训练在敌对的环境中,我们明智地选择训练样本和专注于探索异常样本。gydF4y2Ba

3所示。方法gydF4y2Ba

工业故障检测的困难主要是所有关于数据的数据。首先,手工标记的数据是一项不可能完成的任务,大量的工业传感器数据不断更新。虽然无监督学习可以通过方便的无标号数据集分类数据,它的性能通常是不如监督分类器(gydF4y2Ba马史,2020年gydF4y2Ba)。第二,由于要求高安全性、高稳定性在工业生产、收购异常往往是昂贵和稀有。在本文的数据集,异常实例只占2%的所有实例。这种不平衡无标号数据集,获得的模型我们可以很容易地获得整体检测精度高,也就是说,模型over-focuses在正常情况下甚至瓦几个异常实例;它不会影响总体评价。然而,在工业故障检测,这样的假阳性是不可接受的。gydF4y2Ba

应对上述挑战,我们提出一个基于WS-ARL工业故障检测模型,如图所示gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

图2gydF4y2Ba

图2gydF4y2Ba。WS-ARL模型的体系结构。gydF4y2Ba(一)gydF4y2Ba检测代理提供样品的检测结果。gydF4y2Ba(B)gydF4y2Ba环境代理选择下一个观察样本。gydF4y2Ba(C)gydF4y2Ba两个代理的政策功能将更新基于DQN(深q学习)更新规则。gydF4y2Ba

输入数据包括无标号数据(gydF4y2BaDgydF4y2Ba_{一个gydF4y2Ba})和带安全标签的数据时(gydF4y2BaDgydF4y2Ba_{一个gydF4y2Ba})。模型包含以下两个代理:检测代理和代理的环境。标记数据和标记的数据是随机抽样与7:3。带安全标签的数据时,通过击杀过采样算法(gydF4y2Ba乔et al ., 2002gydF4y2Ba),它是直接传递到探测代理识别;对于无标号数据,它应该确保检测代理学习时,它更侧重于可能的故障样本,而不是识别正常样本。因此,我们设计一个基于距离函数(说,引用公式9),即自动检测代理提供了接近异常样本基于当前观察和识别结果。提出了两个代理的工作在一个敌对的环境模型,给出了一个相反的奖励代理基于检测代理提供的奖励。我们的最终目标是使探测器加强学习少数类的异常。具体训练模型的过程如下:gydF4y2Ba

(1)随机抽取样本训练集作为输入,检测代理将选择最优行动(分别代表正常和异常){gydF4y2Ba一个gydF4y2Ba_0gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba_1gydF4y2Ba},并获得相应的奖励,而对面的环境代理将获得奖励。gydF4y2Ba

(2)随机输入gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba}和gydF4y2BaDgydF4y2Ba^ugydF4y2Ba并选择下一个观察样本。如果它进入gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba},下一个观察是随机选择;如果它进入gydF4y2BaDgydF4y2Ba^ugydF4y2Ba下观察,选择往往是异常根据输入的观察和识别结果。gydF4y2Ba

(3)根据获得的奖励值和下观察,推断出的政策功能检测代理和环境代理根据DQN更新更新规则第二节中描述(gydF4y2BaMnih et al ., 2013gydF4y2Ba)。gydF4y2Ba

我们希望学习,实现故障检测的最优行为价值函数DQN网络。考虑到异常数据的匮乏,我们设计双重代理示例和识别数据,分别。gydF4y2Ba

3.1。双灭火剂检测模型gydF4y2Ba

检测代理,作为模型的检测器,实现了一个简单的网络,一个隐藏层。对于每个给定的观测样本gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba,该模型可以从两种可能的选择最优行动行动{gydF4y2Ba一个gydF4y2Ba_0gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba_1gydF4y2Ba}。gydF4y2Ba图3gydF4y2Ba显示了故障检测的结构基于强化学习。gydF4y2Ba

图3gydF4y2Ba

图3gydF4y2Ba。故障检测的结构,包括检测代理和环境代理。gydF4y2Ba

我们设计一个环境代理选择下一轮的观测样本,而不是随机抽样从观察原始强化学习的环境。环境代理和检测代理是基于并行DQN和训练。当检测代理给一个动作(输出),环境代理结合观测样本对当前回合和自主选择下一轮的观察样本。因此,两个代理作为探测器和样本选择器和得到截然相反的回报,这迫使探测器关注困难样本(样本,得到更少的奖励)。我们的目标是为探测器提供样品尽可能接近异常,请参阅样本选择方法在DPLAN (gydF4y2Ba彭日成et al ., 2020gydF4y2Ba),并将其应用到环境的代理。它使用样本之间的距离来选择下一个样本观察距离度量函数gydF4y2Ba说gydF4y2Ba方程(9)所示。gydF4y2Ba

\begin{array}{l} dgydF4y2Ba 我gydF4y2Ba 年代gydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba} |gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba cgydF4y2Ba;gydF4y2Ba {θgydF4y2Ba}^{egydF4y2Ba ngydF4y2Ba vgydF4y2Ba})gydF4y2Ba \\ =gydF4y2Ba {gydF4y2Ba \begin{array}{l} rgydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba ogydF4y2Ba 米gydF4y2Ba (gydF4y2Ba {DgydF4y2Ba}^{一个gydF4y2Ba})gydF4y2Ba & cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba \\ \begin{array}{l} 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba 最小值gydF4y2Ba dgydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba 年代gydF4y2Ba;gydF4y2Ba {θgydF4y2Ba}^{egydF4y2Ba ngydF4y2Ba vgydF4y2Ba})gydF4y2Ba \\ 年代gydF4y2Ba \ingydF4y2Ba {DgydF4y2Ba}^{ugydF4y2Ba} \end{array} & cgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{1gydF4y2Ba} \\ \begin{array}{l} 一个gydF4y2Ba rgydF4y2Ba ggydF4y2Ba 马克斯gydF4y2Ba dgydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba 年代gydF4y2Ba;gydF4y2Ba {θgydF4y2Ba}^{egydF4y2Ba ngydF4y2Ba vgydF4y2Ba})gydF4y2Ba \\ 年代gydF4y2Ba \ingydF4y2Ba DgydF4y2Ba \end{array} & cgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{0gydF4y2Ba} \end{array} & (gydF4y2Ba 9gydF4y2Ba)gydF4y2Ba \end{array}

在θgydF4y2Ba^envgydF4y2Ba代表了特征向量得到的输出环境DQN剂;gydF4y2Ba年代gydF4y2Ba是的一个子集gydF4y2BaDgydF4y2Ba^ugydF4y2Ba,当时的数量gydF4y2BaDgydF4y2Ba^ugydF4y2Ba很小,它也可以设置吗gydF4y2Ba年代gydF4y2Ba=gydF4y2BaDgydF4y2Ba^ugydF4y2Ba;gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba和gydF4y2Ba年代gydF4y2Ba_{tgydF4y2Ba+ 1gydF4y2Ba}是我们目前的样品下一轮样品,分别;gydF4y2BacgydF4y2Ba∈{0,1}表示的模型是随机抽样gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba}或gydF4y2BaDgydF4y2Ba^ugydF4y2Ba。为了鼓励无标号数据的模型完全探索大批量,我们集gydF4y2BacgydF4y2Ba3:7比例为0或1;gydF4y2Ba $dgydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba},gydF4y2Ba 年代gydF4y2Ba;gydF4y2Ba {θgydF4y2Ba}^{egydF4y2Ba ngydF4y2Ba vgydF4y2Ba})gydF4y2Ba$ 返回每个实例之间的欧氏距离gydF4y2Ba年代gydF4y2Ba和gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba。gydF4y2Ba

每一轮的行动由探测器后,如果模型输入数据集gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba},样本是随机选择;如果模型输入数据集gydF4y2BaDgydF4y2Ba^ugydF4y2Ba之间的距离,计算当前样品和其他样品按照下列原则:如果检测器确定当前样本是不正常的,它返回样品接近它;否则,它将返回示例是最远的距离。测量标记向量之间的相似度,基于欧氏距离的方法可以或余弦相似性。在这里,我们考虑到欧几里得距离很难反映样本之间的内在相似性高维度(gydF4y2Ba特南鲍姆et al ., 2000gydF4y2Ba)。为了正确地代表每个向量之间的距离关系和比较两个相似的措施,我们设计环境的网络代理,如图所示gydF4y2Ba图4gydF4y2Ba。gydF4y2Ba

图4gydF4y2Ba

图4gydF4y2Ba。环境代理的结构包括三个隐藏层。gydF4y2Ba

环境代理三个隐藏层的神经网络。结合文献后(gydF4y2Ba黄et al ., 2020gydF4y2Ba4.3.3节中)和实验,结果表明,欧几里得距离在低维空间可以更好地展示向量之间的相似度,并提供可能的故障样本的检测代理更有效;我们最后选择输出向量维度3欧氏距离计算的基准。因此,无论检测代理需要什么行动,环境最终会提供样品,可能接近断层下一轮的观察检测代理。gydF4y2Ba

3.2。奖励函数gydF4y2Ba

奖励函数设计了两个代理,产生相反的奖励值。环境代理积极尝试减少检测代理收到的奖励,迫使其学习最困难的样本通过增加探测器的错误预测。通过这种对抗性的学习模式下,探测器性能进一步提高。gydF4y2Ba

3.2.1之上。检测代理奖励gydF4y2Ba

DPLAN (gydF4y2Ba彭日成et al ., 2020gydF4y2Ba)设计了一种联合奖励机制,使他们的代理可以从这两个数据集{获得奖励gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba},gydF4y2BaDgydF4y2Ba^ugydF4y2Ba分别}。受这种模式的启发,我们设计新的奖励检测代理和环境代理。奖励函数被定义为方程(10):gydF4y2Ba

\begin{array}{l} {rgydF4y2Ba}_{tgydF4y2Ba}^{dgydF4y2Ba} =gydF4y2Ba {gydF4y2Ba \begin{array}{l} 1gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{1gydF4y2Ba})gydF4y2Ba \\ -gydF4y2Ba 1gydF4y2Ba,gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{0gydF4y2Ba})gydF4y2Ba \\ -gydF4y2Ba 1gydF4y2Ba +gydF4y2Ba 我gydF4y2Ba FgydF4y2Ba ogydF4y2Ba rgydF4y2Ba egydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba (gydF4y2Ba {年代gydF4y2Ba}_{tgydF4y2Ba};gydF4y2Ba {θgydF4y2Ba}^{依据gydF4y2Ba})gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{1gydF4y2Ba})gydF4y2Ba \\ 0gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{0gydF4y2Ba})gydF4y2Ba \end{array} & (gydF4y2Ba 10gydF4y2Ba)gydF4y2Ba \end{array}

在哪里gydF4y2Ba ${rgydF4y2Ba}_{tgydF4y2Ba}^{dgydF4y2Ba}$ 代表检测代理在时间t的奖励;gydF4y2Ba一个gydF4y2Ba_tgydF4y2Ba表示在时间t检测代理的作用;θgydF4y2Ba^{依据gydF4y2Ba}代表的隐层输出探测器代理,我们设置θgydF4y2Ba^{依据gydF4y2Ba}作为无监督算法的输入,确保无监督探测器总是工作在低维空间。gydF4y2Ba

特别是,为了量化的异常水平异常实例探测器识别无标号数据时,我们引入一个有效的无监督异常检测算法a弱监督改善iForest (gydF4y2Ba刘et al ., 2012gydF4y2Ba)作为异常探测器。gydF4y2BaBarbariol和Susto (2021)gydF4y2Ba发现的最佳检测效果iForest通常可以实现当有< 100 iTrees(孤立树)。通过弱监督,可以达到优化iTrees的数量。因此,在少量的带安全标签的数据时,我们引入TiWS-iForest (gydF4y2BaBarbariol Susto, 2021gydF4y2Ba)作为异常探测器,少iTrees意味着更高的发电效率和计算效率。通过综合所有iTree对样品的输出结果,模型将这些结果映射到[0,1]作为一个异常分数,和更大的是,越不正常。gydF4y2Ba

因此,我们检测代理只会得到一个积极的奖励时,正确地识别异常样本gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba}并将处罚时,它被认为是一个正常的样本(假阴性)。我们默认的gydF4y2BaDgydF4y2Ba^ugydF4y2Ba正常样本时,代理认为它异常(假阳性),和一个点球将根据样品的异常程度(异常越多,少惩罚);否则,不给予奖励。gydF4y2Ba

3.2.2。环境代理奖励gydF4y2Ba

环境代理将积极尝试增加探测器的检测困难通过奖励函数相反的检测代理。奖励函数是定义在以下方程:gydF4y2Ba

\begin{array}{l} {rgydF4y2Ba}_{tgydF4y2Ba}^{egydF4y2Ba} =gydF4y2Ba {gydF4y2Ba \begin{array}{l} 0gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba)gydF4y2Ba \\ -gydF4y2Ba {rgydF4y2Ba}_{tgydF4y2Ba}^{dgydF4y2Ba} & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{1gydF4y2Ba})gydF4y2Ba \\ -gydF4y2Ba 1gydF4y2Ba & (gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba 一个gydF4y2Ba ngydF4y2Ba dgydF4y2Ba {一个gydF4y2Ba}_{tgydF4y2Ba} =gydF4y2Ba {一个gydF4y2Ba}_{0gydF4y2Ba})gydF4y2Ba \end{array} & (gydF4y2Ba 11gydF4y2Ba)gydF4y2Ba \end{array}

在哪里gydF4y2Ba ${rgydF4y2Ba}_{tgydF4y2Ba}^{egydF4y2Ba}$ 代表环境的奖励时间t,和gydF4y2Ba一个gydF4y2Ba_tgydF4y2Ba表示在时间t检测代理的作用。gydF4y2Ba

当抽样gydF4y2BaDgydF4y2Ba^{一个gydF4y2Ba}代理,没有提供奖励;当抽样gydF4y2BaDgydF4y2Ba^ugydF4y2Ba和探测器正常识别,给出一个点球;当抽样gydF4y2BaDgydF4y2Ba^ugydF4y2Ba和探测器识别异常、环境代理将提供的奖励根据奖励值的检测代理。换句话说,通过对抗训练,选择的观察训练环境代理更偏向实例探测器,难以区分。实验表明,该方法有助于提高最终的检测器的性能。gydF4y2Ba

4所示。实验gydF4y2Ba

验证该方法的有效性,我们设计了一系列的实验对故障检测的多传感器数据通过一个液压试验台(gydF4y2BaHelwig et al ., 2015gydF4y2Ba)。gydF4y2Ba

4.1。实验平台gydF4y2Ba

实验平台是一个液压系统,如图所示gydF4y2Ba图5gydF4y2Ba由主操作循环(gydF4y2Ba图5一个gydF4y2Ba)和二次冷却过滤循环(gydF4y2Ba图5 bgydF4y2Ba)通过水箱连接。机器运行在一个固定的工作周期,可以模拟指定故障的不同程度。我们检测到四种不同的系统故障冷却器退化,阀门开关退化,内部泵泄漏和累加器泄漏。gydF4y2Ba

图5gydF4y2Ba

图5gydF4y2Ba。gydF4y2Ba(A, B)gydF4y2Ba液压系统。gydF4y2Ba

液压系统从2205年的15套传感器收集监测数据,包括6套压力传感器(PS1-PS6), 2组流量传感器(FS1、FS2), 5套温度传感器(TS1-TS5),电力传感器(EPS1)和振动传感器(VS1),采样频率是1和100赫兹之间。gydF4y2Ba

4.2。数据样本处理gydF4y2Ba

对于高频液压机抽样数据,我们使用的信号形状(线性拟合斜率),分布密度特性(值,方差、偏态和峰态),和雷克子波功能函数来实现特征提取。特征降维后的主成分分析(PCA)的基础上,得到了原始的输入数据。我们构建数据集4四个失败,如图所示gydF4y2Ba表1gydF4y2Ba,每个数据集包含一个正常类和两到三个异常类。考虑到只有几个标签异常可在工业应用(gydF4y2Ba高et al ., 2021gydF4y2Ba),标签异常的数量是固定在每个数据集,2−0.33%的训练数据占0.2%。保证在训练集和测试集,异常污染率是固定在2和5%。gydF4y2Ba

表1gydF4y2Ba

表1gydF4y2Ba。数据统计信息。gydF4y2Ba

我们实现该模型PyTorch框架和火车上网络在Ubuntu上与AMD Ryzen 3600 6-Core (16 g)和NVIDIA Geforce 1650 GTX公司。我们用接受者操作特征曲线下的面积(AUC-ROC)和AUC-PR评估模型的性能。AUC-ROC评估模型的性能对积极和消极的样本;AUC-PR只侧重于模型的识别能力积极的样品,这是更适合比AUC-ROC识别异常类。gydF4y2Ba

4.3。结果和分析gydF4y2Ba

如3.1节所述,少数异常标签样本和大量的未标记样本选择模型的训练和测试。本节比较,分析该模型的性能和其他基准模型的四个数据集“冷却器退化,”“阀门开关退化,”“内部泵泄漏,”和“蓄电池漏。”gydF4y2Ba

4.3.1。结果在测试集gydF4y2Ba

我们比较了本文模型与各种各样的异常检测方法,是根据实现方法分为两类,即无监督模式[iForest (gydF4y2Ba刘et al ., 2012gydF4y2Ba)和VAE (gydF4y2Ba赵,2015gydF4y2Ba)]和semi-supervised模型[DevNet (gydF4y2Ba氮化镓et al ., 2015gydF4y2Ba),DPLAN (gydF4y2Ba彭日成et al ., 2020gydF4y2Ba)和深深的悲伤(gydF4y2Ba拉夫et al ., 2019gydF4y2Ba)]。此外,实验结果的可靠性和精确度是通过比较它们与基准模型的数据集液压机。gydF4y2Ba

表2gydF4y2Ba结果显示多个semi-supervised和无监督方法四个数据集,这是“冷却器退化,”“阀门退化,”“内部泵泄漏,”和“蓄电池泄漏。“从前面提到的表,它可以得出:gydF4y2Ba

(1)比较两个无监督方法,iForest取得更好的结果在这两个指标的三个数据集,以及故障检测的影响的“阀退化”是接近VAE。还应该指出,第5 - 11 VAE运行时间超过iForest四种故障检测任务。这主要是因为iForest在内存需求和线性时间复杂度较低,这使得它更有竞争力的成本比其他无监督算法。因此,考虑到模型的整体运行效率和检测精度,iForest更适合作为异常水平的量化算法。gydF4y2Ba

(2)无监督的方法相比,该方法,DevNet, DPLAN,深深的悲伤AUC-PR指标表现得更好。这是由于这些方法不仅有助于模型训练通过标记数据,还学习一些标记异常现象,以提高检测的准确性。gydF4y2Ba

(3)WS-ARL模型本文提出AUC-PR取得最好的结果,AUC-ROC四个数据集。这主要是因为深深的悲伤和DevNet认为无标号数据是正常数据,从而生成相应的球形区域和确定异常分数的分布。这些方法只使用标记数据结果的优化。WS-ARL不仅学会标签异常,而且有效地探索可能的错误标记数据。这使得它比这两种方法获得更多的知识。DPLAN相比,WS-ARL始终为探测器提供了一个更高效的学习样本的敌对的学习,这使得WS-ARL在多个数据集的表现更稳定。gydF4y2Ba

表2gydF4y2Ba

表2gydF4y2Ba。测试结果在四个数据集。gydF4y2Ba

4.3.2。比较检测结果与不同数量的监督实例gydF4y2Ba

进一步研究检测效果在场景中有更多的缺点,在此基础上,每个数据集包含两个标签异常,我们增加已知的故障分类和故障的数量。“冷却器退化”和“内部泵泄漏”有两个故障类别,我们依次添加标签数据的两个新的故障类别;“阀退化”和“蓄电池漏”有三个故障类别,我们三个新的故障类别的添加标记数据。每一次之后,我们为每个类别添加故障实例。AUC-PR变化的异常,如所示gydF4y2Ba图6gydF4y2Ba。gydF4y2Ba

图6gydF4y2Ba

图6gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba冷却器退化的结果。gydF4y2Ba(B)gydF4y2Ba阀退化的结果。gydF4y2Ba(C)gydF4y2Ba内部泵泄漏的结果。gydF4y2Ba(D)gydF4y2Ba蓄电池漏的结果。gydF4y2Ba

在gydF4y2Ba数字6gydF4y2Ba,gydF4y2BaCgydF4y2Ba,我们首次添加两个新类别的样本(错误的数量从2到4),然后为每个类别添加一个样本(错误的数量从4到14)。在gydF4y2Ba图6 bgydF4y2Ba,gydF4y2BaDgydF4y2Ba中,我们添加了两个新类别的样本第一两次(错误的数量从2到6),然后为每个类别添加一个样本(错误的数量从6到18)。已知的异常类别的增加和异常的数量可以提供更多额外的监管信息。从前面提到的图也可以得出结论:gydF4y2Ba

(1)虽然在一些提议WS-ARL不是最优的初始阶段的“阀退化,”“内部泵泄漏,”和“蓄电池漏”,表现迅速改善数量增加。这可能是由于这样的事实,初始阶段是提高异常的类别;更多的噪音导致每个模型的稳定性能。然而,WS-ARL仍然实现了改进的26日,30日,77年,33%后获得更多的先验知识。gydF4y2Ba

(2)提出的模型是最优的最终检测四个数据集。与其他模型相比,该模型获得AUC-PR约1 - 5%的改进。gydF4y2Ba

4.3.3。比较观察到的故障样本在不同相似的措施gydF4y2Ba

在这篇文章中,一个特殊的dist公式(参见公式9)用于选择观察样品的检测代理。尤其是在无人监督的环境中,它依赖于相似性度量算法,确保代理商关注故障样本,也就是说,为代理商提供更多的故障样本学习。因此,我们研究了故障样本的抽样率在不同条件下不同的相似性度量算法。结果给出了gydF4y2Ba图7gydF4y2Ba,显示故障样本的数量得到环境代理使用两个有效的相似性度量算法在不同输出维度在训练。gydF4y2Ba

图7gydF4y2Ba

图7gydF4y2Ba。gydF4y2Ba(一)gydF4y2Ba故障样本选择的数量根据欧几里得距离在不同的维度。gydF4y2Ba(B)gydF4y2Ba故障样本选择的数量根据余弦相似度在不同的维度。gydF4y2Ba

在gydF4y2Ba数字7gydF4y2Ba,gydF4y2BaBgydF4y2Ba,我们使用欧氏距离和余弦相似度来选择样本输出尺寸是2,3,4,培训一批水平轴,纵轴是故障样本收集的数量。从前面提到的图也可以得出结论:gydF4y2Ba

(1)在这个数据集,余弦相似度的结果是不稳定的欧氏距离,特别是当维度是3或4,它不能提供稳定的错误样例输出。这可能是由于这样的事实,数值是一个重要的标准故障分析,和余弦相似度的绝对值不敏感的特定值。gydF4y2Ba

(2)欧氏距离显示了出色的示例选择性能2或3维时,特别是当维数是3,最多的故障样本的选择,这是与研究一致gydF4y2Ba特南鲍姆et al。(2000)gydF4y2Ba。与此同时,需要注意的是,维数的增加,样本选择欧几里得距离逐渐的性能不稳定,这将直接影响到学习效果的检测代理。gydF4y2Ba

4.3.4。烧蚀实验gydF4y2Ba

验证在WS-ARL模块的合理性和有效性,我们消除WS-ARL的对抗性的学习模块,把其他模块不变(例如,奖励函数gydF4y2Ba ${rgydF4y2Ba}_{tgydF4y2Ba}^{dgydF4y2Ba}$ 、距离度量函数gydF4y2Ba说gydF4y2Ba),也就是说,检测剂用于故障检测和样本选择。实验是进行原始WS-ARL和WS-ARL没有敌对的学习(gydF4y2Ba表3gydF4y2Ba,这被称为w / o AL)。gydF4y2Ba

表3gydF4y2Ba

表3gydF4y2Ba。烧蚀实验四个数据集。gydF4y2Ba

在gydF4y2Ba表3gydF4y2Ba,我们可以看到WS-ARL比WS-ARL没有敌对的学习。这个结果是符合我们前分析由于敌对的学习可以提供更有效的观察样本的探测器,使WS-ARL跨多个数据集有一个更稳定的检测性能。gydF4y2Ba

5。讨论和结论gydF4y2Ba

为了解决这一问题的有效利用少量的标记异常工业故障检测,我们提出一个故障检测框架基于敌对的强化学习。主要的思想是培养与无标号奖励通过异常数据异常检测代理大批量标记数据发现iForest和标记的奖励由一小批标签异常数据。同时,一个环境代理介绍指导观测样本的收集过程,大大提高了模型的能力获得异常故障检测知识和取得更好的性能。gydF4y2Ba

在未来,我们将考虑提高模型获得无标号的方式异常回报达到更好的检测精度。gydF4y2Ba

数据可用性声明gydF4y2Ba

公开的数据集进行分析。这些数据可以发现:gydF4y2Bahttps://www.kaggle.com/datasets/jjacostupa/condition-monitoring-of-hydraulic-systemsgydF4y2Ba。gydF4y2Ba

作者的贡献gydF4y2Ba

LJ,王寅,WH的构思和设计研究并提供行政支持。XJ分析和解释数据。所有作者阅读和批准最终的手稿。gydF4y2Ba

资金gydF4y2Ba

这项工作得到了中国国家重点研发项目(2018号yfb1703000)。gydF4y2Ba

的利益冲突gydF4y2Ba

XJ是受雇于中国重型机械研究院有限公司有限公司gydF4y2Ba

其余作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

引用gydF4y2Ba

一个,J。,Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability.特别讲座即gydF4y2Ba2队。网上:gydF4y2Bahttp://dm.snu.ac.kr/static/docs/tr/snudm - tr - 2015 - 03. - pdfgydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Barbariol, T。,年代u年代to,G. A. (2021). TiWS-iForest: isolation forest in weakly supervised and tiny ML scenarios.arXiv: 2111.15432 (cs.LG)。gydF4y2Badoi: 10.1016 / j.ins.2022.07.129gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

乔:V。,Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique.j . Artif。智能。Res。gydF4y2Ba16,321 - 357。doi: 10.1613 / jair.953gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

崔T。,lee,D。荣格,Y。,Choi, H. -J. (2022). “Multivariate time-series anomaly detection using SeqVAE-CNN hybrid model,” in2022年国际会议信息网络(ICOIN)gydF4y2Ba(Jeju-si:共和国,2022),250 - 253。doi: 10.1109 / ICOIN53446.2022.9687205gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

氮化镓,C。,Wang, N., Yang, Y., Yeung, D. Y., and Hauptmann, A. G. (2015). “DevNet: a deep event network for multimedia event detection and evidence recounting,” in2015年IEEE计算机视觉与模式识别会议(CVPR)gydF4y2Ba(波士顿,MA: IEEE), 2568 - 2577。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

高,F。,l我,J., Cheng, R., Zhou, Y., and Ye, Y. (2021). ConNet: deep semi-supervised anomaly detection based on sparse positive samples.IEEE访问gydF4y2Ba9日,67249 - 67258。doi: 10.1109 / ACCESS.2021.3077014gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

盖革,。刘,D。,Alnegheimish, S., Cuesta-Infante, A., and Veeramachaneni, K. (2020). “TadGAN: time series anomaly detection using generative adversarial networks,” in2020年IEEE国际会议上大数据(大数据)gydF4y2Ba(亚特兰大,乔治亚州:IEEE), 33-43。gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

吉尔勒莫,C。,lopez-Martin, M., and Carro, B. (2019). Adversarial environment reinforcement learning algorithm for intrusion detection.第一版。Netw。gydF4y2Ba96 - 109。doi: 10.1016 / j.comnet.2019.05.013gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Helwig, N。,Pingnalli, E., and Schütze, A. (2015). Detecting and compensating sensor faults in a hydraulic condition monitoring system.传感器gydF4y2Ba2015年,616 - 646。doi: 10.5162 / sensor2015 / D8.1。设计gydF4y2Ba

CrossRef全文gydF4y2Ba

Heras, j . A。,Don一个t我,A. (2014). Enhanced telemetry monitoring with novelty detection.人工智能杂志gydF4y2Ba。35岁,37-46。doi: 10.1609 / aimag.v35i4.2553gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

黄R。崔,C。,太阳,W。,Towey, D. (2020). “Poster: is euclidean distance the best distance measurement for adaptive random testing?” in2020年IEEE第13届国际会议上软件测试,确认和验证(ICST)gydF4y2Ba(波尔图:IEEE)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

金,h - j。李,J。,Park, C., and Park, J. -G. (2021). “Network anomaly detection based on GAN with scaling properties,” in2021年国际会议信息和通信技术融合(ICTC)gydF4y2Ba(济州岛:IEEE), 1244 - 1248。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kingma, d . P。,Rezende, D. J., Mohamed, S., and Welling, M. (2014). Semi-supervised learning with deep generative models.少量的酒gydF4y2Ba4,3581 - 3589。doi: 10.48550 / arXiv.1406.5298gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

李,Y。,Chen, Z., and Zha, D. (2020). AutoOD: automated outlier detection via curiosity-guided search and self-imitation learning.arXiv: 2006.11321 (cs.LG)。gydF4y2Badoi: 10.48550 / arXiv.2006.11321gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

刘,f . T。,Ting, K. M., and Zhou, Z. H. (2012). Isolation-based anomaly detection.isolation-based anomaly detection.ACM反式。"。越是加大。数据gydF4y2Ba6日,39岁。doi: 10.1145/2133360.2133363gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

妈,X。,年代hi, W. (2020). AESMOTE: adversarial reinforcement learning with SMOTE for anomaly detection.IEEE反式。网络科学。英格gydF4y2Ba。8,943 - 956。doi: 10.1109 / TNSE.2020.3004312gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Maale, L。,年代nderby, C. K., Snderby, S. K., and Winther, O. (2016). Auxiliary deep generative models.arXiv: 1602.05473 (stat.ML)gydF4y2Ba。doi: 10.48550 / arXiv.1602.05473gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Malhotra P。,R一个米一个kr我年代hnan, A., Anand, G., Vig, L., Agarwal, P., and Shroff, G. (2016). Lstm-based encoder-decoder for multi-sensor anomaly detection.arXiv 2016gydF4y2BaarXiv: 1607.00148。doi: 10.48550 / arXiv.1607.00148gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

马库斯,m . B。,Kr我egel, H. P., and Ng, R. T. (2000). LOF: Identifying density-based local outliers.ACM Sigmod记录gydF4y2Ba29日,93 - 104。doi: 10.1145/335191.335388gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Mnih, V。,K一个vukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., et al. (2013). Playing atari with deep reinforcement learning.arXiv: 1312.5602 (cs.LG)gydF4y2Ba。doi: 10.48550 / arXiv.1312.5602gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

庞,G。,C一个o,l。陈,L。,l我u,H. (2018). “Learning representations of ultrahigh-dimensional data for random distance-based outlierdetection,” in知识发现(KDD)gydF4y2Ba(纽约:计算机协会)。2041 - 2050。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

庞,G。,Hengel, A., Shen, C., and Cao, L. (2020). Toward deep supervised anomaly detection: reinforcement learning from partially labeled anomaly data.knowledge discovery and data mining.ACMgydF4y2Ba2020年,3467417。doi: 10.1145/3447548.3467417gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

庞,G。,年代hen, C., and van den Hengel, A. (2019). “Deep anomaly detection with deviation networks,” in第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 19)gydF4y2Ba(纽约:计算机协会),353 - 362。gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

公园,D。,K我米,H., Hoshi, Y., Erickson, Z., Kapusta, A., and Kemp, C. C. (2017). “A multimodal execution monitor with anomaly classification for robot-assisted feeding,” in2017年IEEE / RSJ智能机器人和系统国际会议(——)gydF4y2Ba(温哥华BC: IEEE), 5406 - 5413。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

飞边,L。,V一个nder米eulen, R. A., and Görnitz, N. (2019). Deep Semi-supervised anomaly detection..international conference on learning representations.arXiv: 1906.02694 (cs.LG)。gydF4y2Badoi: 10.48550 / arXiv.1906.02694gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

萨哈,R。,Bre年代lin, J. G., and Ali, M. I. (2020). Big data and stream processing platforms for industry 4.0 requirements mapping for a predictive maintenance use case.j . Manuf系统。gydF4y2Ba。54岁,138 - 151。doi: 10.1016 / j.jmsy.2019.11.004gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

苏,Y。,Zhao, Y., Niu, C., Liu, R., and Pei, D. (2019). “Robust anomaly detection for multivariate time series through stochastic recurrent neural network,” in第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 19)gydF4y2Ba,2828 - 2837。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

萨顿,R。,B一个rto,A. (1998). Reinforcement learning: an introduction.IEEE反式。神经gydF4y2Ba。9日,1054年。doi: 10.1109 / TNN.1998.712192gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

特南鲍姆,j·B。席尔瓦,诉D。,l一个ngford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction.科学gydF4y2Ba290年,2319 - 2323。doi: 10.1126 / science.290.5500.2319gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Valenzuela, J。王,J。,B我年代年代我nger,N. (2013). Real-time intrusion detection in power system operations.IEEE反式。电力系统。gydF4y2Ba28日,1052 - 1062。doi: 10.1109 / TPWRS.2012.2224144gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

维诺德,N。,Hinton, G. E. (2010). “Rectified linear units improve restricted boltzmann machines,” inICMLgydF4y2Ba(麦迪逊,WI Omnipress): 807 - 814。gydF4y2Ba

之上,M。,K一个vukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., et al. (2015). Human-level control through deep reinforcement learning.自然gydF4y2Ba518年,529 - 533。doi: 10.1038 / nature14236gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

王,L。,Tan, H., Zhou, F., Zuo, W., and Sun, P. (2022). Unsupervised anomaly video detection via a double-flow ConvLSTM variational autoencoder.IEEE访问gydF4y2Ba10日,44278 - 44289。doi: 10.1109 / ACCESS.2022.3165977gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

威利茨,M。,Roberts, S., and Holmes, C. (2020). “Semi-unsupervised learning: Clustering and classifying using ultra-sparse labels,” in学报2020年IEEE国际会议上大数据(大数据)gydF4y2Ba(亚特兰大,乔治亚州:IEEE), 5286年。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

吴,Z。,徐,H。,Wang, Y., and Wang, Y. (2021). “Surrogate supervision-based deep weakly-supervised anomaly detection,” in2021年国际会议上数据挖掘研讨会(ICDMW)gydF4y2Ba(奥克兰),975 - 982。doi: 10.1109 / ICDMW53433.2021.00127gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

谢,问。,Zhang, D., Yu, B., and Choi, J. (2022). Semisupervised training of deep generative models for high-dimensional anomaly detection.IEEE反式。神经。学习。系统gydF4y2Ba。33岁,2444 - 2453。doi: 10.1109 / TNNLS.2021.3095150gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

徐,H。,Feng,Y., Chen, J., Wang, Z., Qiao, H., and Chen, W. (2018). Unsupervised anomaly detection via variational auto-encoder for seasonal KPIs in web applications.arXiv: 1802.03903 (cs.LG)gydF4y2Ba。doi: 10.1145/3178876.3185996gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

是的,S。,Zhao, Y., Niu, C., Liu, R., Sun, W., and Pei, D. (2019). “Robust anomaly detection for multivariate time series through stochastic recurrent neural network,” in第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(KDD ' 19)gydF4y2Ba(纽约;计算机协会)2828 - 2837。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Zenati, H。,Ro米一个我n,M., Foo, C., Lecouat, B., and Chandrasekhar, V. (2018). “Adversarially learned anomaly detection,” in2018年IEEE国际会议数据挖掘(ICDM)gydF4y2Ba(新加坡:IEEE), 727 - 736。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

关键词:gydF4y2Ba故障检测、弱监督、强化学习、神经网络、代理、奖励,战略功能,DQNgydF4y2Ba

引用:gydF4y2Ba江Junhuai L, Yunwen W, Huaijun W和X(2023)故障检测方法基于敌对的强化学习。gydF4y2Ba前面。第一版。科学。gydF4y2Ba4:1007665。doi: 10.3389 / fcomp.2022.1007665gydF4y2Ba

收到:gydF4y2Ba2022年7月30日;gydF4y2Ba接受:gydF4y2Ba2022年12月29日;gydF4y2Ba
发表:gydF4y2Ba2023年1月25日。gydF4y2Ba

编辑:gydF4y2Ba

Guiming罗gydF4y2Ba,清华大学,中国gydF4y2Ba

审核:gydF4y2Ba

Radhya萨哈gydF4y2Ba,独立研究员,软木,爱尔兰gydF4y2Ba
老唐gydF4y2Ba,清华大学,中国gydF4y2Ba
燕侯gydF4y2Ba,清华大学,中国gydF4y2Ba

*通信:gydF4y2Ba王Huaijun,gydF4y2Ba 是的gydF4y2Ba wanghuaijun@xaut.edu.cngydF4y2Ba

原始研究的文章gydF4y2Ba

故障检测方法基于敌对的强化学习gydF4y2Ba

1。介绍gydF4y2Ba

2。相关的研究gydF4y2Ba

2.1。异常检测gydF4y2Ba

2.2。强化学习gydF4y2Ba

2.2.1。简要介绍强化学习gydF4y2Ba

2.2.2。深的q学习算法gydF4y2Ba

3所示。方法gydF4y2Ba

3.1。双灭火剂检测模型gydF4y2Ba

3.2。奖励函数gydF4y2Ba

3.2.1之上。检测代理奖励gydF4y2Ba

3.2.2。环境代理奖励gydF4y2Ba

4所示。实验gydF4y2Ba

4.1。实验平台gydF4y2Ba

4.2。数据样本处理gydF4y2Ba

4.3。结果和分析gydF4y2Ba

4.3.1。结果在测试集gydF4y2Ba

4.3.2。比较检测结果与不同数量的监督实例gydF4y2Ba

4.3.3。比较观察到的故障样本在不同相似的措施gydF4y2Ba

4.3.4。烧蚀实验gydF4y2Ba

5。讨论和结论gydF4y2Ba

数据可用性声明gydF4y2Ba

作者的贡献gydF4y2Ba

资金gydF4y2Ba

的利益冲突gydF4y2Ba

出版商的注意gydF4y2Ba

引用gydF4y2Ba

本文是研究课题的一部分gydF4y2Ba

人也看了gydF4y2Ba