1介绍
食物是容易受到病原体的污染和破坏者。在受污染的食物引起食源性疾病病原体,而剧透恶化的质量食物通过改变的生化性质材料(<一个href="#B12">Lianou et al ., 2016一个>)。这些有害微生物的入侵可以随时发生在整个生命周期的食物包括生产、加工、分配、存储、和保护(<一个href="#B12">Lianou et al ., 2016一个>)。治疗与极端条件下食品微生物呈现惰性,但是不是一个理想的解决方案由于负面影响口感,味道,和味道,变性的营养(如维生素A),以及过度的能源需求(<一个href="#B3">Amit et al ., 2017一个>)。完全清除病原体和破坏者从食物通常是不可行的,他们抑制安全水平低的精炼处理方法和条件,以确保食品安全和质量至关重要。因此,确定最优条件控制有害微生物的生长需要实现多个目标,往往是矛盾的(<一个href="#B13">Madoumier et al ., 2019一个>)。虽然许多替代微生物失活技术出现了温和的处理条件,如高压处理(<一个href="#B17">Podolak et al ., 2020一个>),脉冲光失活(<一个href="#B4">Artiguez et al ., 2011一个>)和各种非热能的方法(<一个href="#B14">马纳斯基地和异教徒,2005一个>),准确评估的相关过程的相关影响因素仍然是具有挑战性的由于缺乏可归纳的方法并分析力学过程。数学模型是不可或缺的工具,用于预测和优化食品微生物失活过程。精确建模的微生物增长或失活是一个艰巨的任务由于其复杂的依赖大量的内部(如水分活度、pH值、成分和防腐剂)和外部食物条件(如温度和湿度)(<一个href="#B2">Akkermans et al ., 2020一个>)。适当的考虑功能微生物种群之间的关系和内在和外在等参数对模型性能至关重要。微生物失活模型通常是建立在拟合多项式方程,而其他形式,如阿仑尼乌斯或平方根关系也被认为是(<一个href="#B21">怀廷,1995一个>;罗斯和Dalgaard, 2003年一个>)。典型使用多项式方程建模工作都集中在确定最优参数值(即。的系数预先选定的通过数据符合计算)。然而,这种方法不能保证强劲发展微生物失活模型因为不足表示的方程会导致糟糕的性能数据和预测由于内在结构错误不能补偿通过参数估计(<一个href="#B11">卡普兰,2002一个>)。此外,经验管理条款的确定往往缺乏可扩展性与越来越多的过程变量,需要更系统、理性的方法。稀疏的识别非线性动力学(辛迪)(<一个href="#B7">勃氏et al ., 2016一个>)是一种很有前途的方法,使模型方程的自动发现无需假定模型结构先天的,使它不同于典型的方法大都集中于估计的参数最优值通过数据融入一个预定义的功能。辛迪允许使用一个库的输入变量(感兴趣的潜在影响输出变量)来确定模型结构的线性组合在图书馆。之后,奥卡姆剃刀原则假定通常最简单的解释往往是正确的表示(<一个href="#B5">布卢姆et al ., 1987一个>;歌et al ., 2013一个>),在模型识别基于辛迪促进吝啬的最小子集。在这项工作中,我们提出一个数据驱动建模管道利用辛迪强劲发展的微生物失活模型应用在食品安全和质量。虽然辛迪的最初目标是识别稀疏非线性动力系统的模型,我们把它应用到non-dynamical系统通过适当的再形成(见方法)。演示中,我们考虑的案例研究建模的变化D重视时间减少90%的微生物数量的变化多种因素包括温度、pH值、水分活度,氯化钠含量、和磷酸盐水平。建立在辛迪,我们建模管道有三个主要的附加功能:1)整合理论知识基本的输入和输出变量之间的关系,例如,通过会计的温度依赖性D值后,阿仑尼乌斯方程;2)合理确定hyperparameters(如多项式秩序和sparsity-controlling参数)基于信息理论度量之间的优化平衡模型准确性和稀疏,和3)集成与全球敏感性分析来评估关键因素对模型输出的影响。我们的分析表明,该基准模型在文献中认为在这项工作大多是——或者underfitted。使用我们的方法,因此,我们能够提出更好的结构化模型与改善精度和减少复杂性。<一个我d="h3" name="h3">
2材料和方法
模型结构(即的识别。,functional forms of the relationship between input and output variables) is challenging as there are many possible solutions to formulate a specific model from a given dataset. In this section, we describe how systematic identification of model equations and key variables/terms governing microbial inactivation can be enabled by an advanced data-driven approach called SINDy (<一个href="#B7">勃氏et al ., 2016一个>分别)与全局灵敏度分析。2.1稀疏的本质非线性动力学的识别辛迪是发现的原始动力控制方程的非线性动力系统,这是重新配置来适用于non-dynamical系统如下:
在哪里<我nline-formula id="inf1">
是状态变量的向量,<我nline-formula id="inf2">
表示之间的非线性关系的输入(<我nline-formula id="inf3">
)和输出变量(<我nline-formula id="inf4">
)。辛迪接近<我nline-formula id="inf5">
加权线性组合的非线性项,例如,的<我nline-formula id="inf6">
输出变量:
在哪里<我nline-formula id="inf7">
和<我nline-formula id="inf8">
表示<我nline-formula id="inf9">
词和它的重量,分别。上述方程可以表示为一个矩阵更简洁的形式,也就是说,
在哪里<我nline-formula id="inf10">
,<我nline-formula id="inf11">
,<我nline-formula id="inf12">
图书馆是一个候选人的功能吗<我nline-formula id="inf13">
和矩阵的权重<我nline-formula id="inf14">
。辛迪,图书馆<我nline-formula id="inf15">
是由输入变量的多项式扩张<我nline-formula id="inf16">
,也就是说,<我nline-formula id="inf17">
在哪里<我nline-formula id="inf18">
代表一个矩阵列向量的所有可能<我nline-formula id="inf19">
度单项状态变量<我nline-formula id="inf20">
。
辛迪寻求一个吝啬的模型由以最小的数量条款尽可能在不影响模型精度。稀疏的顺序,如阈值最小二乘回归方法(抢断),至少绝对收缩和选择算子(套索)是有用的算法,可用于辛迪为此(<一个href="#B7">勃氏et al ., 2016一个>)。在这项工作中,我们采用抢断<我nline-formula id="inf21">
在<一个href="#e3">情商。一个>保留系数(权重)大于规定的参数<我nline-formula id="inf22">
(否则,零权重分配),这样只有在图书馆的显著影响输出包含在最终的模型结构。在这里,<我nline-formula id="inf23">
被称为sparsity-promoting旋钮和更高价值的因为稀疏模型增加了吗<我nline-formula id="inf24">
,而模型精度可能会降低。2.2应用程序的辛迪微生物失活模型我们使用辛迪制定微生物失活函数各种过程变量包括温度(<我nline-formula id="inf25">
)、pH值、水活动(<我nline-formula id="inf26">
),氯化钠含量(<我nline-formula id="inf27">
)和磷酸盐水平(<我nline-formula id="inf28">
),它是所有已知的显著影响微生物生长速率(<一个href="#B10">Juneja et al ., 1995一个>;瑟夫et al ., 1996一个>)。我们雇佣D值(即。,the time for microbial population to shrink to 10% of initial level) as a standard measure for microbial inactivation, which is taken as our target variable to predict in applying SINDy. With a single target variable chosen,<一个href="#e3">情商。一个>减少到下面的方程,即
虽然辛迪提供了灵活性,选择任何非线性条件的输入和输出变量,我们决定将他们的特定的功能形式后,已知的机械知识和系统的特点。因此,我们使用一个向量的<我nline-formula id="inf29">
作为<我nline-formula id="inf30">
(而不是一个向量的<我nline-formula id="inf31">
),确定<我nline-formula id="inf32">
是(<我nline-formula id="inf33">
,pH值,<我nline-formula id="inf34">
,<我nline-formula id="inf35">
,<我nline-formula id="inf36">
(即。,the use of1 / T,而不是<我nline-formula id="inf37">
)。我们选择的理由功能形式的输出和输入变量是详细的在3.1节。
2.3优化模型稀疏和准确性基于信息理论准则我们优化组合的原始的顺序过程变量和稀疏索引,<我nline-formula id="inf38">
在阶段。我们首先确定结合的最大订单<我nline-formula id="inf39">
(这将导致non-parsimonious模型),除了没有显著提高模型精度。随后,通过保留多项式的最大订单,我们采用最大<我nline-formula id="inf40">
这并不显著影响模型的准确性。为了便于确定最优多项式和秩序<我nline-formula id="inf41">
值平衡折衷模型准确性和稀疏,我们使用一个信息理论指标,Akaike信息准则(AIC) (<一个href="#B1">Akaike 1998一个>)。具体来说,我们使用二阶信息的标准包括一个修正项,以缓解可能出现的偏差如果模型参数的数量相对于大样本点(<一个href="#B8">伯纳姆和安德森,2002年一个>):