跳转到主要内容

原始研究的文章

前面。食物。科学。抛光工艺。,15 December 2022
秒。食品安全与质量控制
卷2 - 2022 | https://doi.org/10.3389/frfst.2022.979028

数据挖掘对食品中细菌种群行为的预测和解释

  • 1农业科学研究生院,北海道大学Kita-9日本札幌
  • 2北海道大学生命科学研究生院,Kita-10 Nishi-8,日本札幌

虽然细菌种群行为一直在研究各种食品在过去40年里,很难获得所需的信息仅仅是并列的实验数据。我们预测的细菌数量的变化和可视化pH值的影响,w使用数据挖掘方法,和温度。人口增长和数据失活八致病性细菌和食物变质5025环境条件下从ComBase获得数据库(www.combase.cc),其中包括15个食物类别和温度范围从0°C到25°C。极端的梯度增加树被用来预测人的行为。均方根误差的观测值和预测值为1.23日志CFU / g。数据挖掘模型提取的增长抑制细菌与调查w,温度和pH值使用沙普利值添加剂解释。数据挖掘的方法提供信息关于细菌群体行为和食物生态系统如何影响细菌生长和失活。

1介绍

不同类型的微生物存在于食物。这些导致食源性疾病和食物变质。控制食物病原体和有害细菌,各种保护技术已经开发出来,以防止有害细菌生长在处理、分布和存储。许多因素影响食品中微生物的响应的生态系统。例如,温度、pH值、水分活度(aw)、抗菌添加剂和气体成分会影响细菌种群行为(莱斯特那2000;柯南道尔et al ., 2019),即使对细菌生长的影响和失活随细菌物种或属。调整食物中的各种环境条件使食物变质细菌生长的抑制,(古尔德,1996;莱斯特那2000)。因此,适当的微生物控制可以防止食物损失和改善食品安全。

量化和评估控制细菌生长,许多研究食品中微生物反应之后进行罗伯茨和贾维斯(1983)介绍了预测微生物学,这源于毕格罗的研究(1921),毕格罗斯蒂&(1920),和斯蒂&迈耶(1922)。每个实验数据计算获得的细菌生长和失活的殖民地文化板块作为活细胞计数或通过测量光密度随着时间的推移细胞密度受控条件下,如温度、pH值和一个w。食品中微生物的反应已经用数学模型来解释,主要探索变量是温度、pH值和一个w(罗斯和McMeekin, 1994年;使人盲目崇Tsuchido, 2003)。在过去的40年里,对环境微生物对食品的反应实验数据已经收集的研究机构、大学和企业根据他们的目标。积累的数据存储在数据库如ComBase数据库(www.combase.cc),它是提供容易获得开发微生物在研究机构的数据和出版物由不同的实验室(Baranyi et al ., 2004)。目前,所有的努力是至关重要的条件类似的物种或收集数据通过文学或数据库评估产品安全。需要一个全面的统计分析理解细菌种群行为无论食物和细菌。

研究已经进行了了解全球趋势的微生物反应积累数据。在预测微生物学,研究分析使用,这是一个方法来合并,总而言之,或回顾以前的定量研究识别趋势的一个统计模型特定的食物和细菌(如。,评估失活的大肠杆菌在发酵肉(McQuestin et al ., 2009),荟萃分析定量微生物风险评估和基准测试数据(窝Besten Zwietering, 2012),增长和失活单核细胞增多性李斯特氏菌在牛奶或非热能的失活单核细胞增多性李斯特氏菌在发酵香肠(Mataragas et al ., 2015)]。统计模型通常需要分析师指定解释变量和响应变量之间的函数形式(Hochachka et al ., 2007)。研究使用荟萃分析结果,提供了适合一些目标,如最大增长率或细菌生长趋势/失活的食物。然而,荟萃分析与统计模型本身不一定是系统和往往是零碎的生气食物/细菌分析。细菌生长不仅影响因素如温度、pH值和一个w,而且细胞密度(Koutsoumanis代表作,2005年;Skandamis et al ., 2007;Bidlas et al ., 2008),每一种食物的特点,气体气氛(柯南道尔et al ., 2019)。识别复杂的食物和细菌之间的关系需要复杂的数学公式和高维变量的发展。预测细菌数量变化和探索每个因素的影响对微生物反应使用大数据,非参数方法,需要开发没有假设基于领域知识,被认为是有用的(Deringer et al ., 2021)。

数据挖掘是一种有效的方法,分析大量积累数据。数据挖掘是大型数据库的二次分析来识别和解释隐藏模式(一方面,1998)。最近的大数据的积累促进了数据库在各个领域的发展。因此,数据挖掘技术已经应用于许多领域,如农业(科尔特斯et al ., 2009;Gulyaeva et al ., 2020)、生态(Hochachka et al ., 2007;罗斯et al ., 2018)、医学及卫生保健(cio和威廉·摩尔,2002年;Delen et al ., 2005;Koh和褐色,2005年;莫汉蒂et al ., 2022)和食品质量(科尔特斯et al ., 2009;Jimenez-Carvelo et al ., 2019;Nychas et al ., 2021)。使用机器学习,响应之间的关系和功能可以确定的经验数据。这种方法可以发现这些模式的新知识。我们所知,只有一个数据挖掘领域的研究进行了预测细菌种群的行为。Hiura et al。(2021)预测了细菌的行为单核细胞增多性李斯特氏菌利用微生物对食品的ComBase数据库环境。ComBase数据库包含细菌和食物信息,如细菌属或种的名称和类别或介质或食物的名称。这些信息使我们能够提取细菌的综合特征响应,如食品生态系统之间的关系和细菌数量的变化,通过分析数据在先前的研究报告。以这种方式,探索微生物之间的相互作用的整体趋势增长和失活和条件从积累的数据会有优势的比较和评估细菌数量的变化在不同的细菌和不同的食物。

在目前的研究中,目标是不仅开发一个机器学习模型预测人口食品相关细菌的行为在各种各样的食品,但也想象pH值的影响,w使用数据挖掘方法,和温度。数据对于活细胞数量的变化随着时间的推移被用于八食源性细菌和食物变质:“气单胞菌属hydrophila”、“蜡样芽胞杆菌”、“大肠杆菌”、“单核细胞增多性李斯特氏菌”、“假单胞菌spp。”、“金黄色葡萄球菌,沙门氏菌spp。”和“鼠疫enterocolitica”。微生物反应从ComBase数据库收集的食品环境。收集的数据包括人口行为基于15食品类别——“牛肉”,“培养基”,“猪肉”“家禽”“海鲜/鱼”,“蔬菜或水果和他们的产品,”“水”“甜点的食物”,“奶”“香肠,”“奶酪”“鸡蛋和蛋产品,”“果汁和饮料,”“酱/酱,”和“面包”——与温度范围0°C-25°C。数据挖掘和机器学习方法提供信息关于人口行为及其对食品的影响生态系统。

2材料和方法

2.1从ComBase数据库数据选择

ComBase数据库包含量化微生物反应食物大约60000条记录收集来自不同研究机构和出版物。细菌密度随时间的变化为每个实验条件记录。细菌密度随时间变化的数据集在ComBase包含“记录ID”,“有机体”,“食品类别”,“食物”的名字,“温度、pH值,”w”、“环境”、“时间”和“活细胞计数”。每个数据集细菌数量的变化被赋予一个“记录ID”,这让我们认识到一个一系列的实验人群的行为。

在这项研究中,我们调查的人口变化八致病性和食物腐败细菌:答:hydrophila,昙花,大肠杆菌,l . monocytogenes,假单胞菌spp。(假单胞菌),金黄色葡萄球菌,沙门氏菌spp。(沙门氏菌),y enterocolitica。这些细菌会引起食品变质和食源性疾病。15种食品类别包括“牛肉”,“培养基”,“猪肉”“家禽”“海鲜/鱼”,“蔬菜或水果和他们的产品,”“水”“甜点的食物”,“奶”“香肠,”“奶酪”“鸡蛋和蛋产品,”“果汁和饮料,”“酱/酱,”和“面包。“数据用于模型开发和评估是那些温度范围从0°C到25°C和包含大于或等于4个观测值在每个系列实验细菌种群的行为。此外,记录的可行的计数在0 h是无法被排除在外,因为客观值, 日志 N t / N 0 不能计算。记录包含防腐剂,如醋酸、乳酸、亚硝酸盐、山梨酸也被排除在外。总共9091条记录的细菌101861人口行为从ComBase提取和活菌计数数据。表1总结了本研究的数据选择。整个“记录ID”列表提取ComBase网上补充数据S1

表1
www.雷竞技rebatfrontiersin.org

表1。摘要从ComBase提取数据。

2.2数据预处理

在目前的研究中,我们设置可行的计数的变化比作为目标变量来预测细菌行为评估细菌数量的增加和减少。对于每个记录ID,细胞浓度转换为常用对数的变化可行的数量比最初的细胞数量 日志 N t / N 0 情商中定义。1:

日志 N t 日志 N 0 = 日志 N t N 0 ( 1 )

在哪里 日志 N t 日志 N 0 活细胞浓度(日志集落形成单位(CFU) / g)存储时间是什么时候 t (h)和初始细胞浓度的对数(日志CFU / g),分别。我们使用 日志 N t / N 0 为目标变量。八个解释变量的类型包括:“时间(h)”,“温度(°C),”“pH值”,”一个w”、“初始细胞数(日志CFU / g),”“食品类别”“食物的名字,”和“有机体。“数据包括两个数值和分类数据。“时间”、“温度”、“pH”的一个w”和“初始细胞数量“数值数据,没有修改用于模型的发展。活细胞的浓度在0 h作为最初的细胞数量为每一个记录ID。此外,由于食品类别,食品名称,和生物是分类变量,他们虚变量所取代,这是一个常见的基于决策树技术在模型(Hiura et al ., 2021)。1 - 15 15食品类别转换。食品名称的类型转换为1 - 261。八个生物转化为1 - 8。数据从ComBase获得包括“记录ID”,可以用于每个病原体生存的一系列实验结果基于记录ID注册。在原始数据集,有一些数据记录ID是不同的,但实验条件(温度、““pH”,“啊,”“食品类别”,“食品名称”和“生物”)是相同的。统一的实验条件,我们命名为“记录ID”到“环境ID,避免重叠与实验条件训练和测试数据集。的记录id温度、pH值w、食品类别、食物名称和生物一样被认为是通过不同的重复实验的结果在相同条件下,同样的“环境ID”被重新分配一个实验条件的结果。因此,9091年记录id被分配到5025年环境id。总的来说,101861年观察到的情节了。在测试数据集,使用的环境条件数量是542和观察到的土地使用的数量是11106。

2.3模型开发

2.3.1极端gradient-boosting树(XGBoost)模型

XGBoost首次提出的陈和Guestrin在2016年。XGboost延伸梯度提高决策树的概念(GBDT)。GBDT是一个迭代的决策树,包括多个决策树(弗里德曼,2001)。GBDT是基于树的整体技术,使用决策树作为基本模型,顺序和梯度提高列车通过添加每个基本模型和修复所产生的错误之前的树模型。GBDT方法已被广泛用于机器学习和数据挖掘研究(Chang et al ., 2018;阮et al ., 2019;罗德里戈et al ., 2021;Shehadeh et al ., 2021)。XGBoost是本研究中使用,因为它有几个优点特性要求少工程而言,允许处理缺失值没有特定的处理等步骤,和变量没有正常化和缩放(王et al ., 2020;莫汉蒂et al ., 2022)。使用XGBoost XGBoost模型建立(版本1.5.0)Python包(https://xgboost.readthedocs.io/en/latest/python/index.html)。

2.3.2建模过程

我们旨在开发一个机器学习模型预测细菌对各种食物的环境中,以控制因素如温度、pH值,w。8个输入变量,包括五个数值数据types-temperature (°C), pH值,w、时间(h)和初始细胞数量(日志CFU / g)——三个分类数据types-food类别,食品名称,organism-were用于开发一个模型来预测细菌数量比例的变化。

有几个步骤,将整个不平衡数据集分为训练集和测试数据集。首先,整个数据集被“微生物分离。”年代econd, the dataset separated by “Microorganisms” was separated by “Food category.” Third, the dataset separated by “Microorganisms” and “Food category” was randomly divided into 9:1 without overlapping with the experimental conditions in the training and test datasets. Thus, the imbalanced dataset was separated into the training and test dataset. The training dataset was used to build a model for predicting bacterial responses to various food environments, while its hyperparameters were optimized. The test dataset was used to evaluate the performance of the tuned model.

训练预测模型之前,hyperparameters XGBoost模型用于本研究由5倍交叉验证和网格搜索。交叉验证验证模型的性能只使用训练数据集下任意hyperparameter集。它试图避免过度拟合性能恶化的未知数据(即。,测试数据集)。在这种方法中,训练数据集分为5倍(4倍的训练数据和验证数据1-fold)然后训练数据被用来训练模型,并验证数据被用来验证性能。重复这个验证循环交换与训练数据的验证数据,模型的性能验证。网格搜索是由选择每个hyperparameter值从一个预定义的范围,从而执行(即最高。最优)hyperparameters决心。hyperparameters XGBoost模型被设定在某些范围(补充表S1)和优化如下:9的最大树深度,min_child_weight 1,γ是0.3,0.6的子样品,colsample_bytree 0.6, reg_alpha 100。

2.4评估模型的准确性

开发模型的预测精度评估使用542个测试数据集的环境ID没有用于模型开发。确定系数(R2)和均方根误差(RMSE)对所有测试数据计算,每一个生物,和每个食品类别索引来评估模型的准确性。的R2和RMSE值由方程式给出2,3分别为:

R 2 = 1 = 1 n y y ^ 2 = 1 n y μ y 2 ( 2 )
R 年代 E = 1 n = 1 n y y ^ 2 ( 3 )

在哪里 y , y ^ , μ y th观察 日志 N t / N 0 , th预测 日志 N t / N 0 ,平均 日志 N t / N 0 ,分别。每个评价指标计算使用Scikit-learn(版本1.0.1)Python包。

2.5二维(2 d)图可视化的细菌的行为

使用开发模型, 日志 N t / N 0 预测在不同的pH值,是吗w初始细胞计数时,气温4日志CFU / g在肉汤10天。可视化微生物响应各种环境, 日志 N t / N 0 在10天内分为四个级别,“强烈增加”(改变> 3-log周期),“增加”(2±1日志周期的变化),“生存”(0±1日志周期的变化),和“下降”(−2±1日志周期的变化)。然后我们策划和2 d地图颜色反应,得到三种类型的地图,pH-aw、pH-temperature和温度w。确认这2 d图的有效性,我们预测了 日志 N t / N 0 一些实验条件下和可视化在先前的研究报道。

我们然后比较二维彩色地图与文献中的数据增长/没有增长的实验,并没有记录在ComBase。用于外部验证的数据被选中时,考虑到实验条件简单描述细菌行为由八个解释变量。作为一个代表性的失活过程,我们引用的增长/不增长的实验研究l . monocytogenes在汤(Koutsoumanis et al ., 2004)。增长/无增长l . monocytogenes实验观察到在30天后培养基25°C (a), pH值5.47 - -5.58 (b)和w0.965 - -0.967 (c)后30天。

2.6机器学习模型的解释

2.6.1特性重要性

功能重要性计算解释开发模型的过程模型的发展。这允许我们了解每个解释变量导致了预测性能的培训期间XGBoost算法。的特性是评估使用获得的重要性,这是一个指数显示功能在构建一个基于树模型的有效性。更高的值表示特性的预测有很大的影响 日志 N t / N 0 。功能重要性计算使用XGBoost Python包(https://xgboost.readthedocs.io/en/latest/python/python_api.html)。

2.6.2夏普利添加剂解释(世鹏科技电子)值

作为模型解释的另一种方法,我们使用了世鹏科技电子框架提出的她和李(2017)。世鹏科技电子是一个新的和灵活的方法,解决了机器学习系统作为一个所谓的“黑箱模型”通过提供一个强烈的特性如何影响预测结果的解释。虽然功能重要性受雇于XGBoost定位随着全球模型的解释,世鹏科技电子可以直接测量本地特性的解释为单个样品,否则可能会被忽视(Moncada-Torres et al ., 2021)。因为model-agnostic世鹏科技电子的方法,他们使用各种模型类型和在许多领域的研究(她和李,2017年;Agius et al ., 2020;Mangalathu et al ., 2020;Ndraha et al ., 2021;罗德里戈et al ., 2021;杨和刘,2021年;Zoabi et al ., 2021)。

世鹏科技电子值为一个功能在一个示例中描述的程度这个特性有助于预测输出。世鹏科技电子更高价值表明,预测特性有较大的影响 日志 N t / N 0 世鹏科技电子价值越低,表明财富,而较小的影响。积极的世鹏科技电子值表示一个特性预测作出了积极的贡献 日志 N t / N 0 ,而一个负值表示负贡献。通过计算一个世鹏科技电子值为每个数据点,更详细的解释全球功能的重要性,如功能之间的关系和其相应的影响(如输出。世鹏科技电子依赖图(Lundberg et al ., 2018),可以获得。

世鹏科技电子值计算使用TreeSHAP (Lundberg et al ., 2018),世鹏科技电子的变种,开发基于树的机器学习模型,XGBoost等纳入世鹏科技电子(版本0.40.0)Python包(https://shap.readthedocs.io/en/latest/index.html)。所有预处理步骤、模型开发、和统计分析使用Python(版本3。8。12)。

3的结果

3.1评估模型的准确性

通过开发一个机器学习模型中,我们的数据挖掘方法在粗糙的协议对预测精度满足各种类型的微生物和食品类别。图1代表整体预测结果包括所有类型的微生物和食品类别,的R2和RMSE值分别为0.76和1.23,分别。的准确性评估相比还是一直令人信服Hiura et al。(2021)(0.75R2分别为1.02,RMSE)。紧随其后的是这个,结果除以每一个微生物,由每个食品类别所示图2,3,分别。中每一个生物图2,RMSE值分别为1.35,1.41,1.42,1.20,1.42,1.03,1.07,和1.08答:hydrophila,b的仙人掌,大肠杆菌,l . monocytogenes,假单胞菌,金黄色葡萄球菌,沙门氏菌,y enterocolitica,分别。在图3为培养基,RMSE值,牛肉、猪肉、家禽、香肠、鸡蛋、海鲜、牛奶、奶酪、蔬菜或水果,面包,甜点食品,饮料,水,和酱/酱是1.21,1.24,1.29,1.52,1.43,1.11,1.06,1.17,1.51,1.31,0.60,0.98,1.29,1.33,和1.89,分别。这些结果表明,开发的模型灵活响应各种环境条件不同数量的数据。请注意,R2和RMSE酱/酱图3(o)]是相对比其他生物和食品类别。

图1
www.雷竞技rebatfrontiersin.org

图1。比较预测和观察日志的变化比所有的测试数据。实线表示残差= 0。

图2
www.雷竞技rebatfrontiersin.org

图2。比较预测和观察日志的改变率的测试数据气单胞菌属hydrophila(一),蜡样芽胞杆菌(B),大肠杆菌(C),单核细胞增多性李斯特氏菌(D),假单胞菌(E),金黄色葡萄球菌(F),沙门氏菌(G),鼠疫enterocolitica(H)。实线表示残差= 0。

图3
www.雷竞技rebatfrontiersin.org

图3。比较预测和观察记录测试数据的变化比培养基(一)、牛肉(B)、猪肉(C)、家禽(D)、香肠(E)、鸡蛋(F)、海鲜(G)、牛奶(H)、奶酪(我)、蔬菜或水果(J)、面包(K)、甜点食品(L)、饮料(M)、水(N)和酱/酱(O)。实线表示残差= 0。

3.2二维彩色图可视化的细菌的行为

我们引入新的2 d可视化说明细菌生长/存活比使用组合的温度,pH值,w图4八个细菌行为显示了彩色地图肉汤10天后当最初的数量是4日志CFU / g。这一限制w价值的增长金黄色葡萄球菌是0.90,而对于大多数微生物是一个w值为0.91或以上。最低的pH值b的仙人掌增长的估计为5.0,而许多其他生物是4.0 - -4.5。所有八个细菌生长,当pH值大于5.5。2 d彩色地图的一些例子,如温度w和pH-temperature,可以发现补充信息。我们观察到的增长相比/没有增长的实验l . monocytogenes在25°C(培养基Koutsoumanis et al ., 2004)和2 d地图预测。所示图5,2 d绘图是视觉上的有效性确认。

图4
www.雷竞技rebatfrontiersin.org

图4。变化比例从最初的细胞计数在肉汤20°C的初始浓度4日志CFU / g 10天后气单胞菌属hydrophila(一),蜡样芽胞杆菌(B),大肠杆菌(C),单核细胞增多性李斯特氏菌(D),假单胞菌(E),金黄色葡萄球菌(F),沙门氏菌(G),鼠疫enterocolitica(H)。每平方情节代表日志的价值变化比( 日志 N t / N 0 )。图形区由有机体被定义为/ pH值的范围w在数据集。No-plots区域代表以外的训练和测试数据范围。

图5
www.雷竞技rebatfrontiersin.org

图5。对比观察增长( )和成长(☓)和预测变化比率从最初的细胞计数的肉汤单核细胞增多性李斯特氏菌30天后25°C(一),pH值5.47 - -5.58(B)与一个w0.965 - -0.967的(C)。从实验数据Koutsoumanis et al。(2004)。每平方情节代表日志的价值变化比( 日志 N t / N 0 );深红色是“强烈增加”(改变> 3-log周期),红色是“增加”(2±1日志周期的变化),灰色是“生存”(0±1日志周期的变化),和蓝色是“减少”(−2±1日志周期的变化)。

3.3模型的解释

3.3.1特性重要性

我们计算功能重要性获得重要的解释变量的贡献模型发展的预测性能。图6显示了功能开发了XGBoost模型的重要性。每个特性的重要性代表的比例每个特性的重要性当功能重要性的总和值是1。“最初的细胞数量”、“时间”,和“w“最模型发展和贡献几乎相同的程度。分类变量代表的名字“有机体”细菌导致模型发展主要是在相同的程度上“pH”和“温度数值变量。“信息关于食物,如食物类别和名称,也导致了模型发展。所有功能在一定程度上导致了模型开发。

图6
www.雷竞技rebatfrontiersin.org

图6。功能开发了XGBoost模型的重要性。的x设在表示的相对重要性,y设在表示特性的名称。蓝色和灰色酒吧显示分类和数值变量,分别。

3.3.2世鹏科技电子价值

看到更深层次的角度(即模型的可解释性。,relationship between each environmental condition and the bacterial growth), we introduced the SHAP framework. The SHAP values for the three environmental features were calculated to determine the contribution of the environmental factors to bacterial growth. The SHAP value explains the contribution of each variable to the predicted 日志 N t / N 0 一个实例的价值。积极和高世鹏科技电子值表明积极影响预测功能价值 日志 N t / N 0 。相反,消极的暗示和低世鹏科技电子值特征值有负面影响。绝对世鹏科技电子值表示的效应大小环境因素。图7显示了SHAP-dependence情节w、pH值和温度。一个越高w,世鹏科技电子价值越高w(图7)。世鹏科技电子值温度的,遵循了类似的关系w(图7 c)。然而,世鹏科技电子pH值最高,当pH值大约是7 (图7 b)。根据世鹏科技电子依赖的结果对于每一个环境因素,可以建议一些细菌的行为趋势。在的价值w大于0.95,一个w积极影响细菌生长。当pH值大约是7,它积极地影响细菌生长。pH值小于5.0时,低pH值负面影响细菌生长。当温度是10到25°C,它积极影响细菌生长。

图7
www.雷竞技rebatfrontiersin.org

图7沙普利加解释(世鹏科技电子)对水的依赖阴谋活动(一)pH值,(B)和温度(C)

4讨论

在目前的研究中,我们演示了应用数据挖掘的方法来预测细菌种群行为使用ComBase数据库(图1- - - - - -3)和可视化这些2 d地图(图4)。分类数据,如生物、食品类别,和食品的名字也在某种程度上导致了建筑模型的开发模型(图6)。此外,我们证明了对细菌的生长环境影响人口(图7)。数据挖掘的方法允许我们多维细菌之间的关系模型,揭示了人口环境行为和食物。我们表明,数据驱动的方法来分析积累解决食品安全问题的数据可能是有用的。

虽然在这项研究中使用的数据集的数值和分类变量,使用机器学习算法使我们能够预测细菌种群行为使用单一预测模型(图1)。与数值变量不同,分类变量(例如,食物类别,名称和生物)与数字数据必须更换,如虚变量数值操作(印度和Awang, 2008;金和香港,2017年)。统计建模很难考虑分类数据存在多个条件时,如食物名称和环境条件(金和香港,2017年;Hiura et al ., 2021)。相比之下,启用了机器学习模型的描述食物环境和细菌之间的关系,为统计模型是困难的或人工的手由于高维度定义。此外,我们成功地提出的扩展模型Hiura et al。(2021)包括八个细菌种类和15个食物类别。

我们可视化细菌种群行为基于全景的概念评价整个趋势的微生物反应的各种条件。我们的2 d地图可视化显示的组合因素,防止细菌生长(图4)。与文献数据相比,我们的2 d彩色地图可以描述人口的行为趋势单核细胞增多性李斯特氏菌在相同的程度上(图5),它支持我们的彩色地图的有效性。类似于我们的研究中,Ratkowsky &罗斯(1995)提出了一个增长/没有增长的接口模型。增长/不增长界面模型估计细菌生长的概率和发现的组合因素阻止增长。增长/不增长接口已广泛应用于先前的研究在预测微生物学(Tienungoon et al ., 2000;麦凯乐卢,2001年;勒马克et al ., 2005;Polese et al ., 2011;花冠et al ., 2012;黑田et al ., 2019)。这种方法被用来确定细菌可以轻松地在各种实验条件下生长。然而,这个接口不能表达的细节细菌种群密度。在目前的研究中,我们成功地评估不仅是否有增长,而且细菌种群密度的变化(图4)。我们的可视化方法帮助我们了解细菌浓度在不同条件的一瞥。可视化方法可以用于开发过程提供信息真实的食品安全风险的估计。因此,我们的2 d地图模型是重要的传播食品安全法规。

世鹏科技电子值描述为每个预测每个解释变量的贡献 日志 N t / N 0 。一个积极的世鹏科技电子值表示细菌生长。消极的世鹏科技电子值表示细菌数量减少。我们成功地挖掘信息的细菌生长和环境之间的关系的数据集(图7)。这些结果是符合食品微生物学的普遍观点。等许多食物变质和食物中毒的细菌大肠杆菌,假单胞菌spp。,b的仙人掌,最低w值增长约0.95 (Jay et al ., 2008 a)。的一个w价值的积极影响细菌生长如果是大于大约0.95。细菌生长的最佳pH值范围是大约7 (图7)。大多数食品变质和食物中毒的细菌生长差随着pH值降低,特别是低于3.5 (在尼克莱德斯亚当斯和,1997年;Jay et al ., 2008 a)。同样,pH值可以用来预测细菌人口增长6 - 7的范围,而他们负5 pH值以下工作(图7 b)。另外,大多数食源性微生物生长在20-45°C,和许多细菌物种,除了精神的细菌或它们,不能增长低于7°C (Jay et al ., 2008 a;Jay et al ., 2008 b)。同样,温度有利于细菌生长超过大约10°C (图7 c)。我们通过计算对细菌生长呈负影响世鹏科技电子值。这里的协会发现复制知名食品微生物细菌生长的特点,支持我们的研究结果的有效性,利用数据挖掘的可能性来提取细菌种群的行为。

虽然我们的研究使用数据驱动的方法来分析实验数据ComBase数据库中的一些优势和期望,它也有一定的局限性。我们的模型并不认为预测微生物的生态,因为ComBase数据库主要侧重于细菌生长和失活的只有一种类型的细菌种类为简化每个实验。在未来,竞争性微生物条件将分析数据集包含的微生物生态学数据驱动的方法。

5的结论

数据挖掘预测人口行为15 8食源性致病菌和腐败菌的食品环境。此外,生长抑制由于食品环境定量评价使用数据驱动的方法。我们的方法使我们能够提取有用的信息关于食品安全从大量的实验数据。细菌种群行为预测的这个过程可以提供指导方针,确定食品加工和储存条件。本研究的主要发现支持数据挖掘方法在食品微生物学领域的价值。

数据可用性声明

最初的贡献提出了研究中都包含在这篇文章/补充材料,进一步的调查可以针对相应的作者。

作者的贡献

JH、JS、锡、SK、KK概念化的研究。JH, JS、SN和KK设计计算。JH和JS分析数据。JH的python脚本,初稿写手稿。所有作者回顾了手稿。

资金

这项工作也由Kieikai研究基金会和托比Maki奖学金基金会(乐),日本科学技术振兴机构创新中心项目(批准号:JPMJCE1301)波峰(JPMJCR20H4)和jsp KAKENHI (JP20H00425 JP21K19813) (SN)。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frfst.2022.979028/full补充材料

引用

亚当斯,m R。,N我colaides, L. (1997). Review of the sensitivity of different foodborne pathogens to fermentation.食品控制。8 (5 - 6),227 - 239。doi: 10.1016 / s0956 - 7135 (97) 00016 - 9

CrossRef全文|谷歌学术搜索

Agius, R。,Brieghel, C., Andersen, M. A., Pearson, A. T., Ledergerber, B., Cozzi-Lepri, A., et al. (2020). Machine learning can identify newly diagnosed patients with CLL at high risk of infection.Commun Nat。11 (1),363 - 417。doi: 10.1038 / s41467 - 019 - 14225 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Baranyi, J。,Tamplin, M., and Ross, T. (2004). The ComBase initiative.Microbiol。欧斯特。25 (3),32。doi: 10.1071 / ma04332

CrossRef全文|谷歌学术搜索

Bidlas E。杜,T。,Lambert, R. J. W. (2008). An explanation for the effect of inoculum size on MIC and the growth/no growth interface.Int。j . Microbiol食物。126 (1 - 2),140 - 152。doi: 10.1016 / j.ijfoodmicro.2008.05.023

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

常,y . C。,Chang, K. H., and Wu, G. J. (2018). Application of eXtreme gradient boosting trees in the construction of credit risk assessment models for financial institutions.达成。柔软的第一版。73年,914 - 920。doi: 10.1016 / j.asoc.2018.09.029

CrossRef全文|谷歌学术搜索

陈,T。,Guestrin, C. (2016). XGBoost: A scalable tree boosting system.ACM SIGKDD国际会议的程序知识发现和数据挖掘ACM,纽约,纽约,美国2016年,785 - 794。doi: 10.1145/2939672.2939785

CrossRef全文|谷歌学术搜索

cio、k . J。,William Moore, G. (2002). Uniqueness of medical data mining.Artif。智能。地中海。26(1 - 2),上皮。doi: 10.1016 / s0933 - 3657 (02) 00049 - 0

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

花冠,L。,Kan-King-Yu, D., Leguerinel, I., Mafart, P., and Membre, J. M. (2012). Modelling of growth, growth/no-growth interface and nonthermal inactivation areas of Listeria in foods.Int。j . Microbiol食物。152 (3),139 - 152。doi: 10.1016 / j.ijfoodmicro.2011.09.023

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

科尔特斯,P。,Cerdeira, A., Almeida, F., Matos, T., and Reis, J. (2009). Modeling wine preferences by data mining from physicochemical properties.决策。支持系统。47 (4),547 - 553。doi: 10.1016 / j.dss.2009.05.016

CrossRef全文|谷歌学术搜索

Delen D。,Walker, G., and Kadam, A. (2005). Predicting breast cancer survivability: A comparison of three data mining methods.Artif。智能。地中海。34 (2),113 - 127。doi: 10.1016 / j.artmed.2004.07.002

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

窝Besten, h . m . W。,Zwietering, M. H. (2012). Meta-analysis for quantitative microbiological risk assessments and benchmarking data.食品科学发展趋势。抛光工艺。,34-39。doi: 10.1016 / j.tifs.2011.12.004

CrossRef全文|谷歌学术搜索

模式,v . L。巴托克,a P。伯恩斯坦,N。,Wilkins, D. M., Ceriotti, M., and Csanyi, G. (2021). Gaussian process regression for materials and molecules.化学。牧师。121年,10073 - 10141。doi: 10.1021 / acs.chemrev.1c00022

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

柯南道尔,m . P。,Diez-Gonzalez, F., and Hill, C. (2019). Food microbiology: Fundamentals and frontiers.Microbiol食物。Fundam。前面。doi: 10.1002 / 9781683670476

CrossRef全文|谷歌学术搜索

Friedman, j . h (2001)。贪婪的函数近似:梯度增加机器。安。统计。29 (5),1189 - 1232。doi: 10.1214 /市场/ 1013203451

CrossRef全文|谷歌学术搜索

古尔德,g . w . (1996)。保护和延长货架期的方法。Int。j . Microbiol食物。33 (1),51 - 64。0168 - 1605 . doi: 10.1016 / (96) 01133 - 6

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Gulyaeva, M。,Huettmann, F., Shestopalov, A., Okamatsu, M., Matsuno, K., Chu, D. H., et al. (2020). Data mining and model-predicting a global disease reservoir for low-pathogenic Avian Influenza (A) in the wider Pacific rim using big data sets.科学。代表。10 (1),16817 - 16911。doi: 10.1038 / s41598 - 020 - 73664 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

一方面,d . j . (1998)。数据挖掘:统计和更多?点。统计。52 (2),112 - 118。doi: 10.1080 / 00031305.1998.10480549

CrossRef全文|谷歌学术搜索

Hiura, S。,Koseki, S, and Koyama, K. (2021). Prediction of population behavior of Listeria monocytogenes in food using machine learning and a microbial growth and survival database.科学。代表。11 (1),10613。doi: 10.1038 / s41598 - 021 - 90164 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Hochachka, w . M。Caruana, R。芬克,D。,米unson, A., Riedewald, M., Sorokina, D., et al. (2007). Data-mining discovery of pattern and process in ecological systems.j . Wildl。管理。71 (7),2427。2006 - 503 . doi: 10.2193 /

CrossRef全文|谷歌学术搜索

使人盲目崇,。,Tsuchido, T. (2003).预测微生物学:一个回顾,生物电控制科学。日本:抗菌和抗真菌剂的社会,1 - 7。doi: 10.4265 / bio.8.1

CrossRef全文|谷歌学术搜索

杰,j . M。,Loessner, M. J., and Golden, D. A. (2008a). “Intrinsic and extrinsic parameters of foods that affect microbial growth,” in现代食品微生物学(激飞美国),39-59。doi: 10.1007 / 0 - 387 - 23413 - 6 - _3

CrossRef全文|谷歌学术搜索

杰,j . M。,Loessner, M. J., and Golden, D. A. (2008b). “Protection of foods with low-temperatures, and characteristics of psychrotrophic microorganisms,” in现代食品微生物学(激飞美国),395 - 413。doi: 10.1007 / 0 - 387 - 23413 - 6 - _16

CrossRef全文|谷歌学术搜索

Jimenez-Carvelo, a . M。,et al。(2019)。选择数据挖掘/机器学习方法分析评价食品质量和真实性的审查。食物Int >,爱思唯尔有限公司,25 - 39。doi: 10.1016 / j.foodres.2019.03.063

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

金,K。,Hong, J. S, Yun, K. Y., Han, S. E., Kim, E. S., Kwon, B. S., et al. (2017). Laparoscopically assisted suprapubic surgery for adnexal tumors under epidural anesthesia.最小的。入侵。”盟军抛光工艺。98年,39-43。doi: 10.1080 / 13645706.2016.1223695

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Koh, h . C。,Tan, G. (2005). Data mining applications in healthcare.j . Healthc。正,等内容。19 (2),64 - 72。doi: 10.4314 / ijonas.v5i1.49926

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Koutsoumanis, k . P。肯德尔,p。,年代ofos, J. N. (2004). A comparative study on growth limits of Listeria monocytogenes as affected by temperature, pH and aw when grown in suspension or on a solid surface.Microbiol食物。21 (4),415 - 422。doi: 10.1016 / j.fm.2003.11.003

CrossRef全文|谷歌学术搜索

Koutsoumanis, k . P。,年代ofos, J. N. (2005). Effect of inoculum size on the combined temperature, pH and aw limits for growth of Listeria monocytogenes.Int。j . Microbiol食物。104 (1),83 - 91。doi: 10.1016 / j.ijfoodmicro.2005.01.010

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

黑田,S。,Okuda, H., Ishida, W., and Koseki, S. (2019). Modeling growth limits of Bacillus spp. spores by using deep-learning algorithm.Microbiol食物。78年,38-45。doi: 10.1016 / j.fm.2018.09.013

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

马克,Y。销,C。,Baranyi, J。(2005). “Methods to determine the growth domain in a multidimensional environmental space,” in国际食品微生物学杂志》上(爱思唯尔),3 - 12。doi: 10.1016 / j.ijfoodmicro.2004.10.003

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

莱斯特那,l (2000)。“食物保存的基本方面障碍技术,”国际食品微生物学杂志》上(爱思唯尔),181 - 186。doi: 10.1016 / s0168 - 1605 (00) 00161 - 6

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Lundberg, s M。不,G G。,Lee, S.-I. (2018). Consistent individualized feature attribution for tree ensembles. Available at:https://arxiv.org/abs/1802.03888v3(访问:2022年1月21日)。

谷歌学术搜索

Lundberg, s M。,Lee, S. I. (2017). “A unified approach to interpreting model predictions,” in先进的神经信息处理系统,4766 - 4775。可以在:https://github.com/slundberg/shap(访问:2021年9月28日)。

谷歌学术搜索

Mangalathu, S。黄,s . H。,Jeon, J. S. (2020). Failure mode and effects analysis of RC members based on machine-learning-based SHapley Additive exPlanations (SHAP) approach.Eng。结构体。219年,110927年。doi: 10.1016 / j.engstruct.2020.110927

CrossRef全文|谷歌学术搜索

Mataragas, M。,Rantsioua, K., Alessandria, V., and CocoLin, L. (2015). Estimating the non-thermal inactivation of Listeria monocytogenes in fermented sausages relative to temperature, pH and water activity.肉类科学。100年,171 - 178。doi: 10.1016 / j.meatsci.2014.10.016

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

麦凯乐,r . C。,Lu, X. (2001). A probability of growth model for Escherichia coli O157:H7 as a function of temperature, pH, acetic acid, and salt.j .食物防。64 (12)1922 - 1928。doi: 10.4315 / 0362 - 028 x - 64.12.1922

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

McQuestin o . J。,年代hadbolt, C. T., and Ross, T. (2009). Quantification of the relative effects of temperature, pH, and water activity on inactivation of Escherichia coli in fermented meat by meta-analysis.达成。环绕。Microbiol。75 (22),6963 - 6972。doi: 10.1128 / AEM.00291-09

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

莫汉蒂,s D。Lekan D。,米cCoy, T. P., Jenkins, M., and Manda, P. (2022). Machine learning for predicting readmission risk among the frail: Explainable AI for healthcare.模式3 (1),100395。doi: 10.1016 / j.patter.2021.100395

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Moncada-Torres,。,van Maaren, M. C., Hendriks, M. P., Siesling, S., and Geleijnse, G. (2021). Explainable machine learning can outperform Cox regression predictions and provide insights in breast cancer survival.科学。代表。11 (1),6968 - 7013。doi: 10.1038 / s41598 - 021 - 86327 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Ndraha, N。,Hsiao, H. I., Hsieh, Y. Z., and Pradhan, A. K. (2021). Predictive models for the effect of environmental factors on the abundance of Vibrio parahaemolyticus in oyster farms in Taiwan using extreme gradient boosting.食品控制。130年,108353年。doi: 10.1016 / j.foodcont.2021.108353

CrossRef全文|谷歌学术搜索

阮,M。,Long, S. W., McDermott, P. F., Olsen, R. J., Olson, R., Stevens, R. L., et al. (2019). Using machine learning to predict antimicrobial MICs and associated genomic features for nontyphoidal Salmonella.j .中国。Microbiol。57 (2),012600 - e1318。doi: 10.1128 / JCM.01260-18

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Nychas G.-J。西姆斯E。,Tsakanikas, P., and Mohareb, F. (2021). Data science in the food industry.为基础。启生物医学。科学数据。4 (1),341 - 367。doi: 10.1146 / annurev - biodatasci - 020221 - 123602

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

印度,S。,Awang, R. (2008). Intelligent heart disease prediction system using data mining techniques.AICCSA 08 - 6日IEEE / ACS国际会议上计算机系统和应用程序IEEE,卡塔尔多哈108 - 115。doi: 10.1109 / AICCSA.2008.449352431 2008 - 04年3月2008年4月

CrossRef全文|谷歌学术搜索

Polese, P。,Del Torre, M., Spaziani, M., and Stecchini, M. L. (2011). A simplified approach for modelling the bacterial growth/no growth boundary.Microbiol食物。28 (3),384 - 391。doi: 10.1016 / j.fm.2010.09.011

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

罗德里戈,H。,Beukes, E. W., Andersson, G., and Manchaiah, V. (2021). Exploratory data mining techniques (decision tree models) for examining the impact of internet-based cognitive behavioral therapy for tinnitus: Machine learning approach.j .地中海。互联网Res。23 (11),e28999。doi: 10.2196/28999

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

罗斯,s . r . p . J。弗里德曼:R。达德利,k . L。Yoshimura, M。吉田,T。,Economo, E. P. (2018). Listening to ecosystems: Data-rich acoustic monitoring through landscape-scale sensor networks.生态。Res。33 (1),135 - 147。doi: 10.1007 / s11284 - 017 - 1509 - 5

CrossRef全文|谷歌学术搜索

罗斯,T。,米cMeekin, T. A. (1994). Predictive microbiology.Int。j . Microbiol食物。23 (3 - 4),241 - 264。0168 - 1605 . doi: 10.1016 / (94) 90155 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Shehadeh,。,Alshboul, O., Al Mamlook, R. E., and Hamedat, O. (2021). Machine learning models for predicting the residual value of heavy construction equipment: An evaluation of modified decision tree, LightGBM, and XGBoost regression.自动化若干。129年,103827年。doi: 10.1016 / j.autcon.2021.103827

CrossRef全文|谷歌学术搜索

Skandamis, p . N。,年代topforth, J. D., Kendall, P. A., Belk, K. E., Scanga, J. A., Smith, G. C., et al. (2007). Modeling the effect of inoculum size and acid adaptation on growth/no growth interface of Escherichia coli O157:H7.Int。j . Microbiol食物。120 (3),237 - 249。doi: 10.1016 / j.ijfoodmicro.2007.08.028

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Tienungoon, S。,Ratkowsky, D. A., McMeekin, T. A., and Ross, T. (2000). Growth limits of Listeria monocytogenes as a function of temperature, pH, NaCl, and lactic acid.达成。环绕。Microbiol。66 (11),4979 - 4987。doi: 10.1128 / aem.66.11.4979 - 4987.2000

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

王,L。,Wang, X., Chen, A., Jin, X., and Che, H. (2020). Prediction of type 2 diabetes risk and its effect evaluation based on the xgboost model.Healthc。Switz。8 (3),247。doi: 10.3390 / healthcare8030247

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

杨。,Liu, M. (2021). Mining meta-indicators of university ranking: A machine learning approach based on SHAP. Available at:https://arxiv.org/abs/2111.12526v1(访问:2022年1月7日)。

谷歌学术搜索

Zoabi是Y。,Kehat, O., Lahav, D., Weiss-Meilik, A., Adler, A., and Shomron, N. (2021). Predicting bloodstream infection outcome using machine learning.科学。代表。11 (1),20101 - 20111。doi: 10.1038 / s41598 - 021 - 99105 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:数据库、预测微生物学、数据驱动的方法,夏普利添加剂、人口的行为

引用:Hosoe J, Sunagawa J, Nakaoka年代,户籍或年代和小山K(2022)数据挖掘预测和解释食品中细菌种群的行为。前面。食物。科学。抛光工艺。2:979028。doi: 10.3389 / frfst.2022.979028

收到:2022年6月27日;接受:2022年12月05;
发表:2022年12月15日。

编辑:

格帕兰Sivaraman,中央渔业技术研究所(ICAR),印度

审核:

清丽董上海科学技术大学,中国
唐纳德·w·夏弗纳罗格斯,新泽西州州立大学的美国

版权因此©2022 Hosoe Sunagawa Nakaoka,户籍和小山。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Kento小山,kkoyama@agr.hokudai.ac.jp

__这些作者贡献了同样的工作

下载