原始研究的文章

前面。麝猫。,23January 2023
秒。计算基因组学
卷14 - 2023 | https://doi.org/10.3389/fgene.2023.947466

PhageTailFinder:噬菌体尾巴的工具模块检测和注释

Fengxia周 ¹*^‡, www.雷竞技rebatfrontiersin.org

汉杨¹ ^‡, www.雷竞技rebatfrontiersin.org

于斯¹ ^‡,

鲁伊·甘 ¹, www.雷竞技rebatfrontiersin.org

凌昱¹,

Chuangeng陈 ¹,

春燕任 ², www.雷竞技rebatfrontiersin.org

Jiqiu吴³ ^__和

张的粉丝 ^1、4*^__

¹生命科学中心,生命科学与技术学院的,哈尔滨工业大学,哈尔滨,中国
²血液学、肿瘤学、波士顿儿童医院、哈佛医学院、波士顿,MA,美国
³部门的遗传学,格罗宁根大学医学中心,格罗宁根,荷兰格罗宁根大学
⁴安徽省重点实验室医学物理和技术、健康和医疗技术研究所合肥研究院的物理科学,中国科学院合肥,中国

几十年的过度消费的抗菌素治疗和预防细菌感染导致的增加耐药细菌的出现,对公众健康构成重大挑战,迫切需要找到替代传统抗生素。噬菌体是特定细菌感染宿主的病毒,经常破坏受感染细菌的宿主。噬菌体吸附并输入他们的潜在宿主使用他们的尾巴蛋白质,尾巴的组成决定的范围可能感染细菌。帮助开发噬菌体治疗的目的,我们开发了PhageTailFinder算法来预测tail-related蛋白质和识别假定的尾巴模块之前无特征噬菌体。PhageTailFinder依赖于两国隐马尔可夫模型(HMM)的概率预测给定tail-related蛋白质。这个过程考虑的自然模块化噬菌体tail-related蛋白质,而不是简单地考虑氨基酸属性或孤立地为每个蛋白质二级结构。噬菌体PhageTailFinder表现出强大的预测能力的尾巴蛋白质小说噬菌体由于这sequence-independent操作。预测模型的性能是评价992年13广泛研究噬菌体和一个示例的完整的从NCBI数据库噬菌体。算法实现了真阳性预测率高(> 80%)的一半以上(571)的研究噬菌体,使用一般模型和中华民国值为0.877和0.968使用相应的形态模型。值得注意的是,992年的中华民国值中值完成噬菌体是小说噬菌体甚至超过0.75,表明PhageTailFinder的精度高和特异性。 When applied to a dataset containing 189,680 viral genomes derived from 11,810 bulk metagenomic human stool samples, the ROC value was 0.895. In addition, tail protein clusters could be identified for further studies by density-based spatial clustering of applications with the noise algorithm (DBSCAN). The developed PhageTailFinder tool can be accessed either as a web server (http://www.microbiome-bigdata.com/PHISDetector/index/tools/PhageTailFinder)或作为一个独立的程序标准台式电脑(https://github.com/HIT-ImmunologyLab/PhageTailFinder)。

1介绍

噬菌体的病毒寄生虫的微生物如细菌、放线菌属、螺旋体、支原体(氮化镓et al ., 2022)。这些病毒被弗雷德里克Twort首次发现于1915年在英格兰(Twort 1915),被孤立,被这个微生物学家Felix D 'Herelle在1917年(D 'Herelle, 2007)。虽然噬菌体目标狭窄和特定人口的细菌,青霉素,在1928年由亚历山大·弗莱明发现,其他抗生素影响更广泛的微生物(萨尔蒙德Fineran, 2015)。这个更广泛的光谱和强大的抗菌活性的抗生素导致的减少噬菌体的研究中,只有前苏联和东欧一些国家探索噬菌体的治疗效用。然而,细菌耐药性的出现,尤其是在过去2年中,给临床治疗带来了相当大的挑战的传染病。管理耐多药细菌感染在未来需要新的抗菌药物的发展,寻找新的细菌的目标,并确定抗药基因灭活细菌的方法。然而,这些方法有很高的研究和开发成本和长期研究周期,所以他们不太可能解决细菌耐药性日益严重的问题在短期内。因此,有新的兴趣噬菌体疗法(周et al ., 2022)。噬菌体往往是非常具体的,有些只感染一个细菌物种,导致更高的特异性和更低的副作用比传统的抗生素。此外,还可以使用噬菌体基因编辑和显示在表面细菌,由于其快速繁殖,特异性高,容易转换(林et al ., 2017)。

基于形态学特征,噬菌体可分为13个家庭,其中最常见的是Caudovirales。大部分的噬菌体中包含15个属的三个家庭(保et al ., 2019)。典型的噬菌体通常有一个二十面体的头,针状的空心结构,和一个尾巴。后者通常由外部护套和一个基地,可以进一步细分为尾线和尾针(Maciejewska et al ., 2018)。Caudovirales分为Siphoviridae、Myoviridae Podoviridae,取决于它们的尾巴又长又不收缩的,漫长而萎缩,或短(Dion et al ., 2020)。噬菌体也分类取决于他们是否溶解细菌。而毒性噬菌体(溶原性噬菌体)破坏宿主,温和噬菌体(溶原性噬菌体)不(Nobrega et al ., 2018)。溶原性噬菌体的作用遵循一个预先确定的序列。噬菌体在细菌表面吸附后,酶的尾部结构的肽聚糖层插入主机。这是紧随其后的是内部的渗透膜,允许释放核酸含量进入细菌。噬菌体的尾巴蛋白还可以采取行动抑制噬菌体核酸被排出。噬菌体后核酸与主机集成核酸内容,它经历了广泛的复制。这些新创合成核酸链可以重组噬菌体外壳蛋白产生的同时,产生新的子代的传染性微粒。最后,由于溶细胞的酶的作用和/或穿孔素,受感染的细菌细胞溶解,释放子代噬菌体感染周围额外主机(Chevallereau et al ., 2022)。这个自动传输的感染周期可以安全地用于治疗细菌感染而不损害生物体携带细菌。

结构所必需的噬菌体绑定到细菌表面在吸附阶段统称为受体结合蛋白(RBPs)。他们可以水解细菌表面结构帮助注入核酸。一个噬菌体粒子可以有多个RBPs,影响吸附的特异性和影响范围的主机被感染。尽管大多数RBPs要么是尾刺,尾巴纤维蛋白质,或基板尾结构,这些组件显示高度的多样性和展览序列保护出人意料地低。这些因素使得预测尾图案和给定的序列极具挑战性的角色。几个计算工具开发了处理复杂的任务预测噬菌体尾巴蛋白质。创建iVIREONS,Seguritan et al。(2012)训练人工神经网络使用频率和氨基酸等电点特性对噬菌体的尾巴蛋白质进行分类。最近发达VIRALpro工具(Galiez et al ., 2016使用支持向量机(SVM)模型,考虑平均氨基酸组成和平均预测噬菌体尾巴蛋白质二级结构组成。随后,DeepCapTail (阿比德,2018张)提出了一种深层神经网络使用k-mer频率作为特征来预测蛋白质衣壳和尾噬菌体。最近,坎图等人训练人工神经网络,PhANNs (Cantu et al ., 2020),用氨基酸组成和不稳定指数作为特征来预测蛋白质衣壳和尾噬菌体。然而,这些工具是有限的预测特征明显的蛋白质,和他们的性能非常差,当试图描述蛋白质没有先前描述的同源结构。此外,一些算法运行得相当慢,他们也考虑二级结构和其他特性。此外,与相关功能基因在病毒基因组倾向于聚集在一起,算法通常只预测蛋白质的尾巴,而忽略了模块化更大的结构。

在这里,我们描述一种新型工具的发展,PhageTailFinder,预测phage-related蛋白质使用两个隐马尔科夫模型(HMM)。这种方法是基于概率的算法(铁道部et al ., 2021),检测假定的噬菌体density-based空间聚类模块的应用程序与噪声算法(DBSCAN) (酯et al ., 1996)。发达PhageTailFinder工具可以作为web服务器(运行http://www.microbiome-bigdata.com/PHISDetector/index/tools/PhageTailFinder)或作为一个独立的版本标准台式电脑(https://github.com/HIT-ImmunologyLab/PhageTailFinder)。

2材料和方法

2.1创建自定义噬菌体tail-related蛋白质数据库

2.1.1训练集和测试集

噬菌体收集从米勒德实验室数据库(Chibani et al ., 2019)。只有条目表示“完整基因组”定义字段被包括在内。最后的训练集的噬菌体基因组数量是6287 (补充表S1),包括1763 Myoviridae Podoviridae 3461 Siphoviridae, 1063。额外的992个完整基因组序列覆盖三种可能的尾巴从NBCI核苷酸数据库下载(http://www.ncbi.nlm.nih.gov/nuccore/2020年11月)(补充表S2)作为测试集对模型的性能进行评估。细节的分类分布噬菌体可以发现在训练和测试数据集补充图S1。

2.1.2尾巴和non-tail概要文件

首先,我们定义的关键字,可以用于识别tail-related蛋白质。噬菌体具有定义良好的尾部结构在科学文献报道手动策划(表1)。通过分析关键词的发生和频率在NCBI注释和计算预测的功能域RPS-BLAST发现了10个关键词描述尾巴蛋白质。这些都是“尾巴”,“管”,“套”,“纤维”,“飙升”,“底板”,“针”,“磁带”,“,”和“TermL。“接下来,我们用这些关键词搜索整个训练集来检测尾状态。这些术语也辅以功能域注释。训练集用于教算法定义尾巴状态由840域特征(补充表S3)。定义non-tail状态,域名没有显著序列相似性尾部序列(包含域相似性与价值< 1)被选中的军医。3412年最后一个训练集由non-tail特征域(补充表S4)。

表1

表1。13个定义良好的噬菌体基因组在验证过程中使用。

2.2一般噬菌体tail-related蛋白质预测工作流

2.2.1 Tail-related蛋白质注释

蛋白质注释尾部区域的检测算法是一个两国并存的嗯,在一个隐藏的状态对应于尾蛋白质集群(尾状态),而第二个隐藏状态表示其余的基因组(non-tail状态)。构建这两国嗯,我们训练集噬菌体基因组全部变成了蛋白质序列以及代表这些连续的家庭(包含)域。这些都是用来训练的初始概率,转移概率矩阵,发射概率矩阵的嗯。初始概率推导通过计算训练集的两个域的数量。这表明0.2039尾状态和0.7961 non-tail状态概率。转移概率代表的可能性的状态下一个领域将是尾巴或non-tail,一旦当前域的状态。在训练集,从尾州尾状态转移概率为0.1712,从尾巴状态non-tail状态为0.8288,从non-tail状态到尾状态为0.0203,从non-tail状态non-tail状态是0.9797。对于每个隐藏状态,他们发射概率表明它们属于一个给定的包含的可能性。每个蛋白质的结构域被比较与先前建立的尾巴和注释使用HMMscan non-tail嗯数据库。域的最小价值分配如果多个域注释一个蛋白质。计数频率所产生的发射概率矩阵中每个包含的尾巴在训练集和non-tail潜伏状态。除了这个综合模型训练使用噬菌体,我们单独训练的相应模型的三个形态类噬菌体。

2.2.2 Tail-related蛋白质检测模块

噬菌体的尾巴模块由一群tail-related蛋白质。在这项研究中,我们使用了DBSCAN算法聚类预测tail-related蛋白质。蛋白质之间的距离定义基于蛋白质间距不是核苷酸距离间隔,消除偏见可能导致的差异蛋白质长度。DBSCAN是一种基于密度的空间聚类算法。这种算法和k - means算法之间的差异而不是使用预定的集群,该算法根据数据推断集群的数量。蛋白质在噬菌体的尾巴模块的数量通常是不确定的;因此,使用这个算法是适当的。DBSCAN依赖两个关键参数,邻近区域的半径值在某一点(eps)和点的数量至少包含在邻近区域(minpts)。优化这些参数在DBSCAN是通过迭代的尾巴上执行密度聚类训练集的蛋白质。

2.3评估标准

的预测性能PhageTailFinder评估使用接受者操作特征(ROC)曲线的绘制对真阳性的假阳性率(1-specificity)率(灵敏度)基于阈值的变化对噬菌体的尾巴蛋白质预测。ROC曲线下的面积(AUC)是独立于建模预测分数阈值。灵敏度(真阳性)和特异性(真阴性率)作为评估预测精度指标。此外,精度也用于评估PhageTailFinder的性能。

3结果与讨论

3.1模块化的噬菌体的尾巴

噬菌体尾是由一系列蛋白质相互合作。似乎在研究噬菌体,这种蛋白质编码的基因组中相互毗邻。探索是否在良好的例子也是如此,我们进行了聚类分析的尾巴蛋白质。尽管集群定义良好的噬菌体总是只包含一个尾巴,仍有相当大的不确定性的组织噬菌体尾巴模块在噬菌体的13个家庭。因此,我们使用了DBSCAN算法集群潜在的尾巴组件而不是pre-specifying集群的数量。

邻近区域的半径在给定的点(eps)和邻近区域中包含的点数(minpts)使用的两个关键参数DBSCAN算法。结合这些参数,分可分为三类:核心点,边界点,和离群值。我们分配点到这些类别按照下列过程:1)给定的点被选中任意(指定到一个集群和指定为局外人),和它的邻居(NBHD即将)(eps和minpts)计算检测核心观点。如果一个点确定为核心,它是用来构建一个集群。其他点设置为离群值。2)与相邻点重复这个过程,直至一个集群。直接density-reachable点被添加到集群第一,然后是density-reachable点。如果点标记为外围,他们的状态重置为边缘点。步骤1和2是重复,直到所有点列为核心点,边缘点,或离群值。

通过算法的迭代运行直到收敛,我们建立了eps和minpts参数设定在6和4,分别导致了最可靠的集群,结果大多符合尾蛋白质分布的特点。基于这个集群,大多数噬菌体可以分为三类:1)那些全部或绝大多数的尾巴蛋白质形成一个集群,其他地方没有或只有很少的蛋白质编码;2)那些尾巴蛋白质聚集成两个或三个方面用一些离散的蛋白点;和3)那些蛋白质的数量太小或者相隔太远的蛋白质是组成一个集群(图1)。

图1

图1。三个例子使用DBSCAN聚类算法的参数:每股收益= 6和minpts = 4。(一)所有尾巴蛋白质聚集到一个集群。(B)尾巴蛋白质聚集成两个集群。(C)蛋白质是过于离散集群。

总共有961噬菌体为尾模块化分析,包括642 Myoviridae 293 Siphoviridae, 26 Podoviridae家庭成员。密度聚类分析结果所示表2。表中可以看出,479年(74.6%)Myoviridae, 181 (61.7%) Siphoviridae, 22 (84.6%) Podoviridae tail-related蛋白质编码在一个集群中。相比之下,234年(36.4%)Myoviridae 15 (5.1%) Siphoviridae,且只有一个(3.8%)Podoviridae噬菌体有双尾蛋白质集群。包含三个集群是更常见的噬菌体,四只在少数Myoviridae发现,25(3.8%)噬菌体有组织的以这种方式。这些结果与以前的观测,尾巴蛋白质显示强大的集群,等大部分噬菌体只包含一个集群,证明我们的方法的可行性预测tail-related蛋白质基于自然模块化。尽管如此,不止一个尾巴集群中检测出一些噬菌体,这种现象可能由水平转移引起的。

表2

表2。961噬菌体的集群密度分析的统计结果。

3.2 PhageTailFinder算法检测tail-related蛋白质

嗯是一个统计模型,命名的俄罗斯数学家安德鲁Andreyevich马尔可夫,用来描述一个马尔可夫过程与隐藏的未知参数。嗯是马尔可夫链的基础。一个马尔可夫链状态空间的随机过程,转换发生从一种状态到另一个,和下一个状态的概率分布是由当前状态。的帮助下隐藏的状态分析,嗯估计模式在未来的观测。从从PhageTailFinder工具的角度来看,噬菌体尾巴蛋白质或蛋白质non-tail蛋白质与自然模块化,嗯的使用是一个有前途的潜在方法预测是否一个给定的蛋白质是一个尾巴组件。

优化这个模型的挑战在于确定的隐式参数过程基于可观测参数。蛋白质生物学功能单元,而域结构单元必须保持蛋白质的结构完整性。因此,域属于一个级别的二级和三级结构之间的蛋白质构象,表现出特定的空间构象,间接导致生物功能。通常情况下,由多个域,和蛋白质相互作用的蛋白质发生在特定域之间。重要的是要注意,虽然与类似的功能可能有广泛不同的蛋白质序列,他们的域层次组织倾向于显示显著的相似性。这样的标记功能相关的蛋白质序列的差异构成相当大的挑战在噬菌体尾巴蛋白质预测。为了克服这个问题,PhageTailFinder将蛋白质序列转换成一个字符串的连续域包含了由HMMScan(价值< 1)的军医。概率是然后计算基于频率域的尾巴和non-tail训练集和邻域之间的关系。噬菌体的尾巴预测HMM训练基于三个重要参数:转移概率矩阵,发射概率矩阵,初始概率。这个框架中说明了图2。首先,初步建立了基于概率的频率尾巴和non-tail域包含了训练集,导致0.2039初始尾数概率和0.7961初始non-tail概率。接下来,转移概率计算。这些计算表明概率non-tail-to-tail过渡的0.0203和0.9797 non-tail-to-non-tail过渡。最后,发射概率确定基于频域包含的尾巴或non-tail隐藏状态。自从PhageTailFinder仅仅依赖于频率域包含了,展品相对较少的训练偏见和能够有效地识别新的尾巴模块。

图2

图2。PhageTailFinder的流程图。流程图说明三步尾模块识别管道。(一)噬菌体基因组注释蛋白质和蛋白质序列转换成一个字符串包含的领域。(B)计算后验概率的尾巴和non-tail隐状态预测tail-related蛋白质。(C)使用DBSCAN聚类尾部模块。

PhageTailFinder的预测能力主要受到两个参数:嗯施工的准确性和可靠性的尾巴蛋白质和non-tail包含了数据库。这些关键因素的鲁棒性严重依赖于噬菌体的数量和代表性的性质包含在训练集。探索域特性是否overfit由于大量噬菌体在训练集,我们测试的影响减少了训练集的规模。虽然最初的训练集包含6287噬菌体,这个数字减少到2000年,1000年,500年和100年在逐步的方式,随机选择50替代的训练集。需要注意的是,随着噬菌体的数量现在Myoviridae, Siphoviridae, Podoviridae家庭是不同的。因此,随机选择的训练集保存这些噬菌体的家庭的比例代表制存在于自然。最后,我们测量的性能模型训练这些有限集上通过计算真阳性(TP)和假阳性(FP)率(补充图S2;表3)。有点令人吃惊的是,随着tail-related数量的数据库中包含了减少训练集变小,减少TP尾巴预测并不是特别激烈。虽然最初的6287噬菌体含有840尾包含了训练集,这是减少大约75%当训练集有限100噬菌体。然而,相应的TP率只下降了10%。这个观察演示了使用包含作为观测的优势特性,因为他们可以充分代表尾巴域即使噬菌体用于训练集的数量是很小的。

表3

表3。真阳性率(TPR)的尾巴蛋白质预测模型训练减少噬菌体的数量。

3.3 PhageTailFinder的性能评价

评估PhageTailFinder预测的可靠性,我们定量地评估的性能工具使用一个测试集,包括992年的噬菌体基因组分析TP的速度预测,真正的尾巴蛋白质被正确识别,和FP率对应于实际non-tail蛋白质被归类为尾蛋白质。在这种背景下,TP和FP表示算法的准确性和特异性。所示补充图S3,PhageTailFinder表现良好在预测大多数噬菌体蛋白质。992噬菌体的测试集,算法产生超过80%准确的预测在570年噬菌体基因组,占超过一半的噬菌体的验证集。此外,只有10%的噬菌体的FP率超过10%,表明使用PhageTailFinder特异性可实现的。

评估模型的性能确定尾噬菌体中蛋白质与特定的形态特性,我们细分992噬菌体在测试集数据集只包含Myoviridae, Siphoviridae或Podoviridae。在每个形态组预测进行了,我们绘制相应的roc和AUC区域和精确计算分数。所示图3预测时,最好的结果是实现了对噬菌体在同一形态组。这里,AUC Myoviridae预测的Siphoviridae, Podoviridae达到了0.956,0.968,和0.954,分别每噬菌体中说明了AUC的分布补充图S4。当预测进行了形态学组,模型的性能更高的使用整个训练集训练时,包含所有噬菌体的家庭。在这种情况下,AUC达到0.8 (图3一)。相应的精度所示图3 b。

图3

图3。PhageTailFinder 992的预测能力的比较完整的噬菌体使用四个模型。(一)ROC曲线显示四个模型的预测能力在992年完整的噬菌体,AUC值为0.968,0.956,0.954和0.921。(B)。使用相应的模型精度值每形态。(C)ROC曲线预测能力的一种新颖的基于分类的噬菌体。(D)ROC曲线预测能力的新颖的基于形态学的噬菌体。

评估的能力模型来预测小说噬菌体尾巴蛋白质,我们创建了两个额外的数据集对。一对由868噬菌体属训练数据集,称为先前噬菌体“经验”。相比之下,另一个,“小说”,集团由124噬菌体属数据集没有出现在“经历”。另一个数据集划分基于形态学特征。它包括801噬菌体“经验丰富”之前encountered-training组和191年“小说”噬菌体排除在训练。通过随机抽样,“经验”和“小说”的噬菌体类似大小的100倍,尾巴蛋白质预测在“小说”的子集。中位数的小说尾巴AUC值分别为0.88和0.78,可实现在先前“经验”噬菌体,在预测精度为0.95 (图3 c, D;补充图S4)。因此,我们的方法对噬菌体展示强大的预测能力的尾巴蛋白质,即使在“小说”噬菌体,以前没有出现在模型训练。

3.4与其他方法的比较

我们还进行了一项比较PhageTailFinder和其他现有蛋白质分析工具,在预测精度和特异性噬菌体反面比较13个广泛噬菌体。需要注意的是,大多数出版工具并不旨在区分尾巴和non-tail蛋白质,这不能被包括在比较。此外,虽然VIRALpro DeepCapTail, PhANNs工具可以识别尾巴蛋白质,这些算法分析噬菌体在蛋白质而不是蛋白质域级别。因此,我们只比较噬菌体蛋白质注释的准确性。

噬菌体与明确的尾部结构(phi29 SPP1,λ,T3、T5 T7, T2, T4, LL-H, A511, Det7, SSU5,和第22位)被用于验证的目的,和TP和FP率是用来评估算法的性能。TP率通过PhageTailFinder一直高于80%,PhANNs为72%,DeepCapTail是70%,而VIRALpro了TP率低于50%。此外,《外交政策》通过其他算法也很高。因此,PhageTailFinder显示更高的精度和更低的错误率tail-related识别的蛋白质。此外,VIRALpro的平均计算时间超过2分钟,而PhageTailFinder不超过1分钟,一个重要的优势(表4)。测试数据集,PhageTailFinder也表现出更好的性能,AUC PhageTailFinder达到0.877,而DeepCapTail和PhANNs低于0.7 (图4 a, B),引导测试在中华民国p值< 2.22 e-16 (图4 c, D)。

表4

表4。比较PhageTailFinder (PTF)与其他预测工具。

图4

图4。比较的性能与VIRALpro PhageTailFinder DeepCapTail, PhANNs。(一)ROC曲线显示四个工具在分析预测能力的测试集组成的992年完整的噬菌体基因组。由此产生的AUC值分别为0.877、0.643和0.501。(B)。分布的AUC值每使用四个工具噬菌体。(C)引导测试ROC PhageTailFinder和DeepCapTail之间。(D)引导测试ROC PhageTailFinder和PhANNs之间。

3.5案例研究1:预测噬菌体尾巴人类肠道病毒的蛋白质

肠道包含一个复杂的微生物生态系统的一个重要的角色在人类健康和发展。虽然经常被忽视,噬菌体是一种丰富的微生物组的一部分(雷耶斯et al ., 2010;奥美et al ., 2013),甚至可能是与人类疾病的发展Gogokhia et al ., 2019)。噬菌体代表大多数肠道病毒颗粒(马et al ., 2018)。尽管他们无处不在,我们理解微生物的病毒基因组多样性是有限的。斯蒂芬等人进行大规模的病毒基因组特征大部分宏基因组数据基于61年以前出版的人类粪便样本研究(Nayfach et al ., 2021)。由此产生的宏基因组肠病毒(MGV)目录包含189680病毒基因组草案,其中> 50%似乎是完整的,代表54118个候选病毒物种。据估计,92%的这些不代表宣布现有的数据库。主要分布在这些病毒厚壁菌门,拟杆菌,Actinobacteriota,其中一半被注解为Caudoviricetes (图5 a, B)。

图5

图5。性能预测PhageTailFinder的噬菌体在宣布蛋白质。(一)分类销售物品检测噬菌体宣布。(B)形态分布的项目发现在宣布噬菌体。(C)ROC曲线显示了模型的预测能力MGV集,AUC值为0.895。(D)分布的AUC值每使用PhageTailFinder噬菌体。

尽管潜在宿主的注释,细菌和宿主病毒的预测关系,尾部的蛋白质,为设计噬菌体疗法至关重要,没有详细分析。因此,我们试图识别编号189680的尾巴蛋白质使用PhageTailFinder病毒基因组。我们使用了尾巴,non-tail域注释使用噬菌体蛋白质相对保守的标准(平台以及价值< 1),随后用尾巴PhageTailFinder预测蛋白质基于注释的结果。我们可以识别132196尾蛋白质,代表大约70%的病毒MVG目录。绘制ROC表示一个AUC面积0.895 (图5 c, D)。总之,可以成功地用于预测PhageTailFinder尾巴蛋白质病毒衍生重叠群的大型数据集。

4结论

绝大多数的噬菌体目前无教养的和非机密的,和他们的特定主机和感染策略仍然未知。这种人口的生物通常被称为暗物质“病毒”(菲茨杰拉德et al ., 2021)。理解这些病毒可能带来的生物医学和基础科学取得重大突破。蛋白质鉴定噬菌体尾巴模块是一个关键步骤的过程中理解噬菌体生物学,因为这些蛋白质在噬菌体吸附到宿主至关重要。最近,一些计算工具被设计辅助噬菌体的蛋白质结构的预测作用。然而,这些方法只依赖于识别序列,结构,或物理化学相似性噬菌体蛋白质。鉴于噬菌体的标记序列变异蛋白质和数量相对有限的噬菌体确认到目前为止,这些方法的性能很大程度上是有限的。在这项研究中,我们使用了DBSCAN聚类算法分析已知的噬菌体尾巴蛋白质。这项工作强调,噬菌体尾巴蛋白质是模块化的。这个属性的基础上,我们提出了PhageTailFinder,一种新的工具,使用两个嗯来推断蛋白质在噬菌体是一种尾巴还是non-tail蛋白质,已知序列的独立属性。我们验证了该算法的性能广泛噬菌体和13日992噬菌体收集从NCBI数据库的选择。 In comparison, the PhageTailFinder outperformed previously devised algorithms in the accuracy and specificity of predicting phage tail proteins. We were also able to show that the PhageTailFinder had a better performance in identifying tail proteins not present in the training set. Finally, we annotated the tail proteins of 189,680 human enteroviruses, achieving correct tail annotation in 132,196 genomes (about 70%). Thus, the PhageTailFinder is a promising tool to support research in the potential therapeutic uses of phages. In addition, the novel algorithm is also significantly faster than the alternatives, making it suitable for high-throughput data analysis. We provide both a web server and a stand-alone version of the tool to users to allow flexibility in its use, according to the needs of the scientific community.

数据可用性声明

最初的贡献提出了研究中都包含在这篇文章/补充材料;进一步调查可以直接到相应的作者。PhageTailFinder可以运行作为一个web服务器(http://www.microbiome-bigdata.com/PHISDetector/index/tools/PhageTailFinder)对于一般用户研究单个输入或作为一个独立的版本(https://github.com/HIT-ImmunologyLab/PhageTailFinder)来处理大量的细菌叠连群从宏基因组研究。

作者的贡献

FZ设计工作。FZ、衔接和y概念化的方法,开发了软件,写了初稿的手稿。LY RG, CC收集数据和验证软件。CR和JW写了初稿的手稿和验证软件。FZ写的手稿和监督所有过程和作者批准这个手稿的最终版本。

资金

这项工作是由中国国家自然科学基金资助(国家自然科学基金委,批准号。31825008,31422014,61872117)。

确认

我们衷心感谢所有的学生和工作人员协助现场工作。我们也要感谢遗传学前沿编辑和支持团队的帮助和雷竞技rebat建议。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或那些出版商编辑和评论员。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/fgene.2023.947466/full补充材料

引用

阿比德,D。,Zhang, L. (2018). DeepCapTail: A deep learning framework to predict capsid and tail proteins of phage genomes.bioRxiv,477885年。doi: 10.1101/477885

CrossRef全文|谷歌学术搜索

包,问。,Li, X., Han, G., Zhu, Y., Mao, C., and Yang, M. (2019). Phage-based vaccines.药物Deliv放置。牧师。145年,40-56。doi: 10.1016 / j.addr.2018.12.013