跳转到主要内容

原始研究的文章

前面。Artif。智能。,19June 2023
秒。AI在食品、农业和水
卷6 - 2023 | https://doi.org/10.3389/frai.2023.1131667

植保本体:semantic-driven和害虫的方法编码表示

亚伦Ayllon-Benitez 1 *,何塞·安东尼奥·Bernabe-Diaz1,Paola Espinoza-Arias 1,伊克尔Esnaola-Gonzalez1,戴尔芬s a Beeckman 2,邦尼麦凯格 3,克里斯汀Hanzlik4,卡通冷却5,卡洛斯·卡斯特罗Iragorri6尼古拉斯·帕拉西奥斯6
  • 1巴斯夫数码解决方案,马德里,西班牙
  • 2巴斯夫比利时CommV协调中心、创新中心绅士,比利时根特
  • 3巴斯夫公司、罗利数控、美国
  • 4BASF SE数据管理和数据治理、全球研究服务4月/惠普,Limburgerhof,德国
  • 5TalentBay,比利时布鲁塞尔
  • 6连接数据SAS,波哥大,哥伦比亚

农业产业和监管组织定义为植物保护策略和构建工具和产品对害虫。识别不同的植物和它们相关的害虫和避免这样的组织之间的矛盾,一个商定的和共享的分类是必要的。在这方面,欧洲和地中海植物保护组织(植保)一直致力于定义和维护一个和谐编码系统(植保代码)。植保编码是一种简单的方法,指的是一个特定的生物通过短5或6封信代码而不是长科学名称或模棱两可的常见的名字。植保代码都是免费在不同格式植保全球数据库平台和实现为一个全球标准和应用科学家和专家们在这两个行业和监管机构。的大公司采用这样的代码是巴斯夫,它使用他们主要在研究和开发建立农作物保护产品和种子。然而,提取固定API调用的是有限的信息或文件,需要额外的处理步骤。面临这些问题很难灵活地使用可用的信息,推断出新的数据连接,或与外部数据源充实它。克服这种局限性,巴斯夫开发了一个内部植保本体来表示的代码列表提供的植保全球数据库以及监管分类和它们之间的关系。介绍了本体的开发过程及其浓缩过程,它允许重用外部知识来源的相关信息如NCBI分类单元。 In addition, this paper describes the use and adoption of the EPPO ontology within the BASF's Agricultural Solutions division and the lessons learned during this work.

1。介绍

在农业,减少作物损失引起的生物体,如害虫和疾病是至关重要的。据估计,2021年全球40%的作物生产损失每年由于害虫(植保秘书处et al ., 2021),导致巨大的经济成本,低可用性和食品和原材料的质量,和环境污染等负面影响。在过去的几十年几个组织和公司一直在努力提供法规、技术和产品,以防止和减轻害虫爆发造成的损害。因此,要有一个共同的和一致的方法来识别植物与害虫在提供他们的解决方案,这样的组织和公司全球使用植保编码系统作为参考。

植保编码系统的创建和维护是拜耳在1970年代,然后转移到欧洲和地中海植物保护组织(植保)在1996年。2014年,该系统发布植保全球数据库,1免费开放的数据许可下和在几个格式(例如,XML、SQLite TXT)。在这种编码系统,植物的植保代码是一个独特的标识符,害虫和病原体,这是建立5到6的组合字母。植保编码主要覆盖分类编码也non-taxonomic代码。一方面,分类编码是指植保代码开发生物有机体的生物组织或团体基于他们的科学命名和分类的组织被称为“类群”。另一方面,non-taxonomic代码表示一组较小的代码描述实体感兴趣的工作在植物保护领域的产品(PPP)。开发的目的是描述使用购买力平价,他们促进国家植物保护组织和其他利益相关者之间的沟通参与植物保护产品的注册。进一步的细节信息的分类和non-taxonomic代码图1

图1
www.雷竞技rebatfrontiersin.org

图1。分类与non-taxonomic代码。

此外,植保代码层级结构组织,特别是在植保全球数据库的分类部分,每个分类级别有独特的代码主要是来源于这一水平的相应的学名。而对于non-taxonomic代码,它们建立在更具体的规则描述的植保标准PP1/248 (欧洲和地中海植物保护组织,2022年)。目前,植保数据库包含超过90000个物种的基本信息和详细信息超过1700害虫和疾病。即便如此,新代码编码系统是动态的,不断被添加(平均每年超过2000个新代码(罗伊,2019)]。

巴斯夫是一个大公司消费植保代码作为植物害虫识别标准。巴斯夫植保代码适用于研究和开发新的农产品(如杀虫剂、杀菌剂、除草剂、种子等)和工具(例如,疾病和害虫识别系统和基于攷虑的定制推荐的治疗条件2)。然而,多个格式文件的可用性提取植保编码数据消费需要额外的处理步骤。为了解决这个问题,植保全球数据库提供了一个固定的REST API来提取数据;然而,这限制了消费数据的灵活性。因此,消费植保信息代码需要访问不同文件和API请求所需的完整的信息。面对这些限制和植保代码提供更多的能力,我们开发了一个本体来表示在一个正式的语义的语言。本体允许均匀结构和协调数据没有歧义,推断出新的知识,丰富数据与外部知识来源(瑞士思德利公司et al ., 1998)。采用本体在巴斯夫(BASF)等大公司允许跨组织知识的共享和重用公共部分,便于数据的可重用性和互操作性。

在这个手稿,我们详细流程构建植保本体和教训在这工作。我们首先描述相关工作(第二节)。然后,我们解释了本体的开发过程及其自动创建管道和浓缩步骤(第三节)。接下来,我们详细描述本体的主要元素(第四节),并说明如何使用植保巴斯夫是本体(第五节)。最后,我们概括结论和讨论未来的工作(6节)。

2。相关工作

在这项工作中,一些本体已经在文献中报道。从一般的角度,为我们的工作最相关的本体是NCBITaxon本体(巴斯蒂安·et al ., 2013),允许描述生物的名称和分类谱系分类法NCBI数据库(Federhen 2012)。这组本体提供了一个全面的生物包括分类水平(例如,王国,秩序,家庭,等等),也详细的植保代码。但是,它不包括进一步的信息,所提供的植保等全球数据库表示代码,植保代码控制植物病害的分类、分类地位、代码类型,host-pests关系等。

关注植物害虫和疾病,据报道,很少有本体表示作物领域包括害虫。作物害虫本体(PCO) (damo et al ., 2017)提供了一个高层次的代表作物,害虫,治疗,和它们之间的关系。比由PCO提供进一步的细节,在作物害虫及其治疗本体(PCT-O) (Lacasta et al ., 2018了描述害虫产生暴发所需的条件和限制治疗。描述作物管理的细节,麦田计划和生产过程本体(C3PO) (Darnala et al ., 2021)允许代表情节线路管理和作物通过几个模块封装高层信息工厂,作物管理,潜在的疾病和害虫,治疗等。然而,上述本体包括进一步的细节等害虫一致的分类单元,non-taxon,和商品群分类,同义词,首选名称和细粒度的详细信息。最后,植物健康威胁本体(Alomar et al ., 2015,2016年)正式代表植物病虫害名称和它们之间的关系和其他概念(比如主机,症状,农作物等。这种本体重用植物本体(库珀et al ., 2013),和概念来自UniProt等多语种来源分类单元,植保全球数据库和DBPedia。植保信息而言,最近的一份报告(欧洲食品安全局et al ., 2021)133年植物害虫的细节都包含在当前本体版本。不幸的是,这种本体是不公开的;因此,它是不可能去分析它,因此,它所代表的植物害虫不能重用。

3所示。植保本体的发展

开发生命周期后的本体是建立在巴斯夫提出治理操作模型本体(GOMO) (Iglesias-Molina et al ., 2022)。这个生命周期是来自开放有关条款(很多)方法(Poveda-Villalon et al ., 2022),这是一个方法基于敏捷技术和本体建设包括几个阶段和活动。GOMO生命周期包括四个主要阶段将在以下部分描述。

3.1。需求和启动

这个阶段打算定义和收集所有的需求和本体发展所必需的基本元素。因此,我们进行的第一项活动是定义植保本体的目的和范围。为此,我们收集了一些领域专家的反馈从我们的农业解决方案部门和同意本本体的表示是由目的植保全球数据库的信息和概念之间的关系确定。因此,该本体并不局限于使用一个特定的应用程序,但一直在开发的利益有一个和谐、灵活植保代码系统的信息来源。至于本体范围,我们同意包括分类和non-taxonomic编码以及他们的代码类型,亲子关系/代码,控制植物病害的分类,分类水平(如适用)。进一步的细节信息的分类和non-taxonomic分类提出了图1

第二个活动我们进行定义本体必须满足的要求。为此,根据领域专家的需求,我们提出了几个能力问题(Gruninger和福克斯,1995年),引导我们在开发过程中。表1显示了一个摘录的能力问题。中提供了一个完整的列表的第一节补充材料

表1
www.雷竞技rebatfrontiersin.org

表1。摘录植保本体的能力问题。

第三个活动我们执行是识别和分析相关数据来源的结构与本体的目的和范围。我们确定了几个文件在植保数据服务;然而,我们特别关注三个:

(一)SQLite数据库文件3包含植保编码分类和non-taxonomic生物体,包括数据,如他们喜欢的名字,同义词在几种语言,创建和修改日期,等等;(b) REST API服务4提供直接访问特定于植保信息代码,例如,分类法分类,分类列表,主机,害虫,等等;(c)替换代码5文件,其中包含的信息在整个历史的植保编码取代其他植保代码。最后,我们还考虑了一些所谓的“分类”名单,6植保全球数据库中可用的web页面。这些列表显示从植物检疫监管状态(即。,plant health) perspective is for a given organism (EPPO code) as defined by a Regional Plant Protection Organization (RPPO), based on the local plant health legislation (e.g., A1 or A2 quarantine pest).

第四个活动的最后,我们发现了一个可重用的术语资源相关本体的目的和范围。更具体地说,我们选择NCBITaxon本体7(2)部分中解释为最相关的资源重用本体中铀浓缩活动。

3.2。实现

这个阶段的目的是生成本体基于先前确定的需求和数据来源。为此,我们进行的第一项活动是建立一个概念模型定义的类和属性,代表本体领域。我们定义这种模型如下图的细节Chowlk符号(Chavez-Feria et al ., 2022),这是一个基于uml符号本体图。图2展示了我们为植保定义本体的概念图。注意,由于大量的植保全球数据库中包含的条款,此图只显示主要的类和属性表示的本体。然而,本体包含所有层次的分类包括在数据库中为每一个类图中描述。

图2
www.雷竞技rebatfrontiersin.org

图2。植保本体概念图。

接下来,采取作为输入的结构我们定义概念模型,第二个活动我们进行本体编码。这个活动的目的是生成本体论作为一个机器可读的模型本体表示语言。图3描述了实施的步骤生成本体。首先,我们进行的转换non-ontological资源(数据源中确定前一个阶段)到一个本体论。这种转变的任务主要是执行自动使用Python包(eppo_tools),我们实现了这一目的。这个包重用已有的和驰名库等请求,8SQLAlchemy,9lxml,10RDFLib,11等,使我们能够访问数据源,数据管理和构建本体代码。因此我们获得了本体论在Web本体语言(OWL)编码。然后,当不同类型的植保植物检疫分类提取的植保全球数据库的web页面,需要人工干预本体定义这样的类别及其分类。人工干预,领域专家领导手册提取和分类列表的定义使用WebProtege本体的本体编辑器(Tudorache et al ., 2013)。值得一提的是,我们也使用这些编辑器添加相关本体的元数据(如创造者、标题、许可证等)为本体的可重用性是有用的目的。最后,重要的是要注意,从其他本体植保本体重用几个属性。为此,我们采用了柔软的重用技术允许重用本体元素引用的uri,而不是整个本体(进口很难重用)(Fernandez-Lopez et al ., 2019)。决定哪些属性重用,我们首先分析每个属性的语义,也看看如何在社区中普遍使用。

图3
www.雷竞技rebatfrontiersin.org

图3。本体编码和浓缩管道。

然后,第三个活动我们进行了本体浓缩,也是中描述图3。这些活动的主要目的是为了自动映射NCBITaxon虹膜植保本体元素匹配特定的注释(例如,rdfs: label12skos: altlabel13)。14我们建立了Python脚本自动生成这样的映射包括NCBITaxon虹膜植保本体。值得一提的是,包括映射我们还重用机器人(杰克逊et al ., 2019),这是一个开源库和命令行工具来自动化本体开发任务。映射是包含在植保本体通过oboInOwl: hasDbXref15属性代表一个相同或非常相似的对象引用另一个资源。由于这个活动我们获得一个丰富植保本体。更多的细节在第三节提供了映射过程补充材料

第四个活动的最后,我们评估了本体,以确认它是正确建立根据能力问题制定需求/启动阶段。要做到这一点,我们的能力问题翻译成SPARQL查询来运行它们对本体获取预期的答案。SPARQL查询我们生成的本体评价提供了第二节补充材料

3.3。出版

这个阶段的目标是提供本体网络作为人类可读的文档和一个机器可读的文件。至于文档,我们构建了一个HTML文件包含一个人类可读的描述本体的设计,包括图和详细信息的主要的类和属性。此外,它包括准则Python包,包的所有功能与自动本体生成有关。这个HTML文档发布内部和巴斯夫内部网中可用。最后,为了便于搜索和浏览的本体,这是在我们内部本体查询服务注册(OLS) (Cote et al ., 2006)。这项服务提供了一个用户友好的界面和搜索机制,使本体可发现的任何公司。OLS也使得使用本体的元数据来显示给用户,这样他们就可以详细分析本体。最新版本的植保本体可用在巴斯夫GitHub库。16

3.4。维护

本体可能降低随着时间的推移,由于不同的原因包括更改或添加在领域本体建模的世界观的改变或改变使用角度(纳,为了2003;Tartir et al ., 2010)。因此,有条不紊的处理、管理和适应变化在本体生命周期是至关重要的。在我们的例子中,我们第一节所述,植保代码不是一个静态数据来源;因此,代码可以改变或新的补充道。这样一个动态的环境中需要一个明确的战略来确保用户获得最新的知识,和这个策略包含一个自动运行的Python包只要公共植保SQLite文件更新。然后,如果一个新的分类列表出现在最新版本的数据库中,我们通知我们的领域专家,这样他们可以在相应的类或手动分类,如果有必要,创建一个新类来进行分类。最后,我们的映射NCBITaxon也运行,以确保新版本的本体包含引用外部知识来源。

在我们定义GOMO最佳实践,维护过程中执行git存储库,我们使用不同的环境处理本体的变化。无论何时,一个更新的本体发生,它是部署到DEV环境,其中包含工作进展没有提供给最终用户。同样的,内容也是部署到QA(质量评估)环境中,用户可以访问并通知他们更新版本中可能遇到的潜在问题。一周一次,本体质量保证部署到刺激环境,包括本体释放。新本体释放通知植保本体的用户通过我们的内部沟通渠道,所以,他们十分清楚的新信息。

4所示。植保本体描述

在本节中,我们提供进一步的细节在本体的主要指标和结构。首先,我们现在的本体中列出的指标表2。这样的表给出了计算不同的本体我们生成的元素。总之,我们创造了13万多万类,20对象属性,和35注释属性允许代表植保编码的概念,它们的属性和这些概念之间的关系。

表2
www.雷竞技rebatfrontiersin.org

表2。植保本体指标从门徒本体编辑器。

然后,我们提供进一步的细节在本体结构,以前我们的概念化模型中描述所示图2。注意所有前缀用于本节中列出图2。接下来的部分描述本体的最相关的类和属性以及主这样的类之间的关系。最后,我们目前的一个示例代码的植保本体论表示使用植保本体摘录。

4.1。植保代码

它代表我们本体的核心类,因为它包含最相关的信息编码和他们与所有的植保代码名称。此外,它是父类的几个概念,如分类、Non-Taxonomic,和商品集团允许代表代码更细粒度的方式。如前所述在这个工作,分类编码代表生物体或生物群体称为类群,对购买力平价和Non-Taxonomic代码代表实体。至于商品组代码,它们代表植物商品代码,允许分组的一个子集(例如,水果植物,水族馆植物,松柏,等等)。在国际贸易中容易传播害虫。

进入植保代码的更多细节,每个代码包含信息名称(rdfs: label)、创建日期(使用dc:创建17),是否处于活动状态(isActive)。可选的代码也可以包含同义词(oboInOwl: hasExactSynonym18),替代名称(skos: altLabel),修改日期(使用dc:修改19),是否过时或不(猫头鹰:弃用20.),并定义(rdfs:评论21)。更精确的细节还包括名字,另类的名字,和同义词属性,自本体也代表了他们的创建和修改日期,是否活跃,是什么名字的权威(has_authority),例如,Gennadius。值得一提的是,所有的名字和同义词有相应的语言标记。至于学名(首选名称)和其他科学名称标签指定的语言是拉丁语(la),因为它是科学名称定义的官方语言,因此,数据库提供的语言。而对于常见的名称语言标签分配取决于语言中可用的数据库。

此外,许多植保编码属于分类代码类包括植物检疫状况信息,代表他们已经分类的分类列表中。为此,这些代码都与相应的分类地位的has_categorization财产。此外,植保代码代表相应的分类级别(has_taxonomy_level),即。,the integer value representing the distance between a term and its higher-level taxonomic group. Finally, these codes can also include information about their hosts or pests (has_hosthas_pest)代表host-pests或pest-hosts关系。在方面has_pest属性,它包含几个subproperties代表所有种类的害虫/寄主植物组合提供的数据库。22例如,“备用”所代表的类别has_pest_type_alternatesubproperty定义了一个有机体之间的关系和不同的主机需要完成其生命周期。至于has_host财产,它代表了逆的性质has_pest财产。例如,has_host_type_alternatesubproperty代表一个主机使用的害虫在其生命周期。

最后,代表特定的代码之间的关系,本体重用两个属性:(1)鄂博:BFO_000005023产权代表Non-Taxonomic或商品组代码是其中的一个子集的一部分,和(2)sio: SIO_00140324属性来表示分类或Non-Taxonomic代码与商品组的代码。

4.2。分类地位

这个类包含给定植保植物检疫分类代码在一个地区或国家,基于相应的特定RPPO植物检疫分类列表(has_status)和一个术语列表中定义的植保全球数据库(categorization_q_list,请注意“q”代表“隔离”)。提供细粒度的详细分类,它包括欧洲大陆(has_categorization_continent)和(has_categorization_country)的名字,和ISO国家代码(has_categorization_iso_code适用)的列表。相关日期也代表每个分类列表,比如今年它了(has_categorization_year_added),今年是删除(has_categorization_year_deleted今年)或转移(has_categorization_year_trans)到另一个分类。

4.3。分类

这个类代表植保的一般类型的分类代码可能上市。这些分类是用来吸引的关注国家和地区植物害虫和疾病的状态而言,他们可能带来的潜在的植物检疫风险。例如,害虫分类的检疫列表(QuarantinePest)构成监管要求的植物检疫措施实现害虫。正如3.2节中提到的,代码分类层次类包含一个手动生成的领域专家。这个层次结构提供了一个上级分组分类现有的植保的全球数据库。例如,一个检疫列表(QuarantinePest)属于(rdfs: subclassOf)检疫有机体(QuarantineOrganism由我们的专家)类定义。更多细节的定义代码分类层次结构提供了第四节补充材料

4.4。植保代码分类级别

这个类定义了不同类型的分类水平,如王国,家庭,或物种,其中,植保代码所属。为此,每个代码都是通过分类水平有关has_taxonomy财产。值得一提的是,只有那些属于分类代码类的代码都可以链接到分类级别。最后,每个分类级别包含一个交叉引用到其相应的NCBITaxon本体中定义的术语。

4.5。植保代码类型

这类允许代表植保的更细粒度的分类代码组织成不同的层次:物种水平,更高的分类群生物,或non-taxonomic实体。在物种分类植保代码级别,植保代码类型类区分植物,动物,微生物。对于更高的分类群(如属,家庭等)它包括植物分类群,动物分类组织,微生物分类组。对于其他non-taxonomic实体包括non-taxonomic和商品组。除了标签,每个类型还包含标识符分配编码系统。最后,植保相关代码的特定类型的代码has_eppo_type财产。

4.6。植保替换代码

如前所述在本体开发过程中,本体也代表了取代植保全球数据库中可用的代码。为此,所有这些代码包含属性包含在植保类似代码仍然活跃。然而,取代代码有两个注释属性,允许他们被称为编码系统档案的一部分。首先,布尔属性中定义的本体来表示代码是否活跃(isActive)声明为是错误的。第二,按照我们GOMO标准本体元素的弃用,布尔属性定义为指定IRI(已被弃用猫头鹰:弃用)声明为是正确的。此外,这个词替换代码定义的鄂博:IAO_010000125属性允许将这个词相关的。作为替代的另一个术语。通过这种方式,植保本体也代表了代码不活跃,但可以追溯的目的有关。

4.7。植保的本体表示代码的例子

为了说明主要的类和属性中定义的本体,我们提出一个例子代表植保代码使用本体的信息元素。为了这个目的,我们使用信息从TRZAW代码(代码被称为第一能力问题了表1)。这段代码的最相关的信息可以从“概述”菜单中检索植保全球数据库的网站,如所示图4。在这个图中,我们可以看到TRZAW代码作为non-taxonomic代码,连同它的代码,首选的学名,和其他常见的名称在不同的语言。此外,提出了一种分类树浏览它所属的层次结构。此外,TRZAX显示为关联的分类单元TRZAW代码(注意,这个关系提供了我们的第一个能力问题的答案)。最后,创建日期的代码也会显示。

图4
www.雷竞技rebatfrontiersin.org

图4。软质小麦的概述(冬季)(TRZAW代码)植保全球数据库的网站。

的信息如上所示的本体论表示TRZAW代码中提供清单1。这个清单(写在龟26格式)是一个摘录植保本体,还包括额外的信息,不是从TRZAW检索代码概述介绍图4。进入细节,这个清单始于TRZAW代码的定义的一个子类NonTaxonomicCode类及其链接3 swhc代码(软质小麦作物27通过部分()鄂博:BFO_0000050)的财产。此外,几个属性定义的值来表示TRZAW首选的名称(rdfs: label),其他名称(skos: altLabel)、植保代码(dc:标识符),创建和修改日期(使用dc:创建使用dc:修改在不同的语言(中),其他常见的名字hasExactSynonym),28活跃状态(is_active),它的特定代码类型(has_eppo_type)。TRZAW代码类型对应于非分类(NTX),这是定义在这个清单的一个子类EPPOCodeType类及其代码(dc:标识符),和名称(rdfs: label)。此外,TRZAW代码包含一个参考类似NCBITaxon的术语。这个引用是由oboInOwl: hasDbXref属性及其值对应小麦(鄂博:NCBITaxon_4565)。最后,应该注意的是,rdfs: label,skos: altLabel,oboInOwl: hasExactSynonym属性包含额外的注释(使用dc:创建is_active),作为同义词的情况vinterhvede包含在这个清单中。

清单1
www.雷竞技rebatfrontiersin.org

清单1。摘录植保本体代表TRZAW代码。

然后,清单1提供的细节表示TRZAX代码,这是表示为子类的trzg代码(小麦属植物)。的本体论表示这段代码包括几乎相同的属性作为TRZAW描述代码,但也对其分类详细信息(has_taxonomy)和分类级别(has_taxonomy_level)。此外,这段代码与TRZAW代码通过sio: SIO_001403(与)属性。值得一提的是,多亏了这最后的链接,我们可以回答我们的第一个能力问题。最后,TRZAX与AGMYOR代码(Agromyza oryzae)通过has_pest_type_host属性,这意味着TRZAX AGMYOR的主人。

最后,在清单1,AGMYOR代码被定义为一个子类的agmyg代码(Agromyza)。的本体论表示AGMYOR包括所有的属性描述TRZAX代码。此外,它包括has_host_type_host关系代表TRZAX AGMYOR相关的害虫;即上述财产之前定义的反比关系has_pest_type_host。此外,AGMYOR代码是通过与一个特定的分类地位has_categorization财产。这个分类定义在清单的一个子类Categorization_Status类和有关QuarantinePest通过分类列表has_status财产。最后,这个分类地位还包括信息分类的大陆,(has_categorization_continent)、国家(has_categorization_country),国家的iso代码(has_categorization_iso_code),问列表(has_categorization_q_list),今年它了(has_categorization_year_added)。

5。采用本体的

植保本体是第一步,以使整个农业部门类似的词汇需要的解决方案。在巴斯夫,我们有四个主要农业重点领域:作物保护、种子和特征,蔬菜种子、农业和数字。我们通过植保本体,使这些部门的工作在一个共同的词汇指有机体。

目前,植保本体被用作不同的应用程序的一个关键要素,包括Bioregister。Dotmatics Bioregister是基于web的应用程序注册序列,化学改性和生物材料结构减少,允许生物制剂发现组织确保实体独特性和保护自己的知识产权。Bioregister支持广泛的生物材料的管理,包括DNA、RNA、多肽和蛋白质,抗体轭合物,非天然的缩氨酸和核苷酸,质粒,细胞系,和用户定义的实体。它还允许用户记录批次和这些实体样品,净化和表达信息,和其他蛋白的生产数据。

例如,当用户输入一个新的微生物记录的应用程序,它需要相关的植物或害虫。之前在其他应用程序中,引用这些条款是手动添加使用自由文本输入区域,所以不同的术语被用来指相同的概念。即使同意植保代码应该使用相反,仍有大量的错误,因为用户可能会无意中拼错代码或使用不同的名称来指代相同的概念。拥有这样的命名和格式的异质性,以及错误的数据,导致低效率利用Bioregister数据时进行进一步分析。

,以防止用户犯错误当插入植保代码,最新版本的Bioregister使用本体。见图5,Bioregister接口有一个下拉列表供用户选择特定术语的植保本体。填充下拉列表中,应用程序消耗植保本体通过一个特定的API调用,所以总是可用的最新版本,出现在列表中是动态更新的条款根据用户输入的文本区域。值得一提的是,为了便于消费植保的本体,我们已经配置了一个REST API服务提供一整套通用API调用,可以被其他应用程序使用。此外,值得记住的是,微生物是一个实体可以包含在Bioregister例子。因此,植保编码相关的生物也用于其他实体,如植物或供体生物结构,酶,细胞系。

图5
www.雷竞技rebatfrontiersin.org

图5。采用Bioregister植保本体。

自从植保所代表的知识本体相关的不同类型的用户,不同的背景和不同的IT技能,通过api消费可能不足以确保访问信息。因此,用户使用植保本体另一种方式是通过我们的内部OLS。这样用户可以搜索和导航在不同的概念寻找他们的工作相关的信息。

最后,我们在重用的本体的开发和浓缩内部本体,例如巴斯夫等农作物保护实验本体。这个本体的目的是代表我们实验室的过程进行设计、计划、准备、执行和评估实验,以确定新的活性成分或特性保护庄稼免受害虫和疾病。

6。结论和未来的工作

在这项工作中,我们介绍了我们开发的本体来表示植保编码系统。本体包括数据在几个文件从植保全球数据库和REST API还提供的信息。此外,我们定义了一个细粒度的层次植物检疫的植保代码表示大类分类中定义的植保列表,欧盟列表,等等。最后,我们丰富了本体与NCBITaxon交叉引用允许消耗更多的信息从这些知识库。

在这项工作的发展,我们已经掌握了一些经验,这将有助于我们改进本体的发展未来。首先,尽管本体的自动发展代表巨大的数据源,是一种有价值的方法领域专家的介入过程中是至关重要的。在我们的经验中专家一直定义的关键需求,发展能力问题,并验证概念模型和执行后的结果我们的Python包。几个关系没有隐式定义的植保鳕鱼系统已经由我们的专家,因此我们有更细粒度的分类植保代码控制植物病害的分类。第二,本体的发展是一个过程,时间和资源密集型的,但这是相比微不足道攒植保的来源只有一个码。第三,采用本体不是一条简单的道路在我们公司,因为是发生在大多数组织中,每当一个新技术的出现,有一种怀疑的结果可以得到应用。然而,越来越多的部门正在鼓励使用它来改善他们的流程。

尽管传统上层本体重用的好处(例如,温柔的,Masolo et al ., 2002),以缓解互操作性,我们不是在巴斯夫重用他们。这一决定的主要原因是,这种单片本体引入强大的承诺,轻量级的方式很难代表我们感兴趣的领域。然而,平行于植保本体的发展,一个新的工作团队成立开发巴斯夫核心本体封装的术语和关系是公司重要的相关性,将路径的方式促进我们内部的互操作性。因此,作为未来的工作的一部分,我们将改善的表示本体的分类位置。为了这个目的,我们计划重用本体代表我们最近发布的巴斯夫核心位置的地理位置在巴斯夫包括行政区域(如国家、城市等)和位置的兴趣点(如生产工厂和网站等)。因此,我们可以从核心本体重用的概念来代表国家,地区和ISO国家代码,而不是将它们作为字符串值表示为目前做的类定义为植保分类地位的一部分。通过这些概念与我们的本体,我们将能够得到更多的细节,例如,推断出在哪些城市的植物检疫分类是适用的,因此知道我们的生产工厂,我们必须要特别注意对于害虫。我们也可以利用几何值中包含核心本体有地图,可以为我们提供警报在一个定制的分类方式的兴趣点相关到我们公司。

在巴斯夫,生物安全功能监管的使用所有类型的生物材料与设施旨在保护人类健康和环境,防止他们滥用(生物),确保遵守法规和公司的需求。因此,未来可能的方向是一群风险分类本体的发展不仅为代表的植物检疫分类列表包含在植保本体,而且数据生物是否监管作为人类或动物病原体在选定的国家在世界各地。监管分类的植物,人类和动物病原体在一个单一的数据源可以轻松查询允许识别在一个努力适用的政府法规与这些生物在一定地理,而不必手动咨询各种公共/外部数据源,以及支持对齐biorisk管理方法不同巴斯夫网站和国家。

此外,有打算重用的本体内部使用的应用程序,比如谷神星(生物材料库存管理在我们的研发实验室和温室)或PhenomeOne(用于管理整个植物组织的研究信息,支持我们的实验过程的所有阶段)。最后,从本体可以改变,我们将实现一个监测和更新机制来跟踪NCBITaxon更新。本体的这种方式,如果有什么变化,我们的植保本体将与它保持一致。

数据可用性声明

公开的数据集进行分析。这些数据可以发现:https://gd.eppo.int

作者的贡献

AA-B JB-D, BM、KH和DB:概念和设计。AA-B JB-D, TC、CC和NP:发展。PE-A:原创作品草稿准备。PE-A IE-G, DB, AA-B JB-D: writing-review和编辑。PE-A、IE-G AA-B:监督。所有作者的文章和批准提交的版本。

确认

我们要感谢亚历山大·加西亚卡斯特罗的概念化植保本体的发展。

的利益冲突

AA-B、JB-D PE-A, IE-G受雇于巴斯夫数字解决方案。DB是受雇于巴斯夫比利时CommV协调中心、创新中心Gentm。BM被巴斯夫公司雇佣。KH受雇于BASF SE数据管理和数据治理,4月/惠普全球研究服务。TC是受雇于TalentBay。CC和NP是受雇于SAS链接数据。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2023.1131667/full补充材料

脚注

1。^https://gd.eppo.int

2。^https://www.xarvio.com/global/en.html

3所示。^https://data.eppo.int/files/sqlite_all.zip

4所示。^https://data.eppo.int/documentation/rest collapse1

5。^https://data.eppo.int/files/replaced.zip

6。^https://gd.eppo.int/rppo/

7所示。^https://obofoundry.org/ontology/ncbitaxon.html

8。^https://pypi.org/project/requests/

9。^https://www.sqlalchemy.org/

10。^https://pypi.org/project/lxml/

11。^https://rdflib.readthedocs.io/

12。^http://www.w3.org/2000/01/rdf-schema标签

13。^http://www.w3.org/2004/02/skos/core altLabel

14。^注意,我们使用的手稿中打字机字体指本体的部分代码。此外,当从另一个本体重用元素,他们的前缀是包括在结肠,然后其本地标识符是包括在内。

15。^http://www.geneontology.org/formats/oboInOwl hasDbXref

16。^https://github.com/basf/EPPOontology

17所示。^http://purl.org/dc/terms/created

18岁。^http://www.geneontology.org/formats/oboInOwl hasExactSynonym

19所示。^http://purl.org/dc/terms/modified

20.^http://www.w3.org/2002/07/owl弃用

21。^http://www.w3.org/2000/01/rdf-schema评论

22。^进一步解释的类别可在宿主植物的植保全球数据库指南:https://gd.eppo.int/media/files/general_user-guide.pdf

23。^http://purl.obolibrary.org/obo/BFO_0000050

24。^https://semanticscience.org/resource/SIO_001403

25。^http://purl.obolibrary.org/obo/IAO_0100001

26岁。^https://www.w3.org/TR/turtle

27。^注意3 swhc代码定义不包括在这个清单中,但表示本体使用类似的属性和结构在这个例子给出TRZAW代码。

28。^请注意,为了简单起见,我们包括一些同义词在此清单中显示的代码。

引用

Alomar, O。,Batlle, A., Brunetti, J., García, R., Gil, R., Granollers, A., et al. (2015). Development and testing of the media monitoring tool med is ys for early identification and reporting of existing and emerging plant health threats.植保公牛。45岁,288 - 293。doi: 10.1111 / epp.12209

CrossRef全文|谷歌学术搜索

Alomar, O。,Batlle, A., Brunetti, J. M., García, R., Gil, R., Granollers, T., et al. (2016). Development and testing of the media monitoring tool MedISys for the monitoring, early identification and reporting of existing and emerging plant health threats.欧洲食品安全署的支持。出版。1118 e。doi: 10.2903 / sp.efsa.2016.en - 1118

CrossRef全文|谷歌学术搜索

巴斯蒂安·F。,Overton, J., Dietze, H., Mungall, C., Midford, P., Duncan, B., et al. (2013).NCBITaxon本体。doi: 10.5281 / zenodo.7676251

CrossRef全文|谷歌学术搜索

Chavez-Feria, S。,García-Castro, R., and Poveda-Villalón, M. (2022). “ChowLK: from UML-based ontology conceptualizations to OWL,” in欧洲语义Web会议(Springer), 338 - 352。

谷歌学术搜索

库珀L。,Walls, R. L., Elser, J., Gandolfo, M. A., Stevenson, D. W., Smith, B., et al. (2013). The plant ontology as a tool for comparative plant anatomy and genomic analyses.植物细胞杂志。54岁的e1。doi: 10.1093 /卡式肺囊虫肺炎/ pcs163

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

象牙海岸,r G。琼斯,P。,Apweiler, R., and Hermjakob, H. (2006). The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries.BMC生物信息学7日,97年。doi: 10.1186 / 1471-2105-7-97

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

孩子的呼唤,P。,Karampatakis, S., and Bratsas, C. (2017). Representing and integrating agro plant-protection data into semantic web through a crop-pest ontology: the case of the Greek Ministry of Rural Development and Food (GMRDF) Ontology.IOBCWPRS公牛。123年,122 - 127。

谷歌学术搜索

Darnala B。,Amardeilh, F., Roussey, C., and Jonquet, C. (2021). “Crop Planning and Production Process Ontology (C3PO), a new model to assist diversified crop production,” in综合食品本体车间(IFOW 21)在第12届国际会议上的生物医学本体(高级员工)

谷歌学术搜索

欧洲食品安全局,Mannino, m R。Larenaudie, M。,Patrick Linge, J., Candresse, T., Jaques Miret, J. A., et al. (2021).植物健康:地平线扫描报告2017 - 2020年活动。技术报告,威利在线图书馆。

谷歌学术搜索

欧洲和地中海植物保护组织(2022)。页1/248(3)协调系统的分类和编码使用的植物保护产品。植保公牛。52岁的17-24。doi: 10.1111 / epp.12789

CrossRef全文|谷歌学术搜索

Federhen,美国(2012年)。NCBI分类数据库。核酸Res。D136-D143。doi: 10.1093 / nar / gkr1178

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Fernandez-Lopez, M。,Poveda-Villalon, M., Suarez-Figueroa, M. C., and Gomez-Perez, A. (2019). Why are ontologies not reused across the same domain?j . Web Semant。57岁的100492人。doi: 10.1016 / j.websem.2018.12.010

CrossRef全文|谷歌学术搜索

Gruninger, M。,Fox, M. S. (1995). “Methodology for the design and evaluation of ontologies,” in知识共享的基本本体论问题研讨会(加拿大蒙特利尔的)。

谷歌学术搜索

Iglesias-Molina,。,Bernabe-Diaz, J. A., Deshmukh, P., Espinoza-Arias, P., Fernandez-Izquierdo, A., Ponce-Bernabe, J. M., et al. (2022).本体管理在工业环境中:巴斯夫治理操作模型本体(GOMO)。Zenodo。

谷歌学术搜索

Gullino IPPC秘书处,M。Albajes, R。,Al-Jboory, I., Angelotti, F., Chakraborty, S., et al. (2021).科学评估气候变化对植物的影响Pests-A全球性挑战,预防和减少植物害虫风险在农业、林业和生态系统。粮农组织代表ipcc秘书处。

谷歌学术搜索

杰克逊,r . C。,Balhoff, J. P., Douglass, E., Harris, N. L., Mungall, C. J., and Overton, J. A. (2019). ROBOT: a tool for automating ontology workflows.BMC生物信息学20日,407年。doi: 10.1186 / s12859 - 019 - 3002 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Lacasta, J。,Lopez-Pellicer, F. J., Espejo-García, B., Nogueras-Iso, J., and Zarazaga-Soria, F. J. (2018). Agricultural recommendation system for crop protection.第一版。电子。阿格利司。152年,82 - 89。doi: 10.1016 / j.compag.2018.06.049

CrossRef全文|谷歌学术搜索

Masolo C。,Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., and Schneider, L. (2002). The wonder web library of foundational ontologies.WonderWeb交付D17日,2002年。

谷歌学术搜索

纳:F。,Musen, M. A. (2003). Ontology versioning as an element of an ontology-management framework.IEEE智能。系统。19日,6-13。doi: 10.1109 / MIS.2004.33

CrossRef全文|谷歌学术搜索

Poveda-Villalon, M。,Fernández-Izquierdo, A., Fernández-López, M., and García-Castro, R. (2022). LOT: an industrial oriented ontology engineering framework.Eng。达成。Artif。智能。111年,104755年。doi: 10.1016 / j.engappai.2022.104755

CrossRef全文|谷歌学术搜索

罗伊,其子a.s.。(2019)。植保代码——概述。技术报告、欧洲和地中海植物保护组织。

谷歌学术搜索

、R。,Benjamins, V. R., and Fensel, D. (1998). Knowledge engineering: principles and methods.数据知识Eng。25日,161 - 197。

谷歌学术搜索

Tartir, S。,Arpinar, I. B., and Sheth, A. P. (2010). “Ontological evaluation and validation,” in理论和应用本体:计算机应用,115 - 130。

谷歌学术搜索

Tudorache, T。Nyulas C。,纳:F。,Musen, M. A. (2013). WebProtégé: a collaborative ontology editor and knowledge acquisition tool for the web.Semant。网络4,89 - 99。doi: 10.3233 / sw - 2012 - 0057

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:植保编码、本体、植物、种子、疾病、害虫、农作物保护、化工

引用:Ayllon-Benitez A Bernabe-Diaz JA Espinoza-Arias P, Esnaola-Gonzalez我Beeckman DSA,麦凯格B, Hanzlik K,冷却T,卡斯特罗Iragorri C和帕拉西奥斯N(2023)植保本体:semantic-driven方法对植物和害虫编码表示。前面。Artif。智能。6:1131667。doi: 10.3389 / frai.2023.1131667

收到:2022年12月25日;接受:2023年5月26日;
发表:2023年6月19日。

编辑:

凯瑟琳Roussey法国蒙彼利埃,INRAE Occitanie

审核:

克莱尔Nedellec法国的法兰西,INRAE中心Ile
Nadia Yacoubi Ayadi法国研究中心Inria Sophia Antipolis地中海
吉恩•查莱特,协助Publique Hopitaux巴黎,法国

版权©2023 Ayllon-Benitez、Bernabe-Diaz Espinoza-Arias、Esnaola-Gonzalez Beeckman,麦凯格,Hanzlik,冷却后,卡斯特罗Iragorri和帕拉西奥斯。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:亚伦Ayllon-Benitez,aaron.ayllon@basf.com

下载