跳转到主要内容

原始研究的文章

前面。Metr >,肛交。,12July 2021
秒。文本挖掘,以发现
卷6 - 2021 | https://doi.org/10.3389/frma.2021.688353

在专利中确定化学反应及其相关的属性

www.雷竞技rebatfrontiersin.orgDarshini马亨德兰 1*,www.雷竞技rebatfrontiersin.org加布里埃尔Gurdin1,www.雷竞技rebatfrontiersin.org纳斯塔Lewinski2,www.雷竞技rebatfrontiersin.org克里斯蒂娜唐 2www.雷竞技rebatfrontiersin.org布丽姬特t麦克因尼斯 1
  • 1弗吉尼亚联邦大学计算机科学系,里士满,弗吉尼亚州,美国
  • 2生命科学和化学工程系,弗吉尼亚联邦大学,里士满,弗吉尼亚州,美国

化学专利是关于小说的一个重要来源的化学物质和化学反应。然而,专利等体积的增加,开采这些化学物质和化学反应的信息已经成为一个耗时和艰苦的努力。在这项研究中,我们提出一个系统自动从专利中提取化学反应事件。我们的方法包括两个步骤:1)命名实体识别(尼珥)——化学反应参数的自动识别从相应的文本,和2)事件提取(EE)——自动分类和连接的实体基于它们之间的相互关系。对于我们的尼珥系统,我们评估双向长期短期记忆(BiLSTM)的和双向编码器陈述变压器(BERT)的方法。对于我们的EE系统,我们评估BERT-based,卷积神经网络(CNN)的,和基于规则的方法。我们评估尼珥和EE组件独立作为一个端到端系统,报告精度,回忆,和F1得分。我们的研究结果表明,BiLSTM-based方法在识别实体表现最好,和CNN-based方法在提取事件表现最好。

1介绍

化学专利是一个新颖的化学物质信息的重要来源和化学反应。新化合物的发现起着至关重要的作用在化学和制药行业,和化学专利第一地点信息披露(他et al ., 2021年)。不幸的是,近年来化学专利的快速增长,以及增加体积,这些化学物质和化学反应的手工编目变得费力、耗时,让研究人员很难跟上当前状态的艺术。这创造了一个迫切需要自动化的解决方案从专利中提取信息以加快合成化学家的工作(劳和梅菲尔德,2020年)。此外,这些数据库允许新发现的化学和合成途径(王et al ., 2001;圆粒金刚石et al ., 2020)。

化学反应通常包括一个有序序列反应和检查步骤,将原料转换成一个最终产品(他et al ., 2021年)。提取这些步骤的过程包含两个主要任务:化学命名实体识别(尼珥)和事件提取(EE)。尼珥的自动识别是实体参与化学反应,和情感表达是事件的自动识别和分类的步骤实体联系在一起。这里,化合物的实体名称标签根据他们的角色在一个反应和条件与反应有关,如产量和温度(Copara et al ., 2020),和事件之间的关系实体描述采取的步骤来创建最终的产品。确定实体和触发词,我们探索了双向短期记忆(BiLSTM)的和双向编码器从变压器(BERT)的表征(Devlin et al ., 2018)方法结合条件随机场(CRF)输出层的最终预测。识别的事件,我们探索了基于规则,基于卷积神经网络(CNN)的,BERT-based方法。我们评估方法谱号chemu - 2020数据集(他et al ., 2021年),我们也参加了挑战(Mahendran et al ., 2020)。我们评估每个方法的各自独立的任务(尼珥和EE),和一个端到端的系统。我们报道的精度、召回和F1分数找到最好的方法(BiLSTM + CRF)尼珥得到全面放松精度0.95和0.87的精度,放松召回0.99和0.85的回忆,和一个放松F1得分0.97和准确的F1得分为0.87。我们最好的方法,EE (CNN-based)获得一个整体精度0.81,0.54召回,F1得分为0.65。

研究的其余部分如下。首先,我们将讨论当前专利文献提取化学反应。第二,我们描述我们尼珥和情感表达的方法。第三,我们讨论和分析结果分别尼珥和情感表达,然后结合成一个端到端系统的结果。最后,我们讨论我们的研究的结论和未来的工作。

2相关工作

化学反应的提取从非结构化文本属性和事件由于体积的增加信息至关重要。我们定义属性作为实体相关的反应,和事件作为起始物料的步骤序列变换成最终产品。在这里,我们讨论之前的文学在这个领域。

他et al。(2021)CRF-based模型用于尼珥和EE的基于规则的系统。尼珥,他们开发了横幅尼珥系统(利曼和冈萨雷斯,2008),使用词汇、语法和上下文特征CRF模型。EE,他们使用了co-occurrence-based方法,他们创建了两个字典: D e ——观察到触发词及其对应的类型,和 D r ——培训和发展的观察事件类型集。预测事件,他们首先确定所有触发词使用的测试数据 D e 然后提取两个事件触发器word-entity对基于以下两个条件:1)它们同时出现在同一个句子,和2)中包含的关系 D r 。该系统是利用基线系统的谱号chemu - 2020的挑战。

Copara et al。(2020)Malarkodi et al。(2020)每个开发了尼珥系统识别化学实体的专利。Copara et al。(2020)伯特BERT-based方法评估五种变体使用语言模型,包括一个特定领域模型称为ChemBERTa。模型有一个完全连接层的每个令牌的隐状态和调整ChEMU数据集,使用所提供的培训和发展集。Malarkodi et al。(2020)调查使用控和多层感知器(mlp),和他们使用句功能,语法特性和功能特性。

劳和梅菲尔德(2020),张、张(2020),Ruas et al。(2020),Donmez et al。(2020)开发尼珥和EE系统提取化学实体及其触发词,随后链接触发词汇来实体识别事件。然而,只有劳和梅菲尔德(2020)张、张(2020)端到端进行评估。

劳和梅菲尔德(2020)提出了一种方法利用解析信息尼珥和情感表达的语法规则。尼珥,他们用ChemicalTagger (Hawizy et al ., 2011)高效匹配对广泛的语法描述实体类型识别化学品和物理量,然后用正则表达式来识别实体类型的其余部分和触发词。相关的情感表达,他们所有的实体在其相应的触发字短语,有一些预定义的例外规则。

张、张(2020)提出了一个混合的深度学习模型和基于模式的规则组合尼珥和情感表达。在他们的工作,生成一个新的语言模型,名叫Patent_BioBERT BioBERT (pretraining专利文献李et al ., 2019)。尼珥,他们调整Patent_BioBERT BiLSTM + CRF,进行后期处理利用一组模式规则的输出。EE,他们建立了一个二元分类器通过微调Patent_BioBERT识别触发词和实体之间的关系。他们还设计了后处理规则基于模式中观察到的训练数据和应用他们恢复一些假阴性的关系。

Ruas et al。(2020)提出了一种BERT-based尼珥和情感表达的方法。尼珥,他们首先使用一种基于规则的分词器文本标记然后BERT-based模型提取实体评估BioBERT和伯特。EE,他们第一次触发词,句子分割掩蔽执行和段然后送入伯特模型分类的关系。Donmez et al。(2020)提出了一种BERT-based方法为EE尼珥和基于规则的方法。尼珥,他们使用pretrained伯特模型,BioBERT,检测实体和触发词。再保险公司,如果有一个触发字在同一个句子作为一个实体,确定的事件是基于一组规则。

在这项工作中,我们分析和基准不同的方法对尼珥和情感表达。尼珥,我们探索BiLSTM + CRF和BioBERT-based方法。对于情感表达,我们探索一种基于规则的方法,利用场地出租信息,CNN-based方法将一个句子分成段和过程分开每个段单元,和两个BERT-based方法。我们单独评估尼珥和情感表达的方法以及端到端系统,进行彻底的分析的结果,以确定每种方法的领域做得好和不足。

3数据

专利的谱号chemu - 2020数据集包含注释与化学实体和事件解释步骤的序列导致反应物通过化学反应一个最终产品(阮et al ., 2020)。它包括十个实体和两个事件类。表1显示每个实体的定义和触发字详细标签。表2显示了事件统计训练数据集。数据集包含两个触发词(REACTION_STEP和检查),和一个事件由一个触发字和一个实体。事件分为两类:__arg1 ARGM。__arg1事件标签对应一个触发词和化合物实体之间的关系。ARGM事件标签对应一个触发词和温度之间的关系,时间,或者产生的实体。图1显示了一个示例的一个句子谱号chemu - 2020数据集(他et al ., 2021年),解释了一个实体之间的关系和触发字。

表1
www.雷竞技rebatfrontiersin.org

表1。定义的实体和引发的数据集。

表2
www.雷竞技rebatfrontiersin.org

表2。实体类型和事件触发词训练数据和他们的关系。

图1
www.雷竞技rebatfrontiersin.org

图1。一个例子的谱号chemu - 2020数据集显示实体,触发词,和事件。

4种方法

本节描述我们的尼珥和EE系统的基本方法。

4.1命名实体识别和触发检测

我们评估使用BiLSTMs和伯特识别化学实体及其触发词。在本节中,我们详细描述这些。

以下4.4.1双向短期记忆

对于我们的BiLSTM方法,我们使用与CRF BiLSTM单位输出层(BiLSTM + CRF)。一个LSTM (黄et al ., 2015)是一种递归神经网络(RNN)。它有两个输入来源:当前状态和过去的状态。这允许细胞连接之前的观察,比如单词句子,并学习这些词的依赖性在任意长的距离。LSTM识别哪些信息应该传递给下一个组件,只允许相关信息。BiLSTMs,处理数据在两个方向上两个隐藏层,使系统在两个方向上利用上下文。我们使用一个线性链CRF分配概率最后一个类。CRF序列学习算法,包含标签模型归纳和预测之间的相互依存。这允许模型使用前面的标签预测通知标签是什么最有可能遵循或发生在一起。

我们代表输入BiLSTM + CRF使用嵌入pretrained词(Mikolov et al ., 2013)结合字符嵌入(Gridach 2017)。我们使用pretrained ChemPatent嵌入(阮et al ., 2020)训练了84076个完整的专利文档的集合(1 b标记)。这个词然后字符映射进行连接,然后通过网络。字符嵌入的是学会了使用BiLSTM层和连接到“嵌入”这个词。减轻问题的字符映射进行有价值的“词汇”(OOV)为模型。在化学专利的情况下,许多令牌长的化学名称不出现在数据集用来训练字嵌入的,比如反应产物(3-Isobutyl-5-methyl-1) - oxetane-2-ylmethyl 6 - [(2-oxoimidazolidin-1-yl)甲基]thieno [2, 3 - d] pyrimidine-2 4 (1 h、3 h)土卫四

4.1.2双向编码器从《变形金刚》表示

伯特的方法,我们使用伯特的嵌入与CRF表示成一个前馈神经网络输出层。伯特是一个情景化字嵌入模型训练在一个大型语料库蒙面下句子语言建模和预测任务。Devlin et al。(2018)显示这个pretrained模型可以调整为其他NLP的任务,包括尼珥,通过添加一个简单的分类层。我们评估伯特和其他几个添加从化学中提取化学反应参数的专利。我们的架构由一个1)备用零件标签组件,2)BioBERT特性表示,3)一个简单的前馈层变成CRF输出层的最终预测。

备用零件标签:伯特标记包括分裂一些令牌称为subwords“零件”,这就缓解的问题OOV的话。然而,这将创建一个并发症时做标记级分类像尼珥;按Devlin et al。(2018)建议,我们只有第一个通过屏蔽其他零件进行分类和应用一个“X”的标签。

BioBERT: BioBERT (李et al ., 2019)是一个伯特模型进一步pretrained在生物医学文本。在我们的工作中,输入BioBERT单个文本句子分为subwords。由集成一个输入表示令牌,段和位置嵌入。李et al。(2019)开始通过加载BERT-based包装重量,然后训练在PubMed抽象和公共医学中心的文章。在我们的实验中,我们把BioBERT v1.1权重,然后调整伯特模型相同的标准。

分类层:系统需要BioBERT层的输出,并将其传递通过一个简单的致密层前馈然后到CRF层最终分类。CRF层允许标签之间的依赖关系被纳入最终的预测。

4.2事件提取

由于化学反应步骤包括行动和化合物(s)的行动生效,我们对待EE作为两级任务:1)识别的触发字表示化学反应步骤和2)识别触发字和化合物之间的关系(s)(是)触发字有关。

确定触发词,我们使用我们的尼珥系统BiLSTM + CRF以下4.4.1节中描述的方法。确定触发词和实体之间的关系,探索三种方法:1)基于规则的方法,2)卷积神经网络(CNN)的方法,和3)BERT-based方法:BERT_cased和BioBERT (李et al ., 2019)。在本节中,我们详细描述每一个方法。

4.2.1基于规则的方法准备

对于我们的基于规则的方法,我们利用主机托管触发字和化学实体之间的信息来确定一个关系应该存在。我们使用广度优先搜索算法寻找触发字最亲密的出现两侧的实体和所有的最近的事件触发词在句子。然后,每个实体的数据集,我们遍历双方直到找到触发字的发生最直接的使用提供的跨度值的实体。我们运用不同的遍历技术和确定最佳遍历技术。以下是我们探索的遍历技术:遍历只剩下,导线由于遍历left-first-then-right,而和反之亦然。在这项工作中,我们报告最好的结果,使用只剩下的遍历,我们遍历的左侧实体提到找到最近的发生的触发词。

4.2.2 CNN-Based方法

CNN-based方法,我们把句子分割成段,每一段到其各自的CNN架构,将得到的权重加入softmax层进行分类。cnn是一种深层神经网络和由四个主要的层(阮Grishman, 2015):1)一个嵌入层,2)卷积层,3)池层,4)前馈层。卷积层充当一个过滤器和学习特征提取从输入什么。max-pooling层使用位置信息来识别最重要的特征从卷积滤波器的输出。最后,前馈层进行分类。

在我们的架构中,我们执行一个二进制分类为每个触发器word-entity对识别是否触发字和实体之间存在的关系。首先,我们识别和提取句子一双触发word-entity所在,而基于文本跨越位于句子,我们把句子分成五个部分:1)preceding-tokenized单词第一个概念之前,2)概念1-tokenized单词在第一个概念,3)middle-tokenized词在两个概念之间,4)概念2-tokenized单词在第二个概念,和5)succeeding-tokenized单词在第二次的概念。一段由一个矩阵表示 k N ,在那里k维度的嵌入和吗N在一段的字数。我们构建单独的卷积之前单位为每个部分和连接它们的固定长度的向量是美联储的致密层执行分类。每个卷积单元适用于一个滑动窗口处理段和提要输出max-pooling层提取基本功能独立的位置。max-pooling层的特性输出的每一段然后被夷为平地,连接成一个向量在喂食前完全连接前馈层。向量是最后送入softmax层执行二进制分类是否存在的关系。

4.2.3 BERT-Based方法

对于我们的BERT-based方法,我们探索两个BERT-contextualized嵌入表示。比起伯特是一个的基于变压器注意力模型,列车在两个方向上。在这里,我们使用BERT-contextualized嵌入和喂成一个简单的前馈神经网络。我们探索两个BERT-based模型:BERT_cased BioBERT。

•BERT_cased:一般伯特模型训练大英语语料库数据:Book-Corpus(800字)和维基百科self-supervised方式(2500字)(不需要人工注释)。在这里,我们使用了模型2头,12层,768单位/隐藏层,共有110参数。

•BioBERT:一般伯特模型,进一步训练语料库PubMed的生物医学研究的文章1摘要和公共医学中心2文章全文。

在此体系结构中,我们首先提取句子包含一个触发字和实体参数。接下来,作为特征提取组件,我们的句子通过pretrained伯特模型提取特征。然后,我们饲料输出到一个辍学层,最后变成一个完全连接密度层进行分类。与我们CNN-based方法一样,我们把EE作为二进制分类任务建立一个单独的模型为每个触发器word-entity一对。

4.3实验细节

4.3.1我们的框架

在这项工作中,我们使用我们的尼珥和EE框架:MedaCy和对外关系署。

MedaCy3是一个面向框架开发的自动识别与反应相关实验参数,包括触发词。对外关系署4是一个面向框架开发自动链接触发词与实验参数提供的一系列步骤的反应。MedaCy包含许多监督多标记序列分类算法对尼珥。对外关系署包含基于规则、基于深度学习和BERT-based算法来识别实体之间的关系。

MedaCy:我们使用PyTorch (Paszke et al ., 2019)的实现BiLSTM + CRF和BioBERT + CRF架构。模型训练40时代使用随机梯度下降法和优化。使用宽大的记号赋予器进行标记。严格的标签实体类型。

对外关系署:我们使用Keras (查尔斯,2013CNN的实现架构。我们尝试了不同的滑动窗口大小,滤波器尺寸,微调和损失函数,在这个工作,小尺度滤波器产生最好的结果。我们应用卷积的辍学技术在输出层来调整模型。我们用亚当和rmsprop优化来减少我们的损失函数。我们利用广大的记号赋予器(沙茨和韦伯,2015年)和Keras记号赋予器5分别基于规则和CNN-based方法。我们训练模型5 - 10时代,以避免过度学习。我们使用了HuggingFaceTransformers构建从2.0 Tensorflow伯特模型,并使用BertTokenizer (Devlin et al ., 2018)和AutoTokenizer (Alsentzer et al ., 2019)标记。

4.4评价

我们报告的精度、召回和F1分数。精度之间的比率是正确预测在总提到的预言提到一个具体的实体,召回的比例是正确预测提到提到的实际数量,和F1之间的调和平均数是精度和召回。我们也报告确切的和放松的结果为每个实体类别为我们尼珥和端到端评估。在确切的评价,两个注释是相等的前提是他们有相同的标记与完全匹配的跨越。放松的评价,两个注释是相等的,如果它们共享相同的标记和跨越重叠。

5结果与讨论

在本节中,我们提出并讨论的结果我们的尼珥和EE系统独立评估,然后作为一个完整的端到端系统。

5.1命名实体识别的结果

表3显示准确的精度和放松(P),回忆起(R),F1在测试集(F)获得的分数对我们BiLSTM + CRF ChEMU专利嵌入和BioBERT + CRF的方法。

表3
www.雷竞技rebatfrontiersin.org

表3。精密(P),回忆起(R),F1为我们的尼珥系统(F)的结果。

在BiLSTM + CRF的结果,准确的f - 1的分数高 ( 0.85 ) 在所有实体,除了温度(0.63)的结果。模型在许多情况下温度标签,标签为“C”或“°C,”不包括数量前温度的象征。我们相信这占模型在评估的模式表现不佳但放松表现良好在评估模式。

BioBERT + CRF的结果,模型的表现与BiLSTM + CRF REACTION_PRODUCT和STARTING_MATERIAL除外。放松的结果表明,该模型是标签实体的一部分,可以确定他们中的大多数;然而,精度相对较低。BioBERT最初获得一个标签为每个subword令牌。然后提供标记级预测相结合,被送入CRF层获取最终实体级的预测。这允许实体之间的依赖关系是考虑序列标签。BioBERT结果表明,它是实体的大部分但不是全部;这表明,后处理的标签可以提高在未来获得一个完整的精确匹配。

5.1.1误差分析

混淆矩阵的BiLSTM + CRF和伯特+ CRF的测试数据集所示图2。矩阵中的行代表带注释的实体,列表示预测实体。例如,在BiLSTM + CRF,每个矩阵的右下角是深色,因为大量的OTHER_COMPOUND (O.C)实体的数据集。颜色矩阵表示实体的密度和系统注释。矩阵表明,绝大多数的不当模型发生在许多具体的实体标签,如STARTING_MATERIAL(克里)REAGENT_CATALYST(司令部),REACTION_PRODUCT (r)和溶剂(S),预测是OTHER_COMPOUND(超频),所有四个实体的化学物质。我们相信这是由于两个主要原因。第一个原因是显而易见的;有一个显著更多的训练实例OTHER_COMPOUND比其他实体。然而,第二个原因是,OTHER_COMPOUND是相当宽泛的类别指任何化学物质不是其他四个实体之一。因此,如果周围的环境化学不足以把它STARTING_MATERIAL, REAGENT_CATALYST, REACTION_PRODUCT,或溶剂的标签,它默认为更广泛的OTHER_COMPOUND标签。

图2
www.雷竞技rebatfrontiersin.org

图2。混淆矩阵使用(一)BiLSTM + CRF和(B)伯特+ CRF的结果。键的缩写如下:EXAMPLE_LABEL一口油井为el瑞)(,REACTION_PRODUCT (r), STARTING_MATERIAL(克里)REAGENT_CATALYST(司令部),溶剂(S)、OTHER_COMPOUND(超频)YIELD_PERCENT (Y.P.) YIELD_OTHER (Y.O.)、时间(时间)和温度(临时)。

5.1.2与以前的工作

表4显示了顶部之间的比较结果报告的谱号chemu - 2020使用谱号挑战- 2020数据集,基线,尼珥方法。基线是一个CRF-based尼珥系统称为旗帜(利曼和冈萨雷斯,2008)提供的ChEMU组织者使用谱号- 2020数据集。从总体结果我们的模型,我们可以看到BiLSTM + CRF方法训练使用专利嵌入了最好的放松效果在BioBERT + CRF和CRF基线,获得系统放松+得分97%,然而,评分的结果略低于基线。Melaxtech (张、张,2020)调整BioBERT /专利文本和BiLSTM + CRF尼珥;他们比其他系统,实现高F1-score 0.96。VinAI (刀和阮,2020年),Lasige BioTM (Ruas et al ., 2020)和BiTeM (Copara et al ., 2020)执行同样,比我们的方法在精确匹配。我们BiLSTM + CRF方法优于基线和其他方法放松匹配,实现更高的回忆。作为讨论的相关工作(第二节),MelaxTech, BiTeM,和LasigBioTM发达BERT-based系统;MelaxTech也用BiLSTM + CRF VinAI。AU-KBC建造系统使用控和延时。

表4
www.雷竞技rebatfrontiersin.org

表4。我们最好的结果相比,顶部chemu - 2020尼珥竞争的结果。基线由组织者提供chemu - 2020的挑战。

5.2事件提取结果

表5显示了精确匹配精度(P),回忆起(R),F1EE系统(F)获得的分数。触发器被确定使用我们BiLSTM + CRF ChemPatent嵌入的方法训练,使用基于规则的方法,确定和事件CNN-based方法,和两个BERT-based方法。结果表明,CNN-based方法获得更高的整体F1分数比其他方法。当训练与CNN,总体预测精度很高,但回忆是低;这一结果表明,CNN没有分类所有实例,但能够正确分类的预测实例。这主要是由于有限的训练实例的工作关系。例如,溶剂,REACTION_PRODUCT STARTING_MATERIAL都小于11在训练数据实例。

表5
www.雷竞技rebatfrontiersin.org

表5。精密(P),回忆起(R), F 1 (F)分数的EE系统触发词识别使用我们BiLSTM + CRF与ChEMU专利嵌入的训练。

我们还可以看到,每个事件类性能(触发word-entity副)CNN-based方法与训练集的实例的数量成正比。例如,事件类REACTION_STEP-REAGENT_CATALYST和REACTION_STEP-STARTING_MATERIAL有更多的训练实例和卖好F1得分,而事件类WORKUP-SOLVENT和WORKUP-STARTING_MATERIAL很少实例和获得一个F1得分为零。基于规则的方法获得较高回忆但精度较低。它预测所有的最近的事件触发词的遍历地区实体化合物;然而,许多预言是假阳性。由于训练集的实例的数量不会影响基于规则的方法,有几个实例的事件类表现的更好。例如,事件类WORKUP-TIME REACTION_STEP-OTHER_COMPOUND获得0F1分数CNN-based方法但表现更好使用基于规则的方法,获得F1得分分别为0.43和0.88。

BERT-based方法获得的结果与其他基于规则和CNN-based方法相比,我们发现令人惊讶。BERT-based方法更高的精度比基于规则的方法但低于CNN-based方法,回忆是低于基于规则的方法但高于CNN-based方法。我们假设这些发现背后的原因也BERT-based方法利用具有嵌入,提高预测的数量(高召回),但CNN-based方法利用领域相关,non-contextualized专利嵌入提高真阳性的数量(高精度)。同时,BERT-based方法只需要这句话引发word-entity对所在地作为输入,而CNN-based方法把句子分为段和过程分别每一部分。因此,CNN-based方法考虑了位置信息的实体更真正的阳性结果。如果我们相互比较BERT-based方法,我们可以看到BERT_cased方法获得了更高的回忆和全面F1得分,而BioBERT-based方法获得精度高。自从BioBERT嵌入的训练在生物医学研究的文章,相对,他们大部分的分类正确预测实例。

每个触发字类别显示了两个触发字类的算术平均值为每个实体参数类。我们可以看到CNN-based方法执行与REACTION_STEP类和贫穷检查类。这主要是因为每个事件类的实例的数量。比较,大多数REACTION_STEP类有更多的实例对CNN火车比大多数检查类。这是同样的原因引起的基于规则的方法执行更好的类。BERT-based法结果类似于CNN-based法;他们表现良好REACTION_STEP类相比,检查类。因为BERT-based和CNN-based方法是监督学习方法,他们需要更多的实例为每个类改善结果。

5.2.1误差分析

表6显示了一个详细的误差分析我们的情感表达方法。我们报告的数量真阳性(tp),假阳性(fp),和假阴性(fn),还有“fpm”和“危机”两个指标表示的数量引起的假阳性和假阴性预测。

表6
www.雷竞技rebatfrontiersin.org

表6。误差分析的事件提取(EE)系统触发词与ChemPatent嵌入的训练。

以前的观测的结果是一致的表5。我们可以看到,REACTION_STEP类表现得比检查类。可以肯定地说,类不平衡中起着重要作用的miss-annotation实例。结果还表明,基于规则的方法明显在注释假阳性的数量。例如,基于规则的方法确定379 WORKUP-REACTION_PRODUCT事件类的实例,只有四个真阳性。尽管REACTION_STEP显著训练实例类,我们可以看到一个同样大量的假阳性为真阳性。这主要是因为提取事件通常是棘手的,不管句型。例如,下列句子显示触发word-REACTION_PRODUCT一对。

1。冷却后,固体被过滤和收集洗冷二氯甲烷给N - (4 - (2-oxo-1 2 3, 4-tetrahydroquinolin-6-yl) thiazol-2-yl) oxazole-5-carboxamide(0.121克,87%)作为固体米色。

2。{甲基4 - [(6-bromo-2-phenyl-3-propylquinolin-4-yl)羰基]aminobicyclo (2.2.2) octane-1-carboxylate 150毫克(0.40更易)38例的化合物溶解在1.4毫升(19.8更易)的亚硫酰氯。

在第一个句子中,实体REACTION_PRODUCT N - (4 - (2-oxo-1 2 3, 4-tetrahydroquinolin-6-yl) thiazol-2-yl) oxazole-5-carboxamide触发字有关,但在第二个句子中,实体REACTION_PRODUCT{甲基4 - [(6-bromo-2-phenyl-3-propylquinolin-4-yl)羰基]aminobicyclo (2.2.2) octane-1-carboxylate不是触发字溶解有关。尽管类似的句子结构,不相似的结果。这些类型的实例使EE在这个数据集非常困难。

在我们的情感表达方法,我们从尼珥利用触发词预测方法和地面真理实体触发词,分别。从指标“fpm”和“危机”引发word-entity一对,我们可以看到,当“fpm”和“危机”的数量的触发字增加,引发word-entity副的性能降低。我们相信这是由于触发word-entity预测一对取决于触发字biLSTM + CRF模型预测的4.1节中描述。

5.2.2比较以前的工作

表7显示了顶部之间的比较结果报告的谱号chemu - 2020使用谱号挑战- 2020数据集,同现基线的组织者提供的挑战,和我们的情感表达方法的总体结果。我们的系统的总体结果表明,所有三个获得更高的精度和F1分数比基线但不是回忆。自基线的方法是一个基于共现信息,基于规则的方法获得高召回但精度较低。这里,所有系统比基线而言F1分数和Melaxtech (张、张,2020)获得最佳的整体性能使用深度学习的混合组合模型EE和基于模式的规则。正如在第二节所讨论的,NextMove / Minesoft劳和梅菲尔德(2020)提出了一种方法利用解析信息与语法规则,和BOUN_REX (Donmez et al ., 2020)利用一组规则来识别事件。所有团队表现好于我们的方法,除了召回Donmez et al。(2020)

表7
www.雷竞技rebatfrontiersin.org

表7。我们最好的结果与上面的结果相比chemu - 2020事件提取(EE)的竞争。基线由组织者提供chemu - 2020的挑战。

5.3端到端结果

一个端到端的系统地址尼珥和情感表达;因此,我们结合我们尼珥和情感表达的方法形成一种两阶段方法。首先,我们使用我们的BiLSTM + CRF ChEMU专利嵌入的方法,产生最好的结果与尼珥识别实体参数和触发词。然后我们使用CNN-based方法ChEMU专利嵌入和伯特情景化的两个BERT-based方法嵌入提取事件。尼珥和情感表达的结果,我们观察到基于深度学习的方法更高的精度比基于规则的方法。因此,我们决定只实验为端到端系统与深度学习方法。表8显示准确的和放松匹配精度(P),回忆起(R),F1(F)分数获得我们的三种方法,显示了一个比较结果报告的chemu - 2020挑战参与者使用谱号- 2020数据集,同现基线的组织者提供的挑战,和整体的结果我们的端到端方法。

表8
www.雷竞技rebatfrontiersin.org

表8。精密(P),回忆起(R), F 1 (F)结果为我们的端到端系统使用我们BiLSTM + CRF尼珥和CNN-based EE方法。

平均端到端系统运行的性能略低于EE系统由于尼珥的误差传播。然而,我们可以看到精确匹配方法的性能与EE-independent评价结果一致(表5)。总的来说,CNN-based方法获得了更高的准确和精度和放松F1分数比BERT-based方法;然而,BERT_cased方法获得较高召回。我们相信CNN-based方法精度高于BERT-based获得方法由于嵌入的使用和输入这个词表示格式。ChEMU专利嵌入在专利专门训练,和专利嵌入与领域相关的信息提供了一个更好的表现比BERT-based中使用情景嵌入的方法。此外,BERT-based方法不考虑实体的位置信息,而CNN-based方法。BERT-based方法获得相似的精度和F1分数,但BERT_cased方法获得更高的回忆。放松的端到端系统结果显示略有增加回忆和轻微下降,精度比EE-independent评估。放松BiLSTM-CRF分数比较类似于地面真理(精度- 0.95,回忆- 0.99,f -得分0.97)放松的评估。因此,放松尼珥的边界的预测BiLSTM + CRF包括上下文内的实体名称。我们相信这些帐户的轻微增加EE的回忆和轻微下降,精度评价。此外,这两个任务使用BiLSTM + CRF模型来识别触发词。自触发字的性能预测强烈影响触发word-entity对预测的性能,我们希望看到一个相似的两个任务的性能。

比较我们的结果,之前的作品,和基线显示,两种方法获得更高的精度和F1分数比基线,而不是回忆。基线(他et al ., 2021年)使用CRF-based模型EE尼珥和基于规则的系统。所有系统超越底线的F1分数在放松和精确匹配。Melaxtech (张、张,2020)超过所有其他系统使用BiLSTM + CRF尼珥和EE BERT-based方法类似于我们的方法。然而,他们利用一套模式规则执行后续处理步骤,提高了性能。因此,我们可以看到,大多数参与者的系统的召回ChEMU_2020的挑战是大大低于他们的精度。然而,回忆我们的方法比我们的精度。

6结论和未来的工作

我们探索BiLSTM + CRF BioBERT + CRF方法提取实体和触发词的专利。我们的研究结果表明,BiLSTM + CRF方法使用化学专利上的字嵌入的训练获得最高的结果在所有实体。我们相信利用与领域相关,non-contextualized专利嵌入的改进的性能利用BERT-contextualized嵌入的词表示,表明可能需要额外的伯特微调。BiLSTM + CRF错误主要是由于模型不当实体标注为OTHER_COMPOUND更多特定的标签,像REACTION_PRODUCT或STARTING_MATERIAL。此外,我们的方法预测实体标签与标签实体可能是导致错误的跨越。在未来,我们计划把重点放在更好的区分不同类型的化合物。CNN-based,我们探索了基于规则和两个BERT-based方法从化学反应中提取事件,使用我们BiLSTM + CRF与ChEMU专利嵌入的方法以确定触发词。我们的研究结果表明,CNN-based方法使用化学专利上的字嵌入的训练获得最高的结果。此外,CNN-based和BERT-based方法获得相对更高的精度,尤其是在REACTION_STEP类,这些类有更多的实例来训练。与此同时,基于规则的方法不需要培训,以检查类表现更好,获得更高的回忆比其他两种方法。 In the future, we plan to explore building a hybrid model with both CNN- and rule-based methods to increase performance. Also, we plan to explore graph-based CNNs to facilitate diverse input data representation to improve performance. In addition, we treated the end-to-end system as two independent stages where we perform first NER and then EE. In the future, we plan to explore utilizing a joint learning model to learn both entities better, and trigger words and events simultaneously.

数据可用性声明

公开的数据集进行分析。这些数据可以在这里找到:http://chemu.eng.unimelb.edu.au/

作者的贡献

DM和BM的主要作者手稿。DM、GG和BM导致了软件开发在这个工作。DM, GG, BM、问和CT所有导致的分析结果。所有作者为写作和编辑稿件。

资金

这项工作是由美国国家科学基金会资助下不。1651957,和信徒在跨学科研究信任奖励项目。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

脚注

1https://www.ncbi.nlm.nih.gov/pubmed/

2https://www.ncbi.nlm.nih.gov/pmc/

3https://github.com/NLPatVCU/MedaCy/

4https://github.com/NLPatVCU/RelEx/tree/CLEF_2020

5https://github.com/keras-team/keras

引用

Alsentzer E。,Murphy, J. R., Boag, W., Weng, W.-H., Jin, D., Naumann, T., et al. (2019). Publicly Available Clinical Bert Embeddings.arXiv预印本arXiv: 1904.03323,72年。

谷歌学术搜索

圆粒金刚石,W。,Baskin, I. I., Sidorov, P., Marcou, G., Horvath, D., Madzhidov, T., et al. (2020).发现新的化学反应生成递归神经网络伦敦:自然

查尔斯,p (2013)。项目标题。可以在:https://github.com/charlespwd/project-title

谷歌学术搜索

Copara, J。,Naderi, N., Knafou, J., Ruch, P., and Teodoro, D. (2020). Named Entity Recognition in Chemical Patents Using Ensemble of Contextual Language Models.arXiv pSreprint arXiv: 2007.12569

谷歌学术搜索

刀,m . H。,Nguyen d Q。(2020).Vinai Chemu 2020:一个精确的系统命名实体识别专利的化学反应塞萨洛尼基希腊:工作笔记谱号2020 -评价论坛会议和实验室22日至25日。

Devlin, J。,Chang, M., Lee, K., and Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.CoRR abs / 1810.04805,278年。

谷歌学术搜索

Donmez, H。,Köksal, A., Ozkirimli, E., and Ozgür, A. (2020).Boun-rex谱号- 2020 Chemu任务2:评估Pretrained变压器事件提取塞萨洛尼基希腊:工作笔记谱号2020 -会议和实验室评价论坛,22日至25日

Gridach, m (2017)。字符级生物命名实体识别的神经网络。j .生物医学。通知。70年,85 - 91。doi: 10.1016 / j.jbi.2017.05.002

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Hawizy, L。,Jessop, D. M., Adams, N., and Murray-Rust, P. (2011). Chemicaltagger: A Tool for Semantic Text-Mining in Chemistry.j . Cheminform3、17。doi: 10.1186 / 1758-2946-3-17

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

他,J。,Nguyen d Q。,Akhondi, S. A., Druckenbrodt, C., Thorne, C., Hoessel, R., et al. (2021). “Chemu 2020: Natural language processing methods are effective for information extraction from chemical patents. Frontiers in Research Metrics and Analytics, 6, 12. doi:10.3389/frma.2021.654438

CrossRef全文|谷歌学术搜索

黄,Z。徐,W。,Yu, K. (2015). Bidirectional Lstm-Crf Models for Sequence Tagging.arXiv预印本arXiv: 1508.01991

谷歌学术搜索

利曼,R。,Gonzalez, G. (2008). Banner: an Executable Survey of Advances in Biomedical Named Entity Recognition.Pac,计算机协会。Biocomput。13日,652 - 663。

《公共医学图书馆摘要》|谷歌学术搜索

李,J。,Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., et al. (2019). Biobert: a Pre-trained Biomedical Language Representation Model for Biomedical Text Mining.生物信息学36 (4),1234 - 1240。doi: 10.1093 /生物信息学/ btz682

谷歌学术搜索

劳,D。,Mayfield, J. (2020). “Extraction of Reactions from Patents Using Grammars,” in中欧研讨会论文集(CEUR-WS)

谷歌学术搜索

有关D。Gurdin, G。,Lewinski, N., Tang, C., and McInnes, B. T. (2020).2020年Nlpatvcu谱号Chemu共享任务系统描述塞萨洛尼基希腊:工作笔记谱号2020 -会议和实验室评价论坛,22日至25日

Malarkodi C。,Pattabhi, R., and Sobha, L. D. (2020).Clrg Chemner:化学命名实体Recognizer@ Chemu谱号2020塞萨洛尼基希腊:工作笔记谱号2020 -评价论坛会议和实验室22日至25日。

Mikolov, T。,Sutskever, I., Chen, K., Corrado, G., and Dean, J. (2013). “Distributed Representations of Words and Phrases and Their Compositionality,” in先进的神经信息处理系统,2013年12月5 - 10日,(太浩湖:少量的酒),3111 - 3119。

谷歌学术搜索

Nguyen d Q。翟,Z。,Yoshikawa, H., Fang, B., Druckenbrodt, C., Thorne, C., et al. (2020). “Chemu: Named Entity Recognition and Event Extraction of Chemical Reactions from Patents,” in欧洲会议信息检索,2020年4月14日至17日,。(NOVA,葡萄牙语:施普林格国际出版、里斯本大学),572 - 579。doi: 10.1007 / 978 - 3 - 030 - 45442 - 5 - _74

CrossRef全文|谷歌学术搜索

阮,t·H。,Grishman, R. (2015). “Relation Extraction: Perspective from Convolutional Neural Networks,” in学报第一车间对向量空间模型的自然语言处理,2015年6月(丹佛,Colarado:ACL)。39-48。

谷歌学术搜索

Paszke,。,Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., et al. (2019). “Pytorch: An Imperative Style, High-Performance Deep Learning Library,” in神经信息处理系统的进步32。编辑h .瓦拉赫,h . Larochelle a . Beygelzimer Alche-Buc f . d, e·福克斯和r·加内特(加拿大温哥华:Curran Associates Inc .)),8024 - 8035。

谷歌学术搜索

Ruas, P。,Lamurias, A., and Couto, F. M. (2020).Lasigebiotm团队Clef2020 Chemu评估实验室:命名实体识别和事件从专利中描述化学反应中提取使用Biobert尼珥和再保险塞萨洛尼基希腊:工作笔记谱号2020 -会议和实验室评价论坛,22日至25日

宝贝儿,s . N。,Weber, R. J. (2015).药品不良反应Accp(美国大学临床药学),5326年。

谷歌学术搜索

王,K。,Wang, L., Yuan, Q., Luo, S., Yao, J., Yuan, S., et al. (2001). Construction of a Generic Reaction Knowledge Base by Reaction Data Mining.j·摩尔。图形模型。19日,427 - 433。doi: 10.1016 / s1093 - 3263 (00) 00102 - 9

CrossRef全文|谷歌学术搜索

张,j . w . y . r . Z。,Zhang, Y. (2020).谱号Melaxtech:报告2020 - chemu任务从专利中提取的化学反应塞萨洛尼基希腊:工作笔记谱号2020 -会议和实验室评价论坛,22日至25日

关键词:命名实体识别、事件提取关系提取、信息提取、化学自然语言处理

引用:有关D, Gurdin G, Lewinski N,唐C和麦克因尼斯BT(2021)确定化学反应及其相关属性的专利。前面。Metr >,肛交。6:688353。doi: 10.3389 / frma.2021.688353

收到:2021年3月30日;接受:2021年5月31日;
发表:2021年7月12日。

编辑:

卡琳Verspoor澳大利亚皇家墨尔本理工大学的

审核:

红姐戴国立高雄大学的科技、台湾
Nansu宗庆后美国梅奥诊所

版权©2021马亨德兰,Gurdin Lewinski,唐宋麦克因尼斯。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Darshini马亨德兰,mahendrand@vcu.edu

下载