原始研究的文章

前面。广播,2022年12月15日
在放射学秒。人工智能
https://doi.org/10.3389/fradi.2022.1041518

健壮的和准确的肺结节检测self-supervised特性学习领域适应气候变化

Jingya刘 ¹,

Liangliang曹²,

它就像³和

英利田 ^{1 *}

¹纽约城市大学,纽约,纽约,美国
²美国马塞诸斯州大学的CI、阿默斯特马
³纪念斯隆凯特林癌症中心,纽约,纽约,美国

医学影像数据注释是昂贵和费时的。监督深度学习方法可能遇到的过度拟合如果训练有限的医疗数据,并进一步影响计算机辅助诊断(CAD)的鲁棒性在CT扫描收集的各种扫描仪厂商。此外,假阳性率高肺结节自动检测方法阻止他们的应用程序在日常临床常规诊断。为了解决这些问题,我们首先介绍一个新颖的自学习模式训练pre-trained模型通过学习丰富的特性代表从大规模无标号数据没有额外的注释,保证一致的检测性能新颖的数据集。然后,一个3 d功能金字塔网络(3 dfpn)提出了高灵敏度结节检测通过提取多尺度特性,在骨干网络的权重由pre-trained初始化模型,然后以监督的方式调整。此外,高敏感性和特异性(海关 $^{2}$ )网络提出了减少假阳性通过跟踪外观变化连续CT片位置历史图像(LHI)发现结节的候选人。该方法的性能和鲁棒性评估在一些公开的数据集,包括LUNA16 SPIE-AAPM LungTIME, HMS。我们建议的探测器达到的最先进的结果 $90.6 %$ 的敏感性 $1 / 8$ 假阳性/扫描LUNA16数据集。拟议的框架的概括性评价三个额外的数据集(例如、SPIE-AAPM LungTIME, HMS)被不同类型的CT扫描仪。

1。介绍

肺癌是世界上领先的癌症的发病率和死亡率(1)。在诊断时,疾病阶段密切相关,肺癌患者的生存。因此,它是至关重要的努力识别和干预肺癌在早期阶段(2)。计算机断层扫描(CT)已被证明更好地可视化肿瘤在早期临床诊断(3)。然而,它是繁琐和耗时的放射科医生手动检测和标签肿瘤在CTs。更好地协助诊断肺癌,CT-based肺结节自动检测方法已经广泛地探讨(4- - - - - -9)开发计算机辅助诊断(CAD)系统(10,11)。结节检测CAD框架一般由一个结节探测器识别和检测结节的位置和分类器进一步区分虚假检测考生从真正的结节手术降低假阳性。近年来,深度学习方法展示了优秀的性能基于医学图像分析和初步的肺结节检测(12- - - - - -16)取得了高灵敏度 $95年 %$ LUNA16挑战的数据集(17),但是在一个较高的假阳性率(例如, $8$ 假阳性/扫描),限制他们的使用在实际临床过程。降低假阳性率仍然是一个悬而未决的问题。大多数现有的方法实现下面的敏感性 $75年 %$ 在 $1 / 8$ 假阳性/扫描。假阳性高速率主要是由以下两个原因造成的。(1)一些正常组织形态类似于结节的CT图像,导致错误检测率高。区分组织和结节的方法是非常重要的,以减少误报为肺结节自动检测方案。(2)大量的结节明显不同于CT总额,这可能导致一些结节的小姐检测。例如,在LUNA16数据集(17)、结节大小的范围可以从3毫米到30毫米(直径),它的10倍。只有 $0.059$ CT扫描总额的%是由一个直径10毫米结节CT扫描的分辨率 $213年 \times 293年$ 像素, $281年$ 片。因此,有必要设计方法用于检测小结节从大体积CT扫描和进一步区分正常组织与外表类似结节的CT扫描各种机器设置和强度。

基于视深度学习框架,构件(如强度、机器设置,机器噪音,收集CT扫描和图像协议可能导致系统差异。为了开发健壮的深度上优于肺结节检测方法来处理收集的CTs不同供应商的CT扫描仪,需要大量的训练数据标记。然而,手动标注大量的CT扫描可以是乏味的,要求很苛刻,耗时。它还需要人类专家在放射学的专业。最近,一位self-supervised学习方法(18,19)提出了学习的中间表示相当大的无标号数据集由一个设计良好的借口任务监督学习的方式。灵感来自于旋转回旋网(20.,21),在这篇文章中,我们简单地旋转CT扫描在某些角度和设计一个旋转分类网络为借口来区分每个CT扫描的旋转角度。训练有素的模型有效地学习的丰富的功能和语义概念的CT扫描大量未标记数据集,然后进一步应用作为pre-trained模型健壮的结节的结节检测器检测培训小带注释的数据集。

在这篇文章中,如所示图1,我们建议的框架包含三个主要组件。(1)提高鲁棒性结节探测器的数据集,而无需额外的注释,提出自我pre-trained模型学习丰富的空间特性在CT扫描获得来自不同制造商和通过培训通过应用旋转预测作为借口任务。(2)出于2 d特征金字塔网络(红外系统)(22),3 d高灵敏度特性金字塔网络(3 dfpn)多尺度特性预测结合底层开发高分辨率特征与高层语义特征与不同大小的结节。(3)减少假阳性网络基于位置历史图像区分不同空间分布的结节和正常组织在连续CT片大大消除了误报率,同时保持高灵敏度和特异性。

图1

图1。提出了强大的结节检测框架3 dfpn-hs $^{2}$ 由3 d特征金字塔事先(3 dfpn),肺结节探测器和海关 $^{2}$ 减少假阳性网络高敏感性和特异性肺结节检测。(1)提高鲁棒性的框架在不同的数据集,pre-trained模型训练的骨干网探测器ResNet-18应用于结节检测网络。pre-trained模型是一个简单但有效的借口任务获得的培训通过旋转预测网络。最初的CTs通过几何旋转变换在(0,90,180,270)度和紧随其后的一个分类网络预测CT扫描的旋转角度。(2)3 dfpn需要输入整个预测结节CT扫描的候选人。骨干网络(ResNet-18)3 dfpn初始化由pretrained权重模型,然后调整小数据集与注释肺结节检测监督模式。(3)发现结节候选人,海关 $^{2}$ 网络消除了错误的预测基于位置的变化的正常组织LHI连续CT切片的图像。self-supervised借口任务的详细结构训练所示图2,该3 dfpn网络中可以找到图3,LHI见图4。

我们提出一个准确和健壮的肺结节检测框架(3 dfpn-hs $^{2}$ )通过集成一个精确的结节检测模型方法来达到降低小说假阳性高敏感性和特异性的诊断。本文是我们初步的扩展工作(23),总结了新的贡献如下:

1。提高健壮性和普遍性的结节探测器没有额外的注释,我们采用一个pre-trained模型可以显著地提高性能的模型在数据集与一个简单而有效的self-supervised学习模式。

2。通过结合pre-trained模型与两级框架(3 dfpn-hs $^{2}$ ),LUNA16数据集上的实验和结果展示最先进的性能,特别是在较低的假阳性利率。

3所示。拟议的框架的普遍性一直在评估三个额外的小数据集(SPIE-AAPM LungTIME, HMS)被不同类型的CT扫描仪显示该框架的鲁棒性,具有高潜力在临床实践中的应用。

本文的其余部分组织如下。第二节介绍了相关工作self-supervised功能学习,目标检测,从CT扫描和肺结节检测。第三节解释了该方法。第四节介绍了实现细节,实验结果和讨论。最后,第五节总结了本文的言论。

2。相关工作

作为数据驱动计算机制,监督卷积神经网络(回旋网)通常需要大型带安全标签的数据时获得良好的性能,克服过度拟合。手动标记大量的CT扫描是非常昂贵的,需要多个专家放射科医生执行任务解决读者协议和变异性问题。因此,在计算机视觉中,一些研究者提出了自我——或者联合国监管下学习方法学习特性表征,而无需手动数据注释(24- - - - - -28)。中间表示的图像和视频学习培训网络在一个或多个借口任务(例如,回归或分类)无标号数据的修改。

最近,self-supervised学习方法被广泛研究,提出了各种借口任务和学习区分扭曲的转换(18),采用补丁预测相对位置(29日),着色将图像映射到一个分布(30.与洗牌补丁),区分拼图(19)。壮族et al。(31日)提出了一个魔方的任务扩展拼图(19)的重新排序2 d图像补丁旋转和再订购3 d数据集。结果表明在CTs分类和分割任务的性能改进。周et al。(32)提出了模型创世纪借口任务培训通过图像失真,在绘画中,统一的方法,证明了下游任务没有任何注释图像分类和分割。京田回顾self-supervised学习方法在综合调查报告(33)。self-supervised学习相关的肺结节的以前的工作主要侧重于结节的分类和分割。在本文中,我们的目标是证明self-supervised学习方法的鲁棒性肺结节检测任务与丰富的语义特性从大规模肺CT扫描。(20.)每个输入的多个图像旋转90度,学会了通过图像旋转图像的语义内容预测网络。但是,先前的方法是基于两个维度和缺乏空间信息。最近,京田(21)设计了一种旋转变换网络3 d视频输入序列学习丰富的特性。网络可以学习高级空间信息在视频对象的预测正确的旋转。遵循框架(21),把每个CT扫描为一个视频中,我们使用简单但有效的旋转预测借口任务预测3 d CT扫描的旋转角度来获取空间信息丰富的CT扫描。几个深上优于框架提出了目标检测处理小规模和多尺度对象(34,35)。单镜头多箱式探测器(固态硬盘)(36)应用金字塔功能层次的卷积网络,使用多层功能直接多尺度检测到对象的映射在一个单一的通过。然而,固态硬盘不能重用低级特征图,导致错过小对象的检测。为了检测小物体,尺度归一化的图像金字塔(剪断)(35)有选择地back-propagated对象在不同尺度的梯度。虽然小目标检测性能显著提高,计算成本可能非常高运用多个图像作为输入。到目前为止,2 d特征金字塔网络(红外系统)(22)展示了小目标检测的有效性通过提取包含一般的低级特征的多尺度特征图对象在不同的尺度上。介绍了自上而下的路径通过横向连接通过全局上下文信息的高级和低级特性。特征提取的计算直接降低了应用多尺度特征图。这红外系统框架可以应用于肺结节检测每个二维CT片。然而,没有3 d信息在CT片,高误报。

不断努力取得了与CT扫描检测肺结节。与传统方法相比基于强度、形状、纹理特征,和上下文特征,基于深层学习方法显示显著的性能改进(37- - - - - -40)。(16)可以达到平均的敏感性 $84.2 %$ 由一个3 d R-CNN更快探测器学习丰富的结节特性结合双通道网络和一个encoder-decoder结构没有减少假阳性,而单发Single-Scale肺结节检测(S4ND)(14)介绍了3 d密集的连接和调查采样下来小结节检测的方法。这些框架使用只有一个规模特征地图和有限的检测结节与大范围的大小。(41提出了一种多尺度结节检测方法。该方法首先分割区域边界描述获取肺肺,然后应用三sub-algorithms检测三个结节大小间隔的候选人。虽然大小不一的结节是分开对待,但灵敏度 $85.6 %$ 在 $8$ 假阳性/扫描有限的基于规则的阈值和形态学算法。

此外,为了减少假阳性,窦等。13,42应用三种不同的3 d)事先架构适应不同尺度的结节,并手动设置阈值组合权重。丁等。12)应用的框架2 d R-CNN更快结节探测器分类器和降低假阳性 $89.1 %$ 平均灵敏度。多尺度渐进集成卷积神经网络(MGI-CNN)(43进行多流特性”)使用图像金字塔网络集成为小结节检测和减少假阳性。然而,这些框架的计算成本昂贵由于努力从图像中提取特征图在不同大小和多个培训过程。王et al。(15)应用2 dfpn网络对肺结节检测,紧随其后的是一个条件三维Non-Maximum抑制(条件3 d-nms),注意3 d CNN(注意3 d-cnn)减少假阳性。然而,没有连续CT片内的空间特性,介绍了假阳性较高的候选人,导致还原过程的努力。

在本文中,我们提出一个丰富的空间特征提取方法,准确的多尺度结节检测网络,和一个有效的减少假阳性和健壮的肺结节检测算法准确。

3所示。方法

在本节中,我们描述的细节提出准确、健壮的肺结节检测框架。所示图1pre-trained模型,首先通过采用旋转预测为借口来提取丰富的空间特性,利用CT扫描的声音被不同的制造商。pre-trained模型的权重应用于初始化骨干网络(ResNet-18肺结节的探测器3 dfpn。的3 dfpn需要一个完整的3 d CT扫描量作为输入和输出的3 d位置肺结节的候选人。然后,高敏感性和特异性(海关 $^{2}$ )网络预测的概率真或假阳性的裁剪为中心的三维立方体候选人结节。

3.1。Self-supervised pre-trained模型

启用该结节为丰富的3 d CT探测器特性苛捐杂税,pre-trained模型获得了代表和区别的功能不使用任何额外的标签。所示图2灵感来自于(20.,21),一个旋转变换首先进行3 d CT扫描获得一定角度的旋转类。旋转变换旋转3 d CT扫描在一个角度的轴面 $θ$ ( $0^{\circ}, {90年}^{\circ}, {180年}^{\circ}, {270年}^{\circ}$ )。预测正确的图像旋转变换需要本地化取向和突出的对象的类型。分类旋转翻译使事先学习对象的高级空间信息。在CT扫描数据集组成的四个旋转类是准备的借口的任务(旋转预测)培训以监督的方式,旨在最大化旋转角度的分类概率。结节的骨干网检测器(ResNet-18)应用于分类输入的旋转类CT扫描,紧随其后的是两个完全连接层的概率预测。因此,丰富空间CT扫描功能是由区分了肺的功能结构区域的CT扫描。应用熵损失 $K$ 旋转角度(这里 $k = 4$ )和旋转 $r$ 如方程所示(1):

l o 年代 年代 (c_{我} | θ) = - 1 / K \sum_{r = 1}^{K} 日志 (F (G (c_{我}, r) | θ)), (1)

分类网络的定义是在哪里 $F (\cdot | θ)$ 空间特征学习和旋转变换从输入3 d CT扫描旋转角的类别表示 $G (c | y)$ 。

图2

图2。pre-trained模型训练包括两个步骤。(1)旋转输入3 d CT扫描和四个角 $0^{\circ}, {90年}^{\circ}, {180年}^{\circ}, {270年}^{\circ}$ 通过旋转变换网络。(2)旋转预测借口任务使用骨干网(ResNet-18拟议的结节检测器()3 dfpn)对特征提取和2完全连接(FC)层获得的最大旋转预测概率。

3.2。3 d特征金字塔网络结节检测

计算机视觉的最新进展表明特征金字塔网络(红外系统)强大的检测性能在对象在不同的尺度上(22)。然而,最初的红外系统被设计用来处理二维图像。出于这一点,我们提出一个3 dfpn对3 d肺结节的位置从3 d CT容积扫描检测。不同于(22),这只连接上层功能,进一步保护位置细节和获得强大的语义特征,一个密集的金字塔网络集成的低级和高级层提出的高分辨率和高的语义特征,分别。表1强调之间的主要差异2 dfpn和我们的3 dfpn。

表1

表1。对比2 dfpn(22),我们建议的3 dfpn。的3 d输入网络,提出特征金字塔层平行与所有的高和低层次的功能。

所示图3自底向上的网络从卷积提取特征层2 - 5,称为C2, C3, C4、C5,紧随其后的是一个卷积层与内核大小 $1 \times 1 \times 1$ 从卷积转换功能层相同的大小。特征金字塔网络由四层:P2、P3, P4, P5。max-pooling层集成低级层特性与高级特性。3 dfpn预测信心得分和相应的位置 $(x, y, z, d]$ 为每个结节候选人, $(x, y]$ 每个CT片上的空间坐标, $z$ 的指数是CT片, $d$ 是结节直径的候选人。探测器的骨干网络的权值初始化pre-trained模型和进一步完善与监督学习进行小标签的数据集。

图3

图3。我们提出的体系结构3 dfpn网络。输入3 d体积分成 $96年 \times 96年$ 像素 $\times 96年$ 片。大小的C1, C2, C3, C4、C5 ${96年}^{3}, 48^{3}, 24^{3}, 12^{3}$ , $6^{3}$ 分别。卷积后层与内核大小 $1 \times 1 \times 1$ 频道64维度转换功能。3 d反褶积和max-pooling层申请积分卷积的每一层C2, C3, C4、C5金字塔层P2、P3, P4, P5。

3.3。海关 $^{2}$ 网络减少假阳性

所示图4 (A)一些组织的外观(橙色盒子)类似于真正的结节(绿色的盒子),也可能会发现结节候选人并生成大量的假阳性。表2说明了300假阳性的分析提出了预测的结节探测器3 dfpn。我们观察到241所造成的假阳性(FPs)高外观相似的组织( $80.3 %$ ),33人由于不准确的尺寸检测( $11 %$ ),26 FPs是由于不准确的位置检测( $8.7 %$ )。假阳性的大部分是由正常组织地区拥有相似的外观。然而,通过将每个CT扫描作为一个视频,我们发现组织的方向和结节呈现不同的模式在连续片,如图所示无花果。4 (B),5和6。真正的结节的方差往往向外扩大或减少向中心在连续CT片。因此,我们提出一个新颖的方法来进一步区分组织结节减少假阳性的候选人之一。

图4

图4。该位置历史图像(LHI)区分组织和预测结节的结节的候选人。(一个)真正的结节(绿框)有相似的表象的虚假检测组织(橙色盒子)。(B)结节的位置差异和组织在LHIs面向不同。真正的结节通常有一个圆形区域代表光明中心空间变化(结节的大小减少以下CT幻灯片)或深中心(结节的大小增加以下CT幻灯片)。另一方面,虚假的位置方差检测组织往往在某些方向改变,比如逐渐变化的轨迹线。

图5

图5。发现真正的结节候选人的例子(每一列的左图)和相应的LHIs(每一列的正确形象)之间的计算( $年代 - 2$ , $年代 - 1$ ),( $年代 - 1$ , $年代$ )和( $年代$ , $年代 + 1$ 片所示 $年代 - 1$ , $年代$ , $年代 + 1$ 列。绿色箭头标记的位置的候选人。如图,真正的结节有圆形区域LHI结节的位置方法的图像边缘的中心或结节体积。此外,结节中心位置的候选人几乎连续切片的变化。

图6

图6。错误的例子,发现组织候选人(每一列的左图)和相应的LHIs(每一列的正确形象)之间的计算三个连续切片( $年代 - 2$ , $年代 - 1$ ),( $年代 - 1$ , $年代$ )和( $年代$ , $年代 + 1$ )所示 $年代 - 1$ , $年代$ , $年代 + 1$ 列。橙色箭头标记的位置错误检测组织候选人。LHIs纸巾显示与真正的结节具有明显的差异。相比之下,真正的LHIs结节图5组织的广泛变异位置遵循一定的模式,说明随着强度方差LHIs沿着轨迹线。

表2

表2。统计分析为假阳性结节的候选人。

灵感来自运动历史图像(MHI) (44,45),我们定义的位置历史图像(LHI) $f$ 。LHI的强度值 $(1, τ)$ 片是由 $f (x, y, 年代)$ 通过给定的任何像素的位置 $(x, y)$ 在CT片 $年代$ 。美联储LHI是前馈神经网络海关 $^{2}$ 与两个卷积层和三个完全连接层。的海关 $^{2}$ 网络真结节和组织改进预测标签。

根据方程(LHI强度计算2):

f (x, y, 年代) = {\begin{matrix} τ & 如果 ψ (x, y, 年代) = 1 \\ 马克斯 (0, f (x, y, 年代 - 1) - 1) & 否则 \end{matrix}, (2)

更新的功能 $ψ (x, y, 年代)$ 通过两个连续的像素强度的空间分化CT片。该算法具有以下步骤。(1)如果 $| 我 (x, y, 年代) - 我 (x, y, 年代 - 1) |$ 大于一个阈值, $ψ (x, y, 年代) = 1$ ,否则, $ψ (x, y, 年代) = 0$ 。(2)当前切片,如果 $ψ (x, y, 年代) = 1$ , $f = τ$ 。否则,如果 $f (x, y, 年代)$ 不为零,它是梯度的减1。如果 $f (x, y, 年代)$ 等于零,那么仍然为零。(3)重复步骤(1)和(2),直到所有的切片处理。因此,拟议中的LHIs可以充分代表的位置连续CT片的差异及其变化模式。

4所示。实验结果和讨论

4.1。数据集

在本文中,我们采用培训、测试和性能评价五个公共数据集:NLST, LUNA16, SPIE-AAPM LungTime, HMS肺癌数据集。表3总结这些数据集的详细信息。

表3

表3。数据集的详细信息。

NLST数据集:全国肺癌筛查试验”(NLST) (46)是一个公共数据集旨在确定低剂量螺旋CT筛查肺癌高危人群中可以降低肺癌的死亡率与胸部筛查。数据包括参与者特征,筛选试验结果,诊断程序,肺癌,和死亡率超过75000 CT扫描捕捉到四个不同的CT扫描仪(即制造商。、通用电气、飞利浦、西门子和东芝)。因为这个数据是巨大的和没有注释结节位置,NLST数据集用于基于旋转变换self-supervised功能学习。13762年总共应用CT扫描为借口任务训练。

LUNA16数据集:数据集(LUNA16挑战17)包含 $1, 186年$ 结节大小不等,从3 - 30毫米 $888年$ CT扫描并同意至少3的4放射科医生。数据集正式分为10个子集。进行公平的比较与其他肺结节检测方法,我们遵循相同的交叉验证协议通过应用9子集作为训练和剩余子集作为测试和报告的平均性能。我们分手 $10 %$ 的训练数据用于验证监控培训过程的收敛。结节探测器3 dfpn初始化在NLST pre-trained模型训练数据集和调整LUNA16训练子集和执行上的评估测试子集。

SPIE-AAPM数据集:的SPIE-AAPM数据集收集“大挑战”的恶性和良性肺结节的诊断分类光学和光子学(学报)的国际社会的支持下美国医学物理学家协会(AAPM)和美国国家癌症研究所(NCI) (47)。它包含70 CT扫描70例,结节位置的注释和良性或恶性结节的诊断类别。是应用于我们的论文cross-dataset测试。

肺的时间数据集:肺的测试图像Motol环境(肺)公开,并包含157与394个结节CT扫描(48)。结节在2 - 10毫米直径的范围。结节的CT扫描注释的位置。是用于我们的论文cross-dataset测试。

HMS肺癌数据集:HMS肺癌的数据集(49)包含生成的CT扫描和肺肿瘤部分临床护理专业人士竞争461个病人中使用。HMS包含一个总数229 CT扫描和254结节的结节位置注释。是用于我们的论文cross-dataset测试。

4.2。数据预处理

预处理过程需要原始CT扫描对准确结节检测。首先,面具肺肺区域提取的区域分割。二维单片处理首先用高斯滤波器去除脂肪,水,肾体积提取背景,紧随其后的是一个3 d连接删除不相关的领域(50)。然而,它需要 $9$ 来 $22$ 秒获得每个CT扫描的面具。加快大型数据集的处理速度,我们雇佣LGAN方法(51)和培训网络 $10, 000年$ 对肺CT片掩模提取平均加快这一进程 $5$ 秒扫描。此外,CT扫描与Hounsfield单位之间的实用价值 $(- 1200年, 600年]$ 转换为灰度值的吗 $(0, 255年]$ 由一个线性映射。CT扫描的间隔(毫米/像素)不同病人和机器之间是不同的,和重采样应用统一间距为1毫米。

4.3。实验设置

4.3.1。Self-supervised pre-trained模型

3 d CT扫描在四个角(旋转 $0^{\circ}$ , ${90年}^{\circ}$ , ${180年}^{\circ}$ , ${270年}^{\circ}$ )。的骨干网络3 dfpn(ResNet-18)用于从输入CT扫描,提取丰富的空间特性和两个完全连接层应用于旋转类的概率最大化。然后pre-trained模型是用来初始化权重肺结节探测器3 dfpn。在培训期间,学习速率设置为0.1,下降了 $1 / 2$ 在70年和85年时代,体重的衰变 $5 e^{- 4}$ 。总培训包括100时代,批量大小设置为16。

4.3.2。3 dfpn

的3 dfpn网络将整个CT扫描作为输入和选择的体积 $96年 \times 96年 \times 96年$ 通过滑动窗口像素模式。这个尺寸选择实验,以确保它满足整个结节即使大结节(约。30毫米)。在我们的3 dfpn大小,锚用于获得候选区域的特征图谱[3 $^{3}$ ,5 $^{3}$ ,10 $^{3}$ ,15 $^{3}$ ,20 $^{3}$ ,25 $^{3}$ ,30 $^{3}$ )像素。结节位置预测的3 d功能对应的锚定区域的地图。在培训过程中,真实的地区地区的Intersection-over-Union(借据)阈值小于 $0.02$ 被称为负样本的阈值大于 $0.4$ 是积极的样本。为了避免正负样本之间的相似性,借据值之间的区域将被忽略。我们遵循2 dfpn (22)预测结节候选人 $3 \times 3$ 卷积层和两个紧随其后 $1 \times 1$ 兄弟姐妹卷积分类和回归层。分类层预测候选类、信心和回归层学习区域建议和真实之间的偏移量。光滑的 $l 1$ 损失(52)和二进制叉损失(BCE-loss)用于位置回归和分类,分别。概率大于0.1的建议选为结节的候选人。Non-maximum抑制进一步应用于消除多个预测结节的候选人。

4.3.3。海关 $^{2}$ 网络

的海关 $^{2}$ 网络由两个卷积层 $30.$ 和 $50$ 输出通道尺寸,和三个完全连接层 $(2048年, 1024年, 512年)$ 通道尺寸。ReLU激活应用卷积后每个层,紧随其后的是一批标准化层。 $11$ 连续选择CT片LHI图像生成 $5$ 片之前和之后当前结节的候选人。卷积核的大小设置基于实证实验。图像补丁与每个预测结节候选人地区但大小的两倍 $x$ 和 $y$ 的方向。的阈值计算的强度LHIs空间连续两片将之间的区别 $30.$ 和 $40$ 用于数据增大。LHIs被调整大小 $48 \times 48$ 像素的输入海关 $^{2}$ 网络。克服不平衡数据的候选人,我们随机样本相似的假阳性的候选人的真正的候选人和应用数据量增大,包括翻转、旋转和裁剪 $0.9$ 原来的大小。在培训,学习速率开始 $0.01$ 和减少 $1 / 10$ 对于每一个 $500年$ 时代的发展。 $2, 000年$ 时代在执行培训。的平均预测时间整个CT扫描 $0.53$ 最小/扫描GeForce GTX 1080 GPU使用Python 2.7。

4.4。评价指标

性能是衡量自由反应接受者操作特征(FROC)分析和性能指标(CPM)的竞争,与其他方法相同。LUNA16挑战评价方法后,FROC曲线情节检测灵敏度和相应的假阳性曲线上的点获得的真阳性率(真阳性的和真阳性和假阴性)而误判率 $1 / 4$ , $1 / 2$ , $1$ , $2$ , $4$ , $8$ 每次扫描。CPM分数计算,平均每扫描所有假阳性的敏感性水平。灵敏度定义为真阳性的比率除以总数量的真阳性和假阴性。特异性是真正的底片的比例超过总数的真正的底片和假阳性。

4.5。实验结果和分析

4.5.1。与其他方法相比

表4显示了FROC评价结果 $1 / 8$ , $1 / 4$ , $1 / 2$ , $1$ , $2$ , $4$ , $8$ 假阳性水平LUNA16我们建议的方法与先进的方法。表中高亮显示的数字代表每个列的最佳性能。因为大多数先进的方法不使用pre-trained模型,所有LUNA16数据集上的测试方法没有pre-trained模型为一个公平的比较,在相同FROC评估。的最先进的方法分为两组框架没有减少假阳性(14,16,41与假阳性)和还原过程(12,13,15,42,43)。如表所示,与先进的检测方法相比,提出的3 dfpn超过 $13。9 %$ 0.125扫描和假阳性 $2 %$ 平均CPM。与减少假阳性的框架相比,优于我们的框架 $5.5 %$ 平均灵敏度大多数其他的方法和结果 $1 %$ 比金等。43)。此外,该框架实现最佳性能在FP的水平。如前所述,CAD系统需要不仅灵敏度高,而且高特异性。表4表明,该海关 $^{2}$ 网络大大降低假阳性。3 dfpn-hs $^{2}$ 获得的最大灵敏度 $97.14 %$ 为 $2$ 每扫描FPs。此外,该框架仍然是一个高灵敏度 $90年 %$ 为 $1 / 8$ , $1 / 4$ , $1 / 2$ FP /扫描。实验结果表明,提出的3 dfpn-hs $^{2}$ 与最先进的性能达到高灵敏度和特异性肺结节检测。结节检测结果所示图7。

图7

图7。可视化检测到一些真正的结节的大小不同直径3毫米至25毫米 $d$ 我们的提议3 dfpn-hs $^{2}$ 框架。为了更好地可视化,发现结节区域放大,如橙色圈所示。绿色框表示预测区域,红色框代表了真实。一些红色的盒子不是观测到的,因为他们是完全重叠的绿色盒子。结果证明我们的3 dfpn-hs $^{2}$ 框架能够检测肺结节CT扫描的不同尺寸准确。

表4

表4。FROC LUNA16数据集的最先进的方法性能比较:敏感性和相应的假阳性 $1 / 8$ , $1 / 4$ , $1 / 2$ , $1$ , $2$ , $4$ , $8$ 每扫描。我们的3 dfpn-hs $^{2}$ 方法达到最佳性能( $> 90年 %$ 敏感度)最多的假阳性水平和显著优于他人特别是假阳性水平低( $1 / 8$ 和 $1 / 4$ )。3 dfpn显示结节探测器没有减少假阳性。3 dfpn-hs $^{2}$ 减少假阳性。3 dfpn-hs $^{2} ⋆$ 显示了应用结果pre-trained NLST训练数据集模型。 $C P 米_{年代}$ , $C P 米_{米}$ , $C P 米_{l}$ 显示的平均检测性能小,介质,分别和更大的结节。

进一步分析发现网络性能的各种结节大小,我们跟着(53)对测试集分成三个类别进行分类。根据肺结节的大小分布,平均CPM 10倍交叉验证评估在结节大小3毫米至5毫米(小),5毫米至10毫米(媒介),大于10毫米(大),分别。所示表4,3 dfpn-hs $^{2}$ 显示改善敏感性小、中、大型结节直径相比3 dfpn。具体来说,3 dfpn表现良好在检测大中型结节直径检测一样简单。与pre-trained模型和减少假阳性,结果显示了 $3 %$ 改进平均CPM的小结节检测和得到最好的性能。

4.5.2。鲁棒性与self-supervised pre-trained模型

所示表5我们进行两组实验,评估框架的鲁棒性,不适用pretrained模型,采用pretrained模型。对于没有pre-trained的实验模型,3 dfpn-hs $^{2}$ 模型是LUNA16从头训练训练集。实验与pre-trained模型适用于权重从pre-trained模型参数初始化模型,然后对模型LUNA16数据集,结果突出显示表5。模型训练和调整只在卢娜16训练集和进一步测试LUNA16测试集和三个不同的数据集(SPIE-AAPM LungTime, HMS肺癌数据集)cross-dataset验证。此外,我们比较的实验没有和减少假阳性的方法。使用pre-trained模型显示了轻微改善所有的假阳性的水平比那些没有pre-trained模型。实验上执行SPIE-AAPM LungTime, HMS肺癌与结节检测器训练数据集只有在LUNA16数据集显示了显著降低性能LUNA16测试的结果相比,尤其是 $1 / 8$ 假阳性/扫描。这是因为LUNA16相对有限的训练集和不能健壮的其他数据集。与模型训练只有LUNA16数据集,该框架应用self-supervised pre-trained模型显示显著改善所有假阳性的水平在所有这些数据集。具体地说,在 $1 / 8$ 假阳性/扫描,敏感性增加 $7.4 %$ SPIE-AAPM, $13。5 %$ LungTIME, $8.9 %$ 分别对HMS。每扫描8假阳性,LUNA16的精度相当。显著改善性能演示了应用pre-trained模型的鲁棒性在不同的数据集没有额外的注解。因为模型是LUNA16训练集训练,LUNA16测试集上的测试结果已经取得了极大的性能所示表5。因此,与其他三个数据集相比,该模型的性能是LUNA16稍微改进测试集与训练的模型比没有pre-trained模型。

表5

表5。FROC性能比较有和没有使用pre-trained模型,有或没有减少假阳性:敏感性和相应的假阳性 $1 / 8$ , $1 / 4$ , $1 / 2$ , $1$ , $2$ , $4$ , $8$ 每扫描。的3 dfpn-hs $^{2}$ 只是调整(pre-trained模型)/培训(没有pre-trained模型)LUNA16 LUNA16考试训练集和测试集。各级假阳性/扫描,使用pre-trained模型框架的敏感性和减少假阳性明显优于没有pre-trained模型和减少假阳性。

4.5.3。海关的有效性 $^{2}$ 网络FP减少

的优越性海关 $^{2}$ 网络LUNA16数据集是由两个实验证明。所示图8(左)的结果3 dfpn-hs $^{2}$ 减少假阳性增加超过5%,1/8 FP水平相比3 dfpn没有海关 $^{2}$ 网络。此外,在图8(右),我们进一步比较多的FPs(蓝色栏)和没有酒吧(橙色)海关 $^{2}$ 网络88年在所有候选预测结节CT扫描(9)子集。3 dfpn-hs $^{2}$ ,海关 $^{2}$ 减少假阳性才能区分虚假检测组织与真正的结节,大大减少FPs 84.5%。此外,我们的提议3 dfpn没有海关 $^{2}$ 8 FPs每次扫描网络仍然可以达到97%,超过了其他先进的方法(见表4。)

图8

图8。对比提出的3 dfpn和3 dfpn-hs $^{2}$ 。左:提出的比较3 dfpn和3 dfpn-hs $^{2}$ 在LUNA16数据集不使用pre-trained模型。3 dfpn-hs $^{2}$ 极大地提高了性能3 dfpn每扫描FP的水平。右:假阳性的数量减少 $629年$ 来 $97年$ 总共 $88年$ 得分高于CT扫描与信心 $0$ 后应用海关 $^{2}$ 网络。

5。结论

在本文中,我们提出了一个有效的和健壮3 dfpn-hs $^{2}$ 肺结节检测框架self-supervised特性学习模式。不同大小的肺结节可以检测到丰富的局部和全局特征通过一个金字塔的3 d功能网络。通过引入海关 $^{2}$ 网络和治疗每个CT扫描视频,假阳性是基于位置的模式显著降低方差为结节和组织在连续CT片。空间特征,CT扫描可以有效地从大规模CT扫描不使用额外的标签通过应用一个self-supervised特性学习模式。学特性可以显著提高的可靠性提出了框架在不同临床数据集。高敏感性和特异性与鲁棒性实现数据从多个CT扫描仪制造商,拟议的框架在日常临床实践有很高的潜力。

数据可用性声明

最初的贡献提出了研究中都包含在这篇文章/补充材料,进一步调查可以直接到通讯作者/ s

道德声明

本研究伦理审查和批准不需要按照地方立法和制度的要求。

作者的贡献

JYL, LLC、OA和YLT导致的概念和设计研究。JYL写了初稿的手稿。JYL, LLC、OA和YLT修订的部分手稿。所有作者导致修订手稿、阅读和批准提交的版本。所有作者的文章和批准提交的版本。

资金

这种材料是基于工作支持下由美国国家科学基金会奖号码iis - 2041307和纪念斯隆凯特林癌症中心支持格兰特/核心格兰特P30 CA008748。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

1。西格尔RL,米勒KD, Jemal a .癌症统计数据,2020年。CA癌症中国。(2020)70:7-30。doi: 10.3322 / caac.21590