肺癌的高发病率和死亡率严重威胁着人类健康和生命,是亟待解决的公共健康安全问题之一。目前肺癌的早期筛查主要通过计算机断层扫描(computed tomography,CT)来完成,人工阅读大量的 CT 图片及数据工作量繁重、工作效率低,且极易漏诊及误诊,已不能很好地满足临床需求。计算机辅助诊断作为一种智能的医学图像处理技术能够提供有效的辅助诊断信息、减轻医生工作负担、提高医生工作效率及诊断准确率。将计算机辅助诊断技术与 CT 影像相结合诊断早期癌症,已成为医学领域的研究热点。本文将从计算机辅助诊断的机器学习和深度学习两个方面概述智能分析诊断早期肺癌的最新研究进展。
引用本文: 巨娟, 林檬, 曾祥飞, 张久权. 基于 CT 影像智能分析诊断早期肺癌的最新研究进展. 中国胸心血管外科临床杂志, 2021, 28(3): 354-357. doi: 10.7507/1007-4848.202010054 复制
肺癌的发病率及死亡率均居所有恶性肿瘤之首,且发病率呈逐年增高的趋势[1-2]。中晚期肺癌患者的 5 年生存率仅为 18%,甚至对于晚期患者 5 年生存率低于 8%;而早期肺癌经治疗后 5 年生存率可达 90% 以上[3]。然而,早期肺癌患者通常无任何症状,难以察觉,一旦出现临床症状时大多已处于中晚期。因此,提高肺癌患者治愈率、改善预后有赖于早诊断早治疗,将肺癌的诊断端口前移的有效办法是早期筛查[4]。
胸部 CT 扫描密度分辨率高,能够克服传统 X 射线二维平面重叠、组织吸收相近、对比度小的缺点,被认为是目前肺癌早期筛查最为成熟有效的影像学检查技术之一[5-6]。在 CT 影像上,早期肺癌主要表现为肺结节(磨玻璃结节、混合性结节及实性结节),如何采用无创的方式准确判断肺结节的良恶性是目前的研究难点及热点[7]。由于薄层 CT 的全面普及,极微小肺结节均可被筛查发现。同时,由于扫描层数的增多,影像科医生阅片面临着庞大的数据和图像,不仅费时费力、工作效率低、而且极易引起误诊或漏诊[8],因此,传统的人工阅片已经不能满足临床需求。
计算机辅助诊断(computer-aided diagnosis,CAD)是指将影像学、医学图像处理等技术与计算机强大的计算分析能力结合的计算机辅助技术,辅助医生发现病灶,提供有效的辅助诊断信息,减轻医生工作负担,提高医生工作效率及诊断正确率[9]。近年来,随着 CAD 技术的不断发展,其与胸部 CT 影像相结合在早期肺癌的筛查、诊断中的应用越来越广泛[10-11]。CAD 是如何有效辅助临床医生快速灵敏地诊断肺结节,并且能够相对准确区分肺结节的良性和恶性。本文将从 CAD 的机器学习和深度学习两个方面综述计算机智能分析在诊断早期肺癌的最新研究进展。
1 基于机器学习的辅助诊断方法
CAD方法从机器学习到深度学习,不断地在成熟完善。传统的计算机诊断方法由程序员编写代码方程等解决一种或一类问题,机器学习可以从大量数据中分析得到经验,再根据经验构建算法或模型,高效地处理问题,并且可对未知的数据进行分析预测[12]。近年来,机器学习被广泛应用于医疗诊断领域,在临床辅助筛查、诊断早期肺癌中起重要的作用。
Lin 等[13]报道了一种迭代功能系统和多层分数阶机器学习分类器,以快速筛查肺的可能类别在胸部 X 线片图像上感兴趣区域内的疾病,提高筛查准确性。采用二维分数阶卷积来进行数字图像处理,再使用具有非线性插值功能的迭代功能系统重建二维特征图案。与传统方法相比,具有 K 倍交叉验证的学习分类器在筛查肺部疾病和提高筛查准确率方面显示出较好结果,召回率为 99.6%、准确性为 88.88% 和 F1 分数为 0.9334。Gu 等[14]报道了基于机器学习的放射组学分类器在预测非小细胞肺癌(non-small cell lung cancer,NSCLC)细胞增殖(Ki-67)的可行性和性能。该研究回顾性分析了 245 例经 CT 扫描且病理证实的 NSCLC 患者,CT 扫描后 2 周内测定 Ki-67 增殖指数(Ki-67pi);采用随机森林特征选择算法(random forest feature selection algorithm,RFFS)进行特征采集,并使用 6 种机器学习方法分别建立了放射性分类器、主观图像特征分类器和组合分类器。结果表明,随机森林的放射性分类器预测 Ki-67 表达水平的性能最好[受试者工作特征曲线下面积(AUC)=0.776],敏感性和特异性分别为 0.726 和 0.661,因此认为,其可以帮助预测 Ki-67 的表达水平,为评估细胞增殖提供了一种新的非侵入性检测方式。另外基于一种遗传算法(genetic algorithms,GA)的新颖特征选择算法,通过使用标准的肺癌数据集进行实验,采用支持向量机(support vector machine,SVM),反向传播神经网络(back propagation neural network,BPNN)和 K 最近邻(K-nearest neighbor,KNN)三种不同的分类器对获得的结果进行验证,并将其与通过整个特征集获得的结果进行比较。结果表明,计算机 GA 智能系统具有良好的诊断性能,可作为肺癌诊断的有效方式[15]。也有学者运用计算机智能分析探讨基因和信号通路在调节NSCLC肺癌放疗反应中的作用中,数据挖掘方法、特别是机器学习方法在提高对复杂系统(如肿瘤对放疗的反应)的理解方面所起的作用。可能增加识别新的预后生物标志物或分子靶点,以提高治疗反应、降低并发症、对可能受益的患者进行更有精准的治疗,从而更好地对患者进行个体化治疗[16]。
臧启元等[17]对肺癌 PC-9 细胞、乳腺癌 MDA-MB-231 细胞、膀胱癌 5637 细胞进行图像采集、处理、并分别通过随机森林(random forest,RF)分类、逻辑分类、使用线性核函数的 SVM 分类、朴素贝叶斯分类这 4 种方法对癌细胞进行分类。得到的癌细胞分类结果准确率分别为 0.725、0.788、0.796、0.813。王洪凯等[18]评估了随机森林、SVM、AdaBoost、BPNN 方法对正电子发射计算机断层显像(positron emission tomography/computed tomography,PET/CT)影像中NSCLC纵隔淋巴结的良恶性诊断分类性能。结果表明,4 种分类器分割结果的特异性为 81%~84%、敏感性为 77%~84%、AUC 为 0.86~0.90。
2 基于深度学习的计算机辅助诊断方法
互联网技术的飞速发展使得计算机在医疗领域的应用成为热点研究,大量的医学数据使得深度学习技术备受青睐。Hinton等[19]在 2006 年首次提出了深度信念网络的概念,打开了深度学习的大门。通过不断发展,诸如卷积神经网络(convolutional neural networks,CNN)、深度信念网络、对抗神经网络、递归神经网络等各种深度学习方法已经应用于肺癌的辅助诊断。
Oliver 等[20]提出了一种基于编码网络(coding network,CN)的二维模型,用于高层特征和经典特征的提取。将 CNN 训练为编码网络,并将实际像素编码成特征向量,以表示分类的高级概念。另外,将 SVM 模型应用于肺部 CT 图像的有效分类,利用基准数据集对所提出的 CN-SVM 模型的结果进行评价,并在多个维度下进行了验证。Wang 等[21]报道了一种针对肺腺癌的自动分类系统,该系统结合了 CNN 和生成对抗网络(generative adversarial networks,GAN)两种方式对 206 例术后病理标记的肺结节进行分析并与传统的原始增强图像和普通增强图像的训练方法对比。结果显示 GAN 增强方法将分类精度分别提高了 23.5%(从 37.0%~60.5%)和 7.3%(从 53.2%~60.5%)。该实验表明,GAN 合成技术可以有效缓解医学影像数据不足的问题,可以将提出的 GAN 加 CNN 框架通用化,以用于构建其它 CAD 算法,从而有助于临床诊断。Venkatesan 等[22]提出了一种从低剂量 CT 图像自动检测肺癌的深度学习方法。使用基于高效自适应直方图均衡的兴趣区域(region of interest,ROI)进行图像预处理,以增强 CT 扫描并消除由于图像的噪声和变化而产生的伪影。使用形态学算子从 CT 扫描中提取 ROI,从而减少误报的数量,该方法的测试准确度可达 94.97%、AUC 为 0.896。Nobrega 等[23]构建了几个 CNN(VGG16、VGG19、MobileNet、Xception、InceptionV3、ResNet50、InceptionResNetV2、DenseNet169、DenseNet201、NASNetMobile 和 NASNetLarge)用于对肺结节的良恶性分类,研究人员在 ImageNet 数据集上进行训练,转换为特征提取器,并应用于肺影像数据集(the lung image database consortium,LIDC-IDRI)中的结节判断。结果显示真阳性率为 85.38%、AUC 为 88.41%、准确性为 73.48%。Huang 等[24]研究了一种基于深度转移 CNN 和极限学习机的新颖诊断方法,该方法融合了两种算法的协同作用以处理良恶性结节分类。该诊断方法的精度为 94.57%、灵敏度为 93.69%、特异性为 95.15%、AUC 为 94.94%。
罗嘉滢等[25]报道了基于广义深度自编码建立了肺结节诊断方法,该方法通过自编码形式进行特征提取,利用分类器及融合策略进行肺结节诊断,准确率为 94.72%、敏感度为 94.66%、特异性为 95.16%、AUC 为 0.952。王德才[26]建立了计算机视觉分析图像模型,通过 AdaBoost 算法对肺结节进行分类,构建肺癌的 AdaBoost 分类器,再通过迁移学习将构建好的分类器模型迁移到实际临床 CT 肺部影像来确定其实际应用性。结果表明,该方法对肺癌识别率可达 93.2%。
3 总结
肺癌是严重威胁人类健康的恶性肿瘤之一,早期诊断和早期治疗是提高治愈率、延长患者生存时间的关键。CAD作为一种智能的医学图像处理技术能够对早期肺癌提供有效的辅助诊断信息,提高诊断正确率且提高医生工作效率、减轻医生工作负担。计算机深度学习算法需要大量的标记数据支撑,对于数据的收集程度要求很高。而对于临床诊断来说,大量临床数据的收集和标记难度较大,如何利用有限的临床数据和影像学资料来制定更加合理的算法,是计算机辅助诊断早期肺癌仍需不断探索的课题。
利益冲突:无。
作者贡献:巨娟负责论文书写及文献查阅;林檬、曾祥飞负责文献查阅;张久权负责文章审校。
肺癌的发病率及死亡率均居所有恶性肿瘤之首,且发病率呈逐年增高的趋势[1-2]。中晚期肺癌患者的 5 年生存率仅为 18%,甚至对于晚期患者 5 年生存率低于 8%;而早期肺癌经治疗后 5 年生存率可达 90% 以上[3]。然而,早期肺癌患者通常无任何症状,难以察觉,一旦出现临床症状时大多已处于中晚期。因此,提高肺癌患者治愈率、改善预后有赖于早诊断早治疗,将肺癌的诊断端口前移的有效办法是早期筛查[4]。
胸部 CT 扫描密度分辨率高,能够克服传统 X 射线二维平面重叠、组织吸收相近、对比度小的缺点,被认为是目前肺癌早期筛查最为成熟有效的影像学检查技术之一[5-6]。在 CT 影像上,早期肺癌主要表现为肺结节(磨玻璃结节、混合性结节及实性结节),如何采用无创的方式准确判断肺结节的良恶性是目前的研究难点及热点[7]。由于薄层 CT 的全面普及,极微小肺结节均可被筛查发现。同时,由于扫描层数的增多,影像科医生阅片面临着庞大的数据和图像,不仅费时费力、工作效率低、而且极易引起误诊或漏诊[8],因此,传统的人工阅片已经不能满足临床需求。
计算机辅助诊断(computer-aided diagnosis,CAD)是指将影像学、医学图像处理等技术与计算机强大的计算分析能力结合的计算机辅助技术,辅助医生发现病灶,提供有效的辅助诊断信息,减轻医生工作负担,提高医生工作效率及诊断正确率[9]。近年来,随着 CAD 技术的不断发展,其与胸部 CT 影像相结合在早期肺癌的筛查、诊断中的应用越来越广泛[10-11]。CAD 是如何有效辅助临床医生快速灵敏地诊断肺结节,并且能够相对准确区分肺结节的良性和恶性。本文将从 CAD 的机器学习和深度学习两个方面综述计算机智能分析在诊断早期肺癌的最新研究进展。
1 基于机器学习的辅助诊断方法
CAD方法从机器学习到深度学习,不断地在成熟完善。传统的计算机诊断方法由程序员编写代码方程等解决一种或一类问题,机器学习可以从大量数据中分析得到经验,再根据经验构建算法或模型,高效地处理问题,并且可对未知的数据进行分析预测[12]。近年来,机器学习被广泛应用于医疗诊断领域,在临床辅助筛查、诊断早期肺癌中起重要的作用。
Lin 等[13]报道了一种迭代功能系统和多层分数阶机器学习分类器,以快速筛查肺的可能类别在胸部 X 线片图像上感兴趣区域内的疾病,提高筛查准确性。采用二维分数阶卷积来进行数字图像处理,再使用具有非线性插值功能的迭代功能系统重建二维特征图案。与传统方法相比,具有 K 倍交叉验证的学习分类器在筛查肺部疾病和提高筛查准确率方面显示出较好结果,召回率为 99.6%、准确性为 88.88% 和 F1 分数为 0.9334。Gu 等[14]报道了基于机器学习的放射组学分类器在预测非小细胞肺癌(non-small cell lung cancer,NSCLC)细胞增殖(Ki-67)的可行性和性能。该研究回顾性分析了 245 例经 CT 扫描且病理证实的 NSCLC 患者,CT 扫描后 2 周内测定 Ki-67 增殖指数(Ki-67pi);采用随机森林特征选择算法(random forest feature selection algorithm,RFFS)进行特征采集,并使用 6 种机器学习方法分别建立了放射性分类器、主观图像特征分类器和组合分类器。结果表明,随机森林的放射性分类器预测 Ki-67 表达水平的性能最好[受试者工作特征曲线下面积(AUC)=0.776],敏感性和特异性分别为 0.726 和 0.661,因此认为,其可以帮助预测 Ki-67 的表达水平,为评估细胞增殖提供了一种新的非侵入性检测方式。另外基于一种遗传算法(genetic algorithms,GA)的新颖特征选择算法,通过使用标准的肺癌数据集进行实验,采用支持向量机(support vector machine,SVM),反向传播神经网络(back propagation neural network,BPNN)和 K 最近邻(K-nearest neighbor,KNN)三种不同的分类器对获得的结果进行验证,并将其与通过整个特征集获得的结果进行比较。结果表明,计算机 GA 智能系统具有良好的诊断性能,可作为肺癌诊断的有效方式[15]。也有学者运用计算机智能分析探讨基因和信号通路在调节NSCLC肺癌放疗反应中的作用中,数据挖掘方法、特别是机器学习方法在提高对复杂系统(如肿瘤对放疗的反应)的理解方面所起的作用。可能增加识别新的预后生物标志物或分子靶点,以提高治疗反应、降低并发症、对可能受益的患者进行更有精准的治疗,从而更好地对患者进行个体化治疗[16]。
臧启元等[17]对肺癌 PC-9 细胞、乳腺癌 MDA-MB-231 细胞、膀胱癌 5637 细胞进行图像采集、处理、并分别通过随机森林(random forest,RF)分类、逻辑分类、使用线性核函数的 SVM 分类、朴素贝叶斯分类这 4 种方法对癌细胞进行分类。得到的癌细胞分类结果准确率分别为 0.725、0.788、0.796、0.813。王洪凯等[18]评估了随机森林、SVM、AdaBoost、BPNN 方法对正电子发射计算机断层显像(positron emission tomography/computed tomography,PET/CT)影像中NSCLC纵隔淋巴结的良恶性诊断分类性能。结果表明,4 种分类器分割结果的特异性为 81%~84%、敏感性为 77%~84%、AUC 为 0.86~0.90。
2 基于深度学习的计算机辅助诊断方法
互联网技术的飞速发展使得计算机在医疗领域的应用成为热点研究,大量的医学数据使得深度学习技术备受青睐。Hinton等[19]在 2006 年首次提出了深度信念网络的概念,打开了深度学习的大门。通过不断发展,诸如卷积神经网络(convolutional neural networks,CNN)、深度信念网络、对抗神经网络、递归神经网络等各种深度学习方法已经应用于肺癌的辅助诊断。
Oliver 等[20]提出了一种基于编码网络(coding network,CN)的二维模型,用于高层特征和经典特征的提取。将 CNN 训练为编码网络,并将实际像素编码成特征向量,以表示分类的高级概念。另外,将 SVM 模型应用于肺部 CT 图像的有效分类,利用基准数据集对所提出的 CN-SVM 模型的结果进行评价,并在多个维度下进行了验证。Wang 等[21]报道了一种针对肺腺癌的自动分类系统,该系统结合了 CNN 和生成对抗网络(generative adversarial networks,GAN)两种方式对 206 例术后病理标记的肺结节进行分析并与传统的原始增强图像和普通增强图像的训练方法对比。结果显示 GAN 增强方法将分类精度分别提高了 23.5%(从 37.0%~60.5%)和 7.3%(从 53.2%~60.5%)。该实验表明,GAN 合成技术可以有效缓解医学影像数据不足的问题,可以将提出的 GAN 加 CNN 框架通用化,以用于构建其它 CAD 算法,从而有助于临床诊断。Venkatesan 等[22]提出了一种从低剂量 CT 图像自动检测肺癌的深度学习方法。使用基于高效自适应直方图均衡的兴趣区域(region of interest,ROI)进行图像预处理,以增强 CT 扫描并消除由于图像的噪声和变化而产生的伪影。使用形态学算子从 CT 扫描中提取 ROI,从而减少误报的数量,该方法的测试准确度可达 94.97%、AUC 为 0.896。Nobrega 等[23]构建了几个 CNN(VGG16、VGG19、MobileNet、Xception、InceptionV3、ResNet50、InceptionResNetV2、DenseNet169、DenseNet201、NASNetMobile 和 NASNetLarge)用于对肺结节的良恶性分类,研究人员在 ImageNet 数据集上进行训练,转换为特征提取器,并应用于肺影像数据集(the lung image database consortium,LIDC-IDRI)中的结节判断。结果显示真阳性率为 85.38%、AUC 为 88.41%、准确性为 73.48%。Huang 等[24]研究了一种基于深度转移 CNN 和极限学习机的新颖诊断方法,该方法融合了两种算法的协同作用以处理良恶性结节分类。该诊断方法的精度为 94.57%、灵敏度为 93.69%、特异性为 95.15%、AUC 为 94.94%。
罗嘉滢等[25]报道了基于广义深度自编码建立了肺结节诊断方法,该方法通过自编码形式进行特征提取,利用分类器及融合策略进行肺结节诊断,准确率为 94.72%、敏感度为 94.66%、特异性为 95.16%、AUC 为 0.952。王德才[26]建立了计算机视觉分析图像模型,通过 AdaBoost 算法对肺结节进行分类,构建肺癌的 AdaBoost 分类器,再通过迁移学习将构建好的分类器模型迁移到实际临床 CT 肺部影像来确定其实际应用性。结果表明,该方法对肺癌识别率可达 93.2%。
3 总结
肺癌是严重威胁人类健康的恶性肿瘤之一,早期诊断和早期治疗是提高治愈率、延长患者生存时间的关键。CAD作为一种智能的医学图像处理技术能够对早期肺癌提供有效的辅助诊断信息,提高诊断正确率且提高医生工作效率、减轻医生工作负担。计算机深度学习算法需要大量的标记数据支撑,对于数据的收集程度要求很高。而对于临床诊断来说,大量临床数据的收集和标记难度较大,如何利用有限的临床数据和影像学资料来制定更加合理的算法,是计算机辅助诊断早期肺癌仍需不断探索的课题。
利益冲突:无。
作者贡献:巨娟负责论文书写及文献查阅;林檬、曾祥飞负责文献查阅;张久权负责文章审校。