本发明专利技术公开了一种高精度、低假阴性率的肺癌细胞图像识别方法,该方法利用光学显微镜上安置的数字摄像机拍摄细胞病理切片,数字摄像机产生的视频信号经图像采集设备后进入计算机,在经过适当的图像预处理之后,将细胞的图像交给肺癌细胞图像识别部分进行处理。本发明专利技术的方法在进行肺癌细胞识别时,先用第一级神经网络集成进行处理,只有第一级神经网络集成中的所有神经网络都预测“正常”,才认为当前细胞图像中不是癌细胞;只要有一个神经网络预测“可能有癌”,就认为当前细胞图像中很可能是癌细胞,需要提交给第二级神经网络进行处理。这种方法使得癌细胞被错当成正常细胞的机会很小,从而可以获得很高的识别精度和很低的假阴性率。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及计算机辅助肺癌诊断装置,特别涉及一种从病理切片细胞图像中高精度、低假阴性率地识别出肺癌细胞的方法。
技术介绍
肺癌是一种严重的致命性疾病,医学上对其进行诊断的主要手段有X线胸片、CT、核磁共振、同位素、纤维支气管镜、经皮穿刺活检等。随着计算机技术的发展,计算机辅助肺癌诊断装置由于不受疲劳、情绪等因素的影响,已成为重要的辅助诊断手段。目前的绝大多数计算机辅助肺癌诊断装置都是对X线胸片图象、CT图象进行分析处理,直接对病理切片细胞图像进行分析处理的很少。由于病理性诊断可靠性较高,因此利用病理切片细胞图像的辅助诊断装置可望具有更好的性能。值得注意的是,在对肺癌的诊断中,将患者误诊为健康人的代价非常大,因为这会耽误患者获得及时救治的机会,尤其是在肺癌早期,如果诊断及时尚有治疗手段,而一旦在早期误诊,对患者的生命将产生极大的危害。而如果将健康人误诊为患者,虽然会给医护人员和被诊对象及其亲属带来不必要的麻烦,但随着进一步诊治的进行,误诊可望得到纠正,其代价远远小于将患者误诊为健康人的情况。因此,在对病理切片细胞图像进行分析处理时,应在将识别精度保持在较高水平的同时,尽可能降低假阴性率,即尽可能降低将肺癌细胞错误地当成正常细胞的误识率。然而,现有技术只注重获得高的识别精度,没有考虑肺癌诊断中保持较低的假阴性率的要求,这会对整个计算机辅助肺癌诊断装置造成不利影响。
技术实现思路
本专利技术的目的是针对现有技术难以从病理切片细胞图像中高精度且低假阴性率地识别出肺癌细胞的问题,提供一种高精度且低假阴性率的肺癌细胞图像识别方法以辅助提高计算机辅助肺癌诊断装置的性能。为实现本专利技术所述目的,本专利技术提供一种利用机器学习中的神经网络集成技术对肺癌细胞图像进行识别的方法,该方法包括以下步骤(1)若识别机制未训练好,则执行步骤2,否则转到步骤4;(2)分别产生两级神经网络集成的训练数据集;(3)利用可重复取样技术分别产生两级神经网络集成;(4)接收待识别的细胞图像;(5)第一级神经网络集成进行预测,若结果为“可能有癌”则执行步骤6,否则给出诊断结论“正常”并转到步骤7;(6)第二级神经网络集成进行预测,给出诊断结论“正常”或具体的癌细胞种类,执行步骤7;(7)结束。下面将结合附图对最佳实施例进行详细说明。四附图说明图1是基于病理切片细胞图像识别的计算机辅助肺癌诊断装置的工作流程图。图2是本专利技术方法的流程图。图3是产生训练数据集的流程图。图4是第一级神经网络集成进行预测的流程图。图5是第二级神经网络集成进行预测的流程图。五具体实施例方式如图1所示,计算机辅助肺癌诊断装置利用光学显微镜上安置的数字摄像机拍摄细胞病理切片,该切片通常已用苏木素-伊红等手段进行染色,数字摄像机产生的视频信号经图像采集设备后进入计算机,在经过适当的图像预处理例如增强、去噪、分割等之后,将细胞的图像交给肺癌细胞图像识别部分进行处理。本专利技术主要涉及图1中肺癌细胞图像识别部分,即图1中步骤1。本专利技术的方法如图2所示。步骤10是初始动作。步骤11判断识别机制是否已经训练好,若已训练好则可处理识别任务,执行步骤17;否则需进行训练,执行步骤12。步骤12分别产生两级神经网络集成的训练数据集,为叙述方便,称第一级神经网络集成的训练数据集为L1、第二级神经网络集成的训练数据集为L2,该步骤将在后面的部分结合图3进行具体介绍。图2的步骤13利用统计学中常用的可重复取样技术从L1中产生N个数据集,N是一个用户预设的整数值例如5,它确定了第一级神经网络集成所包含的神经网络个数。步骤14用步骤13产生的N个数据集中的每一个训练出一个神经网络,这些神经网络就组成了第一级神经网络集成。步骤15利用可重复取样技术从L2中产生M个数据集,M是一个用户预设的整数值例如9,它确定了第二级神经网络集成所包含的神经网络个数。步骤16用步骤15产生的M个数据集中的每一个训练出一个神经网络,这些神经网络就组成了第二级神经网络集成。步骤14和步骤16使用的神经网络可以是任何类型的神经网络,只要可以执行预测任务即可,例如可以使用神经网络教科书中介绍的多层前馈BP网络。图2的步骤17接收待识别的细胞图像。步骤18对细胞图像进行特征提取并将其表示为向量,例如,其中t1表示第一个特征值,t2表示第二个特征值,依此类推。这里可以使用任何特征提取技术,例如图像处理教科书中介绍的形态学技术等。步骤19将细胞图像的特征向量提交给第一级神经网络集成进行预测,该步骤将在后面的部分结合图4进行具体介绍。步骤20对第一级神经网络集成的预测结果进行判断,如果结果为“可能有癌”则执行步骤21;否则转到步骤23给出诊断结论“正常”并执行步骤24。步骤21将细胞图像的特征向量提交给第二级神经网络集成进行预测,该步骤将在后面的部分结合图5进行具体介绍。步骤22将第二级神经网络集成的预测结果作为诊断结论,如果发现癌细胞则给出的是具体的癌细胞种类例如鳞癌、腺癌、小细胞癌等,否则给出的是“正常”。步骤24是结束状态。图3详细说明了图2的步骤12,其作用是利用一组已知结果的细胞图像产生第一级神经网络集成的训练数据集L1和第二级神经网络集成的训练数据集L2。图3的步骤120是起始状态。步骤121将L1和L2均置为空集。步骤122接收一幅已知结果的细胞图像。然后进行特征提取并将其表示为向量,该步骤与图2中的步骤18相同,采用的特征提取技术和提取出的特征数也相同。图3的步骤123检查当前细胞图像的已知结果,如果这是一个癌细胞,则执行步骤124;否则转到步骤126。步骤124将“可能有癌”作为当前细胞图像所对应的特征向量的类别,并将该特征向量及其类别一起加入L1。步骤125将具体的癌细胞种类例如鳞癌、腺癌、小细胞癌等作为当前细胞图像所对应的特征向量的类别,并将该特征向量及其类别一起加入L2。步骤126将“正常”作为当前细胞图像所对应的特征向量的类别,并将该特征向量及其类别一起同时加入L1和L2。通常要使用大量已知结果的细胞图像来产生训练数据集,步骤127判断是否还有其他图像,如果是则转到步骤122;否则执行步骤128,即图3的结束状态。图4详细说明了图2的步骤19,其作用是利用训练好的第一级神经网络集成对待识细胞图像所对应的特征向量进行识别。图4的步骤190是起始状态。步骤191将控制参数k置为1,k是一个大于等于1但小于等于图2中步骤13的N的一个整数值,它用来指示当前考察的第一级神经网络集成中的神经网络的序号。步骤192取得第一级神经网络集成中第k个神经网络对待识细胞图像所对应的特征向量给出的预测结果,为叙述方便,称该结果为Fk(1)。步骤193对Fk(1)进行考察,如果Fk(1)是“正常”,则执行步骤194;否则就转到步骤196给出结果“可能有癌”,然后执行步骤198。步骤194将k加一。步骤195判断k是否小于等于第一级神经网络集成中神经网络的个数,即图2中步骤13的N,如果是则表明还有其他神经网络尚未考察,转到步骤192;否则就执行步骤197给出结果“正常”,然后执行步骤198。步骤198是图4的结束状态。图5详细说明了图2的步骤21,其作用是利用训练好的第二级神经网络集成对待识细胞图像所对应的特征向量进行识别。图5的步骤2本文档来自技高网...
【技术保护点】
一种高精度、低假阴性率的肺癌细胞图像识别方法,包括利用光学显微镜上安置的数字摄像机拍摄细胞病理切片,数字摄像机产生的视频信号经图像采集设备后进入计算机,在经过适当的图像预处理之后,将细胞的图像交给肺癌细胞图像识别部分进行处理;其特征是:所述的肺癌细胞图像识别部分包括以下步骤:(1)若识别机制未训练好,则执行步骤(2),否则转到步骤(4);(2)分别产生两级神经网络集成的训练数据集;(3)利用可重复取样技术分别产生两级神经网络集成;(4)接收待识别的细胞图像; (5)第一级神经网络集成进行预测,若结果为“可能有癌”则执行步骤(6),否则给出诊断结论“正常”并转到步骤(7);(6)第二级神经网络集成进行预测,给出诊断结论“正常”或具体的癌细胞种类,执行步骤(7);(7)结束。
【技术特征摘要】
【专利技术属性】
技术研发人员:周志华,
申请(专利权)人:南京大学,
类型:发明
国别省市:84[中国|南京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。