基于双聚类挖掘及AdaBoost的肿瘤分类方法技术

技术编号:15502270 阅读:67 留言:0更新日期:2017-06-03 23:14
本发明专利技术公开了一种基于双聚类及AdaBoost的肿瘤分类方法,该方法首先选取肿瘤病变特征的数字化打分数据构建原始数据集,根据特征统计信息从原始特征中筛选出对区分良恶性肿瘤有效的特征,接着利用双聚类算法从特征打分数据中挖掘出数据背后隐藏的重要肿瘤诊断模式,根据病例良恶性属性先验知识采用支持率指标确定诊断模式的良恶性属性,进而将局部一致模式转化为有效的诊断规则;之后采用良恶性规则两两配对的方法构造能够在不同特征空间下分类的简单弱分类器,弱分类器依据测试样本跟良恶性规则匹配的相似度为分类原则;最后采用AdaBoost集成算法从弱分类器中训练出高准确率的强分类器,对提高肿瘤临床诊断的准确率有重要作用。

A method of tumor classification based on double cluster mining and AdaBoost

The invention discloses a classification method of double clustering and AdaBoost tumor based on digital scoring data firstly selected tumor pathological characteristics of construction of the original data set, according to the characteristics of statistical information from the original feature screened for distinguishing features of benign and malignant tumor effectively, then use the double clustering algorithm to dig out the important tumor diagnosis pattern behind the data. Hidden from the feature scoring data, according to the properties of malignant and benign cases of benign and malignant properties using prior knowledge support rate index to determine the diagnosis mode, then the local consistency model into effective diagnostic rules; then constructed by 22 pairs of benign and malignant rules in different feature space can be classified under the simple weak classifier, weak similarity according to the test sample with the classifier for classification of benign and malignant rule matching principle; finally using AdaBoost numerical integration The method can train a strong classifier with high accuracy from the weak classifier, which plays an important role in improving the accuracy of the clinical diagnosis of tumor.

【技术实现步骤摘要】
基于双聚类挖掘及AdaBoost的肿瘤分类方法
本专利技术涉及超声肿瘤识别诊断领域,具体涉及一种基于双聚类挖掘及AdaBoost的肿瘤分类方法。
技术介绍
肿瘤作为人类致死的首要原因,严重威胁着人类生命健康,受到了医学界的广泛关注。随着计算机技术的发展,许多医学成像技术应运而生,迅速被医生和患者接受并在临床上得到广泛应用。当前主要的医学影像技术有:超声成像检查,磁共振成像检查,X光成像检查。相比于其他成像技术,超声影像具有低成本、性价比高、无辐射、快速方便、对人体副作用小的优势,逐渐被患者和医生接受,成为临床应用的主要成像手段。但是直接通过超声影像对肿瘤进行判断,临床诊断准确率较低,容易造成漏诊和误诊。原因在于超声诊断严重依赖操作者临床经验和对图像信息的理解,再加上超图图像本身固有噪声斑点、信噪比低的影响,难以直接判断出肿瘤的良恶性。为此,基于超声图像数据的计算机辅助诊断(CAD)技术能够较大程度上回避操作者主观判断带来的误差,近年来获得越来越多的关注。因此,针对传统方法无法准确获取肿瘤病变信息、步骤繁琐的问题,提供一种医生易于接受和认可的特征获取方案具有非常重要的临床应用价值。据调研,目前结合数据挖掘与超声CAD辅助诊断技术的研究是基于传统的B超影像,结合图像分析技术获得病灶区域内的纹理特征,利用人工神经网络等智能计算方法进行分类。然而,这一类技术研究的局限性非常明显:首先,采用图像像素灰度、纹理计算出来的低级特征用于分类,与医生临床上描述判断肿瘤的高级语义特征有着较大差异;其次,算法过于复杂,涉及预处理、图像滤波、图像分割、病灶区域识别、纹理特征提取与分析、训练分类器等诸多环节,任一环节的输出结果不理想,都会影响最后的诊断结果。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于双聚类挖掘及AdaBoost集成学习的肿瘤分类方法。本专利技术的目的通过下述技术方案实现:一种基于双聚类挖掘及AdaBoost的肿瘤分类方法,该方法包括下列步骤:S1、根据肿瘤超声图像特征的量化打分数据构建原始训练数据集,其中,所述原始训练数据集中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;S2、根据所述原始训练数据集,从原始特征中筛选出对区分良恶性肿瘤有效的特征;S3、由筛选出来的有效特征重新构建出训练数据矩阵,并对所述训练数据矩阵中的每一列进行归一化处理;S4、对归一化后的所述训练数据矩阵使用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;S5、根据病例属性的先验知识采用基于支持度的方法将得到的双聚类转化为有效的良性或恶性诊断规则;S6、将良性和恶性诊断规则分组,然后采用良恶性规则两两配对的方法构造一系列弱分类器;S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。进一步地,所述步骤S5中将找到的双聚类转化为有效的良性或恶性诊断规则的具体过程如下:S51、根据双聚类中所含病例的实际良恶性属性,按照下式计算其良恶性的支持度support,将双聚类属性划分为支持度较高的那一类;S52、选取支持度大于某一阈值的双聚类,通过对每列取均值的方法得到代表该双聚类模式信息的一个行向量,形成一个有效的具有类属性的诊断规则。进一步地,所述步骤S6中采用良恶性规则两两配对的方法构造一系列弱分类器的具体过程如下:S61、将提取到的规则分为良性和恶性两组;S62、采取良恶性规则两配对的组合方式,形成一系列“良性规则-恶性规则”组合;S63、所述“良性规则-恶性规则”组合依据输入测试病例特征打分数据与组合中良性规则和恶性规则的相似度,将测试样本判别为相似度较高的那一类的原则构造弱分类器。进一步地,所述相似度为一个新病例与诊断规则间的相似度,采用特征空间独立归一化距离FSDND来衡量,具体公式如下:其中,FS为良性或恶性诊断规则的特征空间,Vud(j)表示测试病例中第j个特征的值,Vdr(j)表示诊断规则中第j个特征的值,lb(j)和ub(j)分别表示第j个特征的下界和上界值。本专利技术相对于现有技术具有如下的优点及效果:1、摒弃了传统计算机辅助诊断方法复杂的图像预处理、图像分割环节,所采用的双聚类方法可以从大量的临床肿瘤特征数据中挖掘出肿瘤的良恶性表达模式,提取出有价值的临床诊断规则信息。2、AdaBoost集成学习算法巧妙地将由各种不同的弱分类器结合在一起,发挥不同弱分类器在不同方面的分类能力,使得最终分类器具有强泛化能力,在某些不好的特征数据中也能表现出不错的分类性能,在临床辅助诊断中具有重大价值。附图说明图1是本专利技术中公开的基于双聚类挖掘及AdaBoost集成学习的肿瘤分类方法的流程步骤图;图2是本专利技术方法中良恶性规则两两配对构造弱分类器的示意图;图3是本专利技术方法中计算测试病例与两个具有不同特征空间向量诊断规则间相似度的示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例请参见图1,图1是本实施例中公开的基于双聚类挖掘及AdaBoost的肿瘤分类方法的流程步骤图。图1所示的基于双聚类挖掘及AdaBoost的肿瘤分类方法运用于乳腺肿瘤,具体包括下列步骤:S1、根据N个肿瘤超声图像关于M个肿块病变特征的人工评分构建原始训练数据集,其中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;S2、根据原始训练数据集,利用特征方差为指标进行特征选择,从原始特征中筛选出L个对区分良恶性肿瘤有效的特征;S3、由筛选出来的特征重新构建出训练数据矩阵,并对数据矩阵中的每一列进行归一化处理;S4、对归一化后的训练数据矩阵使用利用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;S5、根据病例属性的先验知识采用一种基于支持度的方法将找到的双聚类转化为有效的良性或恶性诊断规则;具体应用中,所述步骤S5具体过程如下:S51、首先根据双聚类中所含病例的实际良恶性属性,按照下式计算其良恶性的支持度support,将双聚类属性划分为支持度较高的那一类;S52、选取支持度大于0.7的双聚类,通过对每列取均值的方法得到代表该双聚类模式信息的一个行向量,形成一个有效的具有类属性的诊断规则。S6、将良性和恶性诊断规则分组,然后采用“良恶性规则两两配对”的方法构造一系列弱分类器;具体应用中,所述步骤S6中采用良恶性规则两两配对的方法构造一系列弱分类器的具体过程如下:S61、将提取到的规则分为良性和恶性两组;S62、如图2所示,将左边的良性规则和右边的恶性规则,采用两两配对的组合方式,形成一系列“良性规则-恶性规则”组合;S63、所述“良性规则-恶性规则”组合依据输入测试病例特征打分数据与组合中良性规则和恶性规则的相似度,将测试样本判别为相似度较高的那一类的原则构造弱分类器。具体应用中,弱分类器包含的良恶性规则通常是由不同特征子集构成的向量,如图3所示,某个弱分类组合中良性诊断规则只包含特征1、2、本文档来自技高网
...
基于双聚类挖掘及AdaBoost的肿瘤分类方法

【技术保护点】
一种基于双聚类挖掘及AdaBoost的肿瘤分类方法,其特征在于,该方法包括下列步骤:S1、根据肿瘤超声图像特征的量化打分数据构建原始训练数据集,其中,所述原始训练数据集中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;S2、根据所述原始训练数据集,从原始特征中筛选出对区分良恶性肿瘤有效的特征;S3、由筛选出来的有效特征重新构建出训练数据矩阵,并对所述训练数据矩阵中的每一列进行归一化处理;S4、对归一化后的所述训练数据矩阵使用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;S5、根据病例属性的先验知识采用基于支持度的方法将得到的双聚类转化为有效的良性或恶性诊断规则;S6、将良性和恶性诊断规则分组,然后采用良恶性规则两两配对的方法构造一系列弱分类器;S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。

【技术特征摘要】
2016.06.30 CN 20161051496281.一种基于双聚类挖掘及AdaBoost的肿瘤分类方法,其特征在于,该方法包括下列步骤:S1、根据肿瘤超声图像特征的量化打分数据构建原始训练数据集,其中,所述原始训练数据集中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;S2、根据所述原始训练数据集,从原始特征中筛选出对区分良恶性肿瘤有效的特征;S3、由筛选出来的有效特征重新构建出训练数据矩阵,并对所述训练数据矩阵中的每一列进行归一化处理;S4、对归一化后的所述训练数据矩阵使用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;S5、根据病例属性的先验知识采用基于支持度的方法将得到的双聚类转化为有效的良性或恶性诊断规则;S6、将良性和恶性诊断规则分组,然后采用良恶性规则两两配对的方法构造一系列弱分类器;S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。2.根据权利要求1所述的基于双聚类及AdaBoost的肿瘤分类方法,其特征在于,所述步骤S5中将找到的双聚类转化为有效的良性或恶性诊断规则的具体过程如下:S51、根据双聚类中所含病例的实际良恶性属性...

【专利技术属性】
技术研发人员:黄庆华陈永东
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1