System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于协同训练和改进DS理论的原发性高血压预测方法技术_技高网

基于协同训练和改进DS理论的原发性高血压预测方法技术

技术编号:40927818 阅读:2 留言:0更新日期:2024-04-18 14:50
本发明专利技术提出基于协同训练和改进DS理论的原发性高血压预测方法。采用基于Tri‑Training半监督学习的协同训练策略,并采用基于改进DS证据理论多源特征融合策略,实现原发性高血压三分类精准预测。采用SMOTE‑Bagging均衡化方法,对原发性高血压类别不均衡样本进行带回放随机过采样均衡化处理,提高模型训练效果以及预测精度。采用基于Tri‑training半监督学习的协同训练策略,利用无标签数据,生成高置信度的伪标签,提高预测精度,采用基于动态置信度修正系数的DS证据融合策略,利用各证据源之间的特征相关性,有效减少冲突发生概率,提高多特征融合后的预测精度。

【技术实现步骤摘要】

本专利技术涉及识别,具体涉及基于协同训练和改进ds理论的原发性高血压预测方法。


技术介绍

1、原发性高血压随着人口老龄化的到来,其发病率不断增高,是严重威胁中老年人健康的心血管疾病。而对原发性高血压患者危险程度进行合理分级具有重要的临床医学意义。目前,机器学习辅助临床诊断是一种高效且准确的治疗方案,已经被实际中广泛推广。

2、原发性高血压是以体循环动脉压升高为主要临床表现的心血管综合征,又称特发性高血压,简称高血压。其是一个由许多病因引起的处于不断进展状态的心血管综合征,可导致心脏和血管功能与结构的改变,患者常伴脂肪、糖代谢紊乱和心、脑、肾、血管损害,是心脑血管疾病、肾脏疾病发生的重要危险因素,也是心脑血管疾病死亡的主要原因。

3、原发性高血压临床样本常出现各类别数量严重不均衡现象,使机器学习预测偏向多数类,严重影响模型泛化性能。同时原发性高血压分类样本具有多源、多模态特性,样本标注成本较高、数量较少,训练容易导致过拟合。且高血压临床医学样本数据常具有多源特征属性,常采用利用患者多源特征信息,进行多源分类模型决策级融合,增强模型预测精度,但目前多源特征决策级融合策略不能有效利用证据间特征关联性,导致多源证据特征冲突加剧,减弱了多特征融合后预测性能。


技术实现思路

1、本专利技术的目的是:进一步提高原发性高血压预测性能。

2、本专利技术的技术方案是提供了基于协同训练和改进ds理论的原发性高血压预测方法,包括以下步骤:

3、步骤1:获取原发性高血压诊型数据,包括:面象数据、舌象数据、声诊数据以及脉诊数据;

4、步骤2:对声诊数据以及脉诊数据进行时域特征提取,对面象数据和舌象数据进行形状特征、几何特征、颜色特征以及局部二值模式特征的提取,并进行数据预处理,得到数据集;

5、步骤3:区分数据集中有标签数据以及无标签数据,有标签数据为具有目标分类结果的数据,无标签数据则为没有目标分类结果的数据,目标分类结果为具有时域特征、形状特征、几何特征、颜色特征以及局部二值模式特征;

6、步骤4:对有标签数据,进行smote-bagging样本均衡化,得到差异性数据集;

7、步骤5:通过对差异性数据集进行训练得到三个差异性基础分类器;

8、步骤6:将有标签数据和无标签数据传输至三个差异性基础分类器,用于改进ds理论的tri-training协同训练,利用无标签数据提高模型训练效果,得到三个协同训练优化后的三个差异性基础分类器,并采用优化后的三个差异性基础分类器对原发性高血压诊型数据进行结果预测,得到三个预测结果;

9、步骤7:采用动态置信度ds理论将三个预测结果进行融合得到分类结果,进而得到原发性高血压预测结果。

10、优选地,所述数据预处理包括缺失值填充,独热编码以及归一化处理。

11、优选地,所述缺失值填充采用均值进行填充。

12、优选地,所述步骤4包括以下步骤:

13、步骤401:对有标签数据进行划分多数类与少数类样本,用于对不同数量的样本进行smote-bagging样本均衡化;

14、步骤402:对多数类进行bootstrap带回放随机抽样,获取多个欠采样的子数据集,bootstrap次数由均衡化效果以及最终训练基础分类器个数确定;对少数类进行borderline-smote过采样获取单个过采样的子数据集,在过采样中,将少数类邻近样本多为多数类样本归为危险样本,并进行过采样;

15、步骤403:将单个过采样的子数据集进行复制,与多个欠采样的子数据集进行一一配对,形成新的差异性数据集。

16、优选地,所述步骤6包括以下步骤:

17、从三个差异性基础分类器中任意选取两个差异性基础分类器对无标签数据进行预测,得到两个预测结果;

18、两个预测结果通过改进ds理论融合并添加伪标签;伪标签在添加后需要计算其准确度,根据分类错误率考量伪标签集合的准确度;

19、当准确度不满足预设条件,则放弃添加伪标签;

20、当准确度满足预设条件时,该轮迭代中对于差异性基础分类器添加的伪标签起到正向效果,则添加伪标签;

21、未被选取的差异性基础分类器利用添加的伪标签与有标签数据进一步进行训练,直至准确度不满足预设条件,得到优化后的三个差异性基础分类器;采用优化后的三个差异性基础分类器对原发性高血压诊型数据进行结果预测,输出三个预测结果。

22、优选地,所述准确度公式如下:

23、

24、其中,t为迭代轮数,hj和hk为分类器,表示为hj分类器与hk在第t次迭代的分类错误率。

25、优选地,所述预设条件如下:

26、

27、其中,lt表示第t轮迭代时的新添加伪标签数据集。

28、优选地,所述步骤7包括以下步骤:

29、计算所述预测结果的hellinger距离,衡量预测结果间的相似程度,并将结果利用相似矩阵表示:

30、

31、其中,dij∈[0,1]为分类器的预测结果hellinger距离;

32、计算预测结果mi的置信度将置信度权重加权平均到mavg=crd(mi)mi,再根据murphy规则,采用ds证据对mavg进行n-1次融合得到分类结果。

33、本专利技术的技术方案提出基于协同训练和改进ds理论的原发性高血压预测方法,实现原发性高血压精准预测。原发性高血压临床样本呈现多源和多模态特征,包括患者的面象、舌象等图像类以及声波特征。首先对于初始多源样本数据预处理,采用过采样和欠采样融合方法smote-bagging算法进行样本均衡化处理,构建多个具有差异性机器学习分类器,实现原发性高血压精准预测。在训练过程中,采用基于tri-training预训练策略,利用未标记样本生成伪标签,提高标记样本数量。各子分类器在训练过程中以及决策级融合过程均采用基于动态置信度修正系数ds融合策略,实现原发性高血压三分类精准预测。

本文档来自技高网...

【技术保护点】

1.基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述数据预处理包括缺失值填充,独热编码以及归一化处理。

3.如权利要求2所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述缺失值填充采用均值进行填充。

4.如权利要求1所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述步骤4包括以下步骤:

5.如权利要求1所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述步骤6包括以下步骤:

6.如权利要求5所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述准确度公式如下:

7.如权利要求6所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述预设条件如下:

8.如权利要求5所述的基于协同训练和改进DS理论的原发性高血压预测方法,其特征在于,所述步骤7包括以下步骤:

【技术特征摘要】

1.基于协同训练和改进ds理论的原发性高血压预测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于协同训练和改进ds理论的原发性高血压预测方法,其特征在于,所述数据预处理包括缺失值填充,独热编码以及归一化处理。

3.如权利要求2所述的基于协同训练和改进ds理论的原发性高血压预测方法,其特征在于,所述缺失值填充采用均值进行填充。

4.如权利要求1所述的基于协同训练和改进ds理论的原发性高血压预测方法,其特征在于,所述步骤4包括以下步骤...

【专利技术属性】
技术研发人员:杨晶东陆宇航燕海霞李文
申请(专利权)人:上海理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1