一种基于类间混合决策树的健康信息处理方法技术

技术编号：37797585 阅读：17 留言：0更新日期：2023-06-09 09:27

本发明专利技术提供了一种基于类间混合决策树的健康信息处理方法，包括：步骤1，获取包含用户身体数据的训练集X；步骤2，基于训练集X建立目标函数，并得到最优解；步骤3，将数据划分为不相交的分区，直到节点变纯或样本数小于预定义的阈值。本发明专利技术旨在获得一个新的类间混合Universum决策树，结合Universum先验知识的同时避免不纯度计算，进而在各现实场景(如疾病诊断、天气预测、异常检测等)中发挥更高效的作用。此外，应用混合诱导的Universum(MIU)来生成类间Universum样本，并通过随机采样MIU为决策森林中的决策树提供多样性，从而获得更高的疾病预测精度。疾病预测精度。疾病预测精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于类间混合决策树的健康信息处理方法

[0001]本专利技术属于模式识别领域，尤其涉及一种基于类间混合决策树的健康信息处理方法。

技术介绍

[0002]决策树作为一种历史悠久的监督学习算法，近年来取得了长足的进步并受到了人们的广泛关注。最近的研究表明，决策树在处理表格数据方面优于神经网络。在医学疾病诊断领域，大部分数据皆为表格型数据，因而决策树在疾病诊断领域具有先天优势。此外，决策树还能处理金融、医疗、入侵检测、天气预测和许多其他领域的难题。然而，现存的决策树都面临着一个重要的问题，即节点分裂准则。对于轴平行决策树，合适的纯度度量是其分裂准则的关键。对于斜决策树，可以将不同的分类器或决策函数作为其分裂准则。虽然斜决策树平滑了轴平行决策树的决策超平面从而获得更好的性能，但它损害了轴平行决策树的可解释性。Universum学习和决策树之间的结合还未得到充分的探索。可能是因为难以将Universum数据集嵌入到二元决策树构建过程中。在引入Universum数据集的情况下，难以度量内部节点的不纯度。此外，在树生长过程中，难以确定应该将Universum数据分配给哪个子节点或分支。
[0003]在模式识别领域，适当的先验知识有助于获得更好的学习模型。Universum先验知识假设除给定数据外，通常还有不属于任何已知类的其他域内数据。基于Universum的算法已经在监督学习、无监督学习和降维等领域取得了经验上的成功。然而，迄今为止，Universum还没有被应用到决策树这一学习范式中。有两个难点：首先，难以将Uni

【技术保护点】

【技术特征摘要】
1.一种基于类间混合决策树的健康信息处理方法，包括以下步骤：步骤1，获取包含用户身体数据的训练集X；步骤2，基于训练集X建立目标函数，并得到最优解；步骤3，将数据划分为不相交的分区，直到节点变纯或样本数小于预定义的阈值。2.根据权利要求1所述的方法，其特征在于，步骤1中，将包含用户身体数据的训练集X记为：其中x
i
＝[x
i1
,x
i2
,...,x
id
]
T
是第i个用户样本，i＝1,2,...,n，d是x
i
的特征维度，x
id
∈R表示第i个用户的第d个特征值，y
i
∈{
‑
1,+1}是第i个用户样本的标签，y
i
取值为
‑
1时表示第i个用户患病，y
i
取值为1时表示第i个用户健康；x'∈U是一个Universum样本，U表示Universum集。3.根据权利要求2所述的方法，其特征在于，步骤2包括：步骤2
‑
1，最小化两个用户样本x1,x2间的马氏距离d
A
(x1,x2)＝(x1‑
x2)
T
A(x1‑
x2)等价于最大化其中A是一个d
×
d实对称正定矩阵；最大化两类中心的马氏距离d
A
(m1,m2)等价于最小化其中m1和m2分别代表患病数据的类中心和健康数据的类中心，每个内部节点t的分裂准则对应的目标函数min
A＞0
f(A)表示为：min
A＞0
f(A)＝tr(A(S
w
+S
u
))+tr(A
‑1S
b
)
ꢀꢀꢀꢀ
(2)其中tr表示矩阵的迹，A＞0表示A是一个正定矩阵；S
b
，S
w
和S
u
分别定义为类间协方差矩阵、类内协方差矩阵和Universum类内协方差矩阵；步骤2
‑
2，目标是获得一个对角矩阵A＝diag(w1,...,w
j
,...,w
d
)，它的第j个对角元素w
j
表示候选特征j的判别性权重，特征j表示用户的第j个体征，取值为1～d，diag表示对角矩阵，在对角化度量矩阵约束下优化公式(2)，得到f(w1,...,w
j
,...,w
d
)；步骤2
‑
3，当f(A)的导数为零时，获得全局最优解，f(A)对w
j
求导；步骤2
‑
4，获得...

【专利技术属性】
技术研发人员：陈松灿，李丹，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人