一种基于类间混合决策树的健康信息处理方法技术

技术编号:37797585 阅读:17 留言:0更新日期:2023-06-09 09:27
本发明专利技术提供了一种基于类间混合决策树的健康信息处理方法,包括:步骤1,获取包含用户身体数据的训练集X;步骤2,基于训练集X建立目标函数,并得到最优解;步骤3,将数据划分为不相交的分区,直到节点变纯或样本数小于预定义的阈值。本发明专利技术旨在获得一个新的类间混合Universum决策树,结合Universum先验知识的同时避免不纯度计算,进而在各现实场景(如疾病诊断、天气预测、异常检测等)中发挥更高效的作用。此外,应用混合诱导的Universum(MIU)来生成类间Universum样本,并通过随机采样MIU为决策森林中的决策树提供多样性,从而获得更高的疾病预测精度。疾病预测精度。疾病预测精度。

【技术实现步骤摘要】
一种基于类间混合决策树的健康信息处理方法


[0001]本专利技术属于模式识别领域,尤其涉及一种基于类间混合决策树的健康信息处理方法。

技术介绍

[0002]决策树作为一种历史悠久的监督学习算法,近年来取得了长足的进步并受到了人们的广泛关注。最近的研究表明,决策树在处理表格数据方面优于神经网络。在医学疾病诊断领域,大部分数据皆为表格型数据,因而决策树在疾病诊断领域具有先天优势。此外,决策树还能处理金融、医疗、入侵检测、天气预测和许多其他领域的难题。然而,现存的决策树都面临着一个重要的问题,即节点分裂准则。对于轴平行决策树,合适的纯度度量是其分裂准则的关键。对于斜决策树,可以将不同的分类器或决策函数作为其分裂准则。虽然斜决策树平滑了轴平行决策树的决策超平面从而获得更好的性能,但它损害了轴平行决策树的可解释性。Universum学习和决策树之间的结合还未得到充分的探索。可能是因为难以将Universum数据集嵌入到二元决策树构建过程中。在引入Universum数据集的情况下,难以度量内部节点的不纯度。此外,在树生长过程中,难以确定应该将Universum数据分配给哪个子节点或分支。
[0003]在模式识别领域,适当的先验知识有助于获得更好的学习模型。Universum先验知识假设除给定数据外,通常还有不属于任何已知类的其他域内数据。基于Universum的算法已经在监督学习、无监督学习和降维等领域取得了经验上的成功。然而,迄今为止,Universum还没有被应用到决策树这一学习范式中。有两个难点:首先,难以将Universum直接嵌入到决策树构建中,因为Universum数据的引入会混淆决策树节点分裂的不纯度计算。其次,即便Universum可以嵌入决策树构建,设计不当的Universum也会降低决策树的性能。

技术实现思路

[0004]专利技术目的:现有的决策树算法在进行疾病预测时,依赖于穷举搜索的方式,较为耗时且预测能力有限。本专利技术所要解决的技术问题是针对现有技术的不足,提供一种类间混合Universum决策树算法,更加有效和高效地进行疾病诊断和预测。
[0005]本专利技术提出了一种新型的一种基于类间混合决策树的健康信息处理方法来规避现有技术的问题,并应用于医学诊断领域。具体来说,本专利技术试图通过最小化分类超平面和Universum样本之间的距离,即引入一个正则化项,来选择最优分裂特征。受几何平均度量学习的启发,本专利技术旨在其对角化度量矩阵的约束下优化一个分裂准则,以获得每个特征的判别权重,从而找到最优的分类超平面,并以此代替传统决策树在整个特征空间上基于纯度度量的穷举搜索。此外,本专利技术优化目标函数获得最具判别性的分裂特征,以避免Universum数据集的存在混淆了纯度计算。分布在分类超平面周围的Universum样本是难分样本。如果在节点分裂时考虑难分样本,就能在每个内部节点获得一个更好的轴平行分类超平面。
[0006]本专利技术将几何平均度量学习和Universum学习相结合,从而获得一个闭式解。具体而言,优化一个严格凸的目标函数,以获得全局最优解,该最优解表示内部节点上每个候选特征的判别权重。直观地说,在内部节点的最优分裂特征上:每个类内的方差较小,而不同类的样本之间距离较远。此外,将Universum样本作为目标域的先验知识嵌入目标函数中。具体来说,本专利技术迫使Universum样本,即难分样本,紧凑地分布在决策面周围。
[0007]实现本专利技术目的的技术解决方案为:一种基于类间混合决策树的健康信息处理方法,所述方法包括以下步骤:
[0008]步骤1,获取包含用户身体数据的训练集X;
[0009]步骤2,基于训练集X建立目标函数,并得到最优解;
[0010]步骤3,将数据划分为不相交的分区,直到节点变纯或样本数小于预定义的阈值。
[0011]步骤1中,将包含用户身体数据的训练集X记为:
[0012][0013]其中x
i
=[x
i1
,x
i2
,

,x
id
]T
是第i个用户样本,i=1,2,

,n,d是x
i
的特征维度,x
id
∈R表示第i个用户的第d个特征值(如用户的体征),y
i
∈{

1,+1}是第i个用户样本的标签,y
i
取值为

1时表示第i个用户患病,y
i
取值为1时表示第i个用户健康;x'∈U是一个Universum样本,本专利技术中带有单引号的样本均表示人工生成的Universum样本,U表示Universum集;
[0014]步骤2包括:
[0015]步骤2

1,最小化两个用户样本x1,x2间的马氏距离d
A
(x1,x2)=(x1‑
x2)
T
A(x1‑
x2)等价于最大化其中A是一个d
×
d实对称正定矩阵;
[0016]最大化两类中心的马氏距离d
A
(m1,m2)等价于最小化其中m1和m2分别代表患病数据的类中心和健康数据的类中心,每个内部节点t的分裂准则对应的目标函数表示为:
[0017][0018]其中tr表示矩阵的迹,表示A是一个正定矩阵;
[0019]S
b
,S
w
和S
u
分别定义为类间协方差矩阵、类内协方差矩阵和Universum类内协方差矩阵;
[0020]步骤2

2,目标是获得一个对角矩阵A=diag(w1,

,w
j
,

,w
d
),它的第j个对角元素w
j
表示候选特征j的判别性权重,特征j表示用户的第j个体征,取值为1~d,diag表示对角矩阵,在对角化度量矩阵约束下优化公式(2),得到f(w1,

,w
j
,

,w
d
);
[0021]步骤2

3,当f(A)的导数为零时,获得全局最优解,f(A)对w
j
求导;
[0022]步骤2

4,获得最优解;
[0023]步骤2

1中,所述类间协方差矩阵S
b
、类内协方差矩阵S
w
和Universum类内协方差矩阵S
u
如下所示:
[0024]S
b
=(m1‑
m2)(m1‑
m2)
T
[0025][0026][0027]其中c是类序号,m
c
是类别C的中心,m1和m2分别表示患病数据的类中心和健康数据的类中心,x
i
'和m...

【技术保护点】

【技术特征摘要】
1.一种基于类间混合决策树的健康信息处理方法,包括以下步骤:步骤1,获取包含用户身体数据的训练集X;步骤2,基于训练集X建立目标函数,并得到最优解;步骤3,将数据划分为不相交的分区,直到节点变纯或样本数小于预定义的阈值。2.根据权利要求1所述的方法,其特征在于,步骤1中,将包含用户身体数据的训练集X记为:其中x
i
=[x
i1
,x
i2
,...,x
id
]
T
是第i个用户样本,i=1,2,...,n,d是x
i
的特征维度,x
id
∈R表示第i个用户的第d个特征值,y
i
∈{

1,+1}是第i个用户样本的标签,y
i
取值为

1时表示第i个用户患病,y
i
取值为1时表示第i个用户健康;x'∈U是一个Universum样本,U表示Universum集。3.根据权利要求2所述的方法,其特征在于,步骤2包括:步骤2

1,最小化两个用户样本x1,x2间的马氏距离d
A
(x1,x2)=(x1‑
x2)
T
A(x1‑
x2)等价于最大化其中A是一个d
×
d实对称正定矩阵;最大化两类中心的马氏距离d
A
(m1,m2)等价于最小化其中m1和m2分别代表患病数据的类中心和健康数据的类中心,每个内部节点t的分裂准则对应的目标函数min
A>0
f(A)表示为:min
A>0
f(A)=tr(A(S
w
+S
u
))+tr(A
‑1S
b
)
ꢀꢀꢀꢀ
(2)其中tr表示矩阵的迹,A>0表示A是一个正定矩阵;S
b
,S
w
和S
u
分别定义为类间协方差矩阵、类内协方差矩阵和Universum类内协方差矩阵;步骤2

2,目标是获得一个对角矩阵A=diag(w1,...,w
j
,...,w
d
),它的第j个对角元素w
j
表示候选特征j的判别性权重,特征j表示用户的第j个体征,取值为1~d,diag表示对角矩阵,在对角化度量矩阵约束下优化公式(2),得到f(w1,...,w
j
,...,w
d
);步骤2

3,当f(A)的导数为零时,获得全局最优解,f(A)对w
j
求导;步骤2

4,获得...

【专利技术属性】
技术研发人员:陈松灿李丹
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1