当前位置: 首页 > 专利查询>温州大学专利>正文

基于改进樽海鞘群算法的医学疾病特征选择方法技术

技术编号:30784877 阅读:80 留言:0更新日期:2021-11-16 07:46
本发明专利技术公开了一种基于改进樽海鞘群算法的医学疾病特征选择方法,使用改进樽海鞘群算法来优化特征选择问题,通过转换函数和K

【技术实现步骤摘要】
基于改进樽海鞘群算法的医学疾病特征选择方法


[0001]本专利技术涉及一种医学疾病的特征选择方法,尤其是涉及一种基于改进樽海鞘群算法的医学疾病特征选择方法。

技术介绍

[0002]随着基因芯片技术在医学领域被广泛应用,大量微阵列数据被迅速积累,通过对这些数据进行分析并构建有效的分类模型,对一些潜在病患的早期诊断和临床治疗具有重要的研究意义和应用价值。然而,微阵列基因数据集具有“高维小样本”的特点,如乳腺癌微阵列基因数据集包含了两千多个基因特征。面对如此大规模的微阵列基因数据集,专家在短时间内不能直接进行分析和诊断治疗。此外,大多基因数据通常含有一些冗余或噪声数据,这些信息可能会极大地降低分类算法学习的性能,效率变低,而且会影响医疗的诊断。特征选择作为一种有效的降维方式,在生物医学领域已经引起广泛的关注并成为近年来生物信息学领域的研究热点。特征选择技术是对微阵列基因数据集进行适当分析和分类的关键步骤,如果没有合适的特征选择方法,现有的分类模型很难准确捕获重要信息。本质上,特征选择问题作为一个典型的全局寻优问题,是最重要环节之一。与其他降维技术不同,特征选择并不改变变量特征的原始表示,而仅是选择它们中的子集。因此,特征选择保留了原来的变量情况,可以提供进一步对特征数据进行解释的优势。此外,分类算法的复杂度和预测效果与样本特征息息相关,其中样本特征的冗余性与相关性会导致预测能力下降,同时特征维度的大小也影响着分类算法的运算速度。
[0003]特征选择实质上也是一个组合优化问题。常规的优化算法,诸如解析法,不仅对目标函数要求连续且可微,而且得到的最优解往往达不到需求的精度;枚举法,虽然克服这些缺点,但计算效率太低。即便是相当著名的动态规划法,也会遇到“指数爆炸”问题,对于中等规模及适度复杂性问题,也常常表现乏力。因此,如果能创新性地将群智能算法的寻优能力运用于特征选择问题中,将会给医学疾病特征的分析提供一个有力的解释工具。
[0004]目前已有许多研究者应用群智能算法辅助寻找特征子集,并取得了显著的效果。樽海鞘群算法(Salp Swarm Algorithm,SSA)是一种新兴的启发式群体智能算法,它受樽海鞘觅食过程启发,包括接近食物、包裹食物和搜索食物三个阶段,实现对整个搜索空间的不断探索和开发。然而,SSA在搜索特征子集的过程中,仍存在陷入局部最优,过早收敛的现象,最终会导致特征子集的选择准确度降低。
[0005]因此,有必要提供一种改进樽海鞘群算法,能解决樽海鞘群算法的陷入局部最优解、收敛速度慢等问题,实现对医学疾病特征的更精确、更高效的分类及预测。

技术实现思路

[0006]本专利技术所要解决的技术问题是提供一种收敛速度快,具有更高分类精度和较好的鲁棒性的基于改进樽海鞘群算法的医学疾病特征选择方法。
[0007]本专利技术解决上述技术问题所采用的技术方案为:一种基于改进樽海鞘群算法的医
学疾病特征选择方法,包括以下步骤:
[0008]步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m
×
n个基因特征数据按照m行n列排布形成;使用10

交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;
[0009]步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群Y0;
[0010]步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,

,0];
[0011]步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;
[0012]步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:
[0013]步骤S5.1、将t

1代母樽海鞘种群Y
t
‑1中每个个体的每个维度值分别通过公式(1)

(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群B
t

[0014][0015][0016]其中,表示第t

1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,

,M,j=1,2,3,

,n,表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;
[0017]步骤S5.2、构建第t

1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t

1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t

1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t

1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;
[0018]步骤S5.3、采用公式(3)和公式(4)计算第t

1代母樽海鞘种群中每个个体的适应度值,并将第t

1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bF
t
‑1,适应度值最小的个体作为当前最优个体,记为bP
t
‑1;
[0019][0020][0021]其中,表示第t

1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,表示在K

近邻算法下获得的第i个个体的分类精确度,和通过采用K

近邻算法对第t

1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,表示验证集的特征子集的数据分类正确的数目,表示验证集的特征子集的数据分类分类错误的数目;
[0022]步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群B...

【技术保护点】

【技术特征摘要】
1.一种基于改进樽海鞘群算法的医学疾病特征选择方法,其特征在于包括以下步骤:步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m
×
n个基因特征数据按照m行n列排布形成;使用10

交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群0;步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,

,0];步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:步骤S5.1、将t

1代母樽海鞘种群Y
t
‑1中每个个体的每个维度值分别通过公式(1)

(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群B
t
::其中,表示第t

1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,

,M,j=1,2,3,

,n,表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;步骤S5.2、构建第t

1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t

1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t

1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t

1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;步骤S5.3、采用公式(3)和公式(4)计算第t

1代母樽海鞘种群中每个个体的适应度值,并将第t

1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bF
t
‑1,适应度值最小的个体作为当前最优个体,记为bP
t
‑1;
其中,表示第t

1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,表示在K

近邻算法下获得的第i个个体的分类精确度,和通过采用K

近邻算法对第t

1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,表示验证集的特征子集的数据分类正确的数目,表示验证集的特征子集的数据分类分类错误的数目;步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群B
t
的第1个个体到第M/2个个体中每个维度值分别进行更新,得到第t代初始樽海鞘种群F
t
的第1个个体到M/2个个体:的第1个个体到M/2个个体:其中,k=1,2,3,

【专利技术属性】
技术研发人员:汪鹏君赵松伟陈慧灵许素玲何文明施一剑
申请(专利权)人:温州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1