当前位置: 首页 > 专利查询>浙江大学专利>正文

一种群智能寻优的白血病癌细胞检测仪制造技术

技术编号:19545523 阅读:34 留言:0更新日期:2018-11-24 20:54
本发明专利技术公开了群智能寻优的白血病癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。系统首先将输入的基因微阵列数据预处理,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因重要性进行排序。改进的优化方法在原始的智能寻优算法下加入了适应度检测与种群扰动,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出结果。系统速度快,适合在线检测。

A Cluster Intelligent Optimized Detection Instrument for Leukemia Cancer Cells

The invention discloses a swarm intelligence optimization leukemia cancer cell detector, which consists of a gene microarray reading module, a data preprocessing and feature sorting module, a parameter optimization module and a model output module. The system first preprocesses the input gene microarray data, then ranks the importance of the remaining genes, calculates the correlation by statistical scores, and then calculates the contribution degree by using the classifier criterion function to rank the importance of all genes. The improved optimization method adds fitness detection and population disturbance to the original intelligent optimization algorithm, which can prevent the loss of population diversity and the optimization process from falling into local optimum. Then the optimal parameters are used as classifier parameters to complete the model construction and output the results. The system is fast and suitable for on-line detection.

【技术实现步骤摘要】
一种群智能寻优的白血病癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种群智能寻优的白血病癌细胞检测仪。
技术介绍
生物芯片技术是通过缩微技术,根据分子间特异性地相互作用的原理,将生命科学领域中不连续的分析过程集成于硅芯片或玻璃芯片表面的微型生物化学分析系统,以实现对细胞、蛋白质、基因及其它生物组分的准确、快速、大信息量的检测。按照芯片上固化的生物材料的不同,可以将生物芯片划分为基因芯片、蛋白质芯片、多糖芯片和神经元芯片。目前,最成功的生物芯片形式是以基因序列为分析对象的“微阵列(microarray)”,也被称为基因芯片(Genechip)或DNA芯片(DNAchip)。白血病按起病的缓急可分为急、慢性白血病。急性白血病细胞分化停滞在早期阶段,以原始及早幼细胞为主,疾病发展迅速,病程数月。慢性白血病细胞分化较好,以幼稚或成熟细胞为主,发展缓慢,病程数年。按病变细胞系列分类,包括髓系的粒、单、红、巨核系和淋巴系的T和B细胞系。临床上常将白血病分为淋巴细胞白血病、髓细胞白血病、混合细胞白血病等。其中急性白血病对人类影响重大,患者通常在发病后3个月内就会死亡。而历史上对于急性白血病的检测十分困难而难以精确。现在利用DNA微阵列技术,科学家有望在该领域得到突破。而这类数据有着高维小样本的特点,对于一般分类器以及参数调试而言,有着维数灾难的典型困难。如何克服它,是当下的一大研究热点。
技术实现思路
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本专利技术的目的在于提供一种群智能寻优的白血病癌细胞检测仪。本专利技术解决其技术问题所采用的技术方案是:一种群智能寻优的白血病癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,在支持向量机理论中,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,支持向量机的目标函数即是最小化它。在使用线性核作为支持向量机的核函数的情况下,则有:其中,w*为最优支持向量、w为法向量、α*最优支持向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。对于一组训练样本集{xn,tn}(n=1,2,...N,x∈Rd,t∈{0,1}),其中x表示训练样本,t表示样本时刻点。相关向量机的分类函数y(x;wr)定义为:其中K(x,xi)是核函数,wri为权值,wr0为初始权值。将logisticsigmoid连接函数应用到原式,可得该数据集的似然概率p(t|wr)估计为:其中,σ为方差,为了避免过拟合,相关向量机为每个wr设置了高斯先验概率分布约束条件:可以根据Laplace理论得到后验概率的近似:首先固定α,求取的对应最大可能似然概率MP的权值wrMP,由于p(wr|t,α)正比于p(t|wr)p(wr|α),利用二阶牛顿法求取wrMP:其中,yn=σ{y(xn;wr)},A=diag(α0,α1,...,αN)。然后利用拉普拉斯方法,对上式进行二次求导可得:其中,Φ是N×(N+1)的结构矩阵,Φ=[φ(x1),φ(x2),...,φ(xN),]T,φ(xn)=[1,K(xn,x1),K(xn,x2),...,K(xn,xN)]T,B=diag(β1,β2,...,βN),B是一个对角矩阵,βn=σ{y(Xn)}[1-σ{y(Xn)}]。对上式的右式取负号,然后求逆,可得协方差阵Σ。再之后,利用Σ和wrMP,对超参数α更新:wrMP=ΣΦTBt在迭代过程中,大部分的αi会接近于无穷大,因此它们相应的wri就无限趋近于0,可以删去其基函数达到稀疏性。参数寻优模块设计使用一种改进的群智能寻优算法来增加种群的多样性,具体设计如下:1)初始化DE算法的种群信息:在种群中,随机产生:上式中xi(0)代表初代第i个个体染色体基因的表达值,、xj,i(0)代表初代第i个个体中第j个染色体基因的表达值、rand(0,1)是(0,1)区间里的均匀随机数、NP是种群大小、上标L、U分别表示下界值、上界值。2)变异操作(Mutation):DE算法区分于遗传算法(GA)的特点就在于其采用查分策略进行变异,通过随机选择两个个体之差,缩放后与目标个体进行向量和,也就是vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g)),i≠r1≠r2≠r3上式中,g代表第g代,F是两个随机向量差的缩放系数,vi(g+1)是变异中间变量,xr1(g)、xr2(g)、xr3(g)分别表示第g代第1、2、3个个体第r个染色体基因的表达值。3)交叉操作(Crossover):将第g代种群xi(g)与步骤2)产生的中间变量vi(g+1)进行交叉,产生上式中,CR是设定的交叉率,uj,i(g+1)是交叉中间变量。4)选择操作(Selection):差分进化算法使用通常的贪心算法进行保留下一代,如果交叉产生的种群适应度f(ui(g+1)大于上一代的种群适应度f(xi(g)),则保留,否则种群不变,即为了避免出现早熟情况,设计一个自适应算子λ:上式中Gmax代表最大迭代次数,G代表当前迭代次数,F0为变异算子,初期该值较大,保证样本多样性,后期逐渐变小,意在保护进化过程的优良信息。在差分进化算法中,如果适应度在一定迭代次数后始终无法超过历史最优,则认为陷入局部最优,此时利用群智能算法跳出差分进化算法:5)将当前位置点信息初始化给蚁群智能算法,其中蚂蚁个体数目为:m,信息素浓度为:τij=c(c>0)。6)模拟所有的蚂蚁1,2...,m向终点移动,每个蚂蚁从当前位置i向下一个位置j移动的概率为:7)一次迭代完成时,即所有蚂蚁走完路径时,更新当前信息素浓度:上式中ρ为信息素浓度挥发系数,代表蚂蚁k在路径ij上留下的信息素浓度,根据信息素浓度反比于路径长度的关系,可将其定义如下:上式中,C为比例常量,L为路径长度。8)得到新的候选解之后,与历史最佳对比并更新历史最本文档来自技高网...

【技术保护点】
1.一种群智能寻优的白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。

【技术特征摘要】
1.一种群智能寻优的白血病癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述群智能寻优的白血病癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述群智能寻优的白血病癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,在支持向量机理论中,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,支持向量机的目标函数即是最小化它。在使用线性核作为支持向量机的核函数的情况下,则有:其中,w*为最优支持向量、w为法向量、α*最优支持向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。对于一组训练样本集{xn,tn}(n=1,2,...N,x∈Rd,t∈{0,1}),其中x表示训练样本,t表示样本时刻点。相关向量机的分类函数y(x;wr)定义为:其中K(x,xi)是核函数,wri为权值,wr0为初始权值。将logisticsigmoid连接函数应用到原式,可得该数据集的似然概率p(t|wr)估计为:其中,σ为方差,为了避免过拟合,相关向量机为每个wr设置了高斯先验概率分布约束条件:可以根据Laplace理论得到后验概率的近似:首先固定α,求取的对应最大可能似然概率MP的权值wrMP,由于p(wr|t,α)正比于p(t|wr)p(wr|α),利用二阶牛顿法求取wrMP:其中,yn=σ{y(xn;wr)},A=diag(α0,α1,...,αN)。然后利用拉普拉斯方法,对上式进行二次求导可得:其中,Φ是N×(N+1)的结构矩阵,Φ=[φ(x1),φ(x2),...,φ(xN),]T,φ(xn)=[1,K(xn,x1),K(xn,x2),...,K(xn,xN)]T,B=diag(β...

【专利技术属性】
技术研发人员:刘兴高高信腾
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1