当前位置: 首页 > 专利查询>浙江大学专利>正文

一种群智能寻优的肺癌癌细胞检测仪制造技术

技术编号:19275785 阅读:51 留言:0更新日期:2018-10-30 17:07
本发明专利技术公开了一种群智能寻优的肺癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出组成。系统首先将输入的基因微阵列数据预处理,删除噪声以及归一化,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因重要性进行排序。改进的优化方法在原始的智能寻优算法下加入了适应度检测与种群扰动,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出结果。系统具有很好的去相关性,精度高。

A group of intelligent and optimized detection instrument for lung cancer cell

The invention discloses a lung cancer cell detector with swarm intelligence optimization, which is composed of gene microarray reading module, data preprocessing and feature sorting module, parameter optimization module and model output. The system first preprocesses the input gene microarray data, deletes noise and normalizes them, then ranks the remaining genes by importance, calculates correlation by statistical score, and then calculates contribution by using classifier criterion function to rank all genes by importance. The improved optimization method incorporates fitness detection and population disturbance into the original intelligent optimization algorithm, which can prevent the loss of population diversity and the optimization process from falling into local optimum. Then, the optimal parameters are used as classifier parameters to complete the model construction and output the results. The system has good correlation and high accuracy.

【技术实现步骤摘要】
一种群智能寻优的肺癌癌细胞检测仪
本专利技术涉及基因微阵列数据应用
,具体地,涉及一种群智能寻优的肺癌癌细胞检测仪。
技术介绍
基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。然而,怎样去研究如此众多基因在生命过程中所担负的功能就成了全世界生命科学工作者共同的课题。为此,建立新型杂交和测序方法以对大量的遗传信息进行高效、快速的检测、分析就显得格外重要了。肺癌是发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一。近50年来许多国家都报道肺癌的发病率和死亡率均明显增高,男性肺癌发病率和死亡率均占所有恶性肿瘤的第一位,女性发病率占第二位,死亡率占第二位。而肺癌的病因至今尚不完全明确。如何利用基因微阵列技术对肺癌进行快速高效准确建模,是当下一项十分具有意义的科研热点。
技术实现思路
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本专利技术的目的在于提供一种群智能寻优的肺癌癌细胞检测仪。本专利技术解决其技术问题所采用的技术方案是:一种群智能寻优的肺癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。由此,可得到基因检测的训练集合其中xi代表n×1的输入特征向量,ti代表m×1的目标向量。给定一个激活函数g(x)以及隐含层的节点个数那么ELM基因检测系统为:其中,ωi代表第i个隐含层节点和输入层之间的权重向量,bi代表第i个隐含层节点的偏置,βi代表第i个隐含层节点和输出层之间的权重向量,oj代表第j个输入数据的目标输出。另外,ωi·xj代表了ωi和xj的内积。该网络的输出能够无限地接近于输入的N个样本,即:可得:上式可以表达为矩阵形式:Hβ=T其中,H表示隐含层的输出矩阵,H的第i列分别表示隐含层的第i个节点对应于N个输入x1,x2,…,xN的输出值。单隐层前馈神经网络(SLFNs)的输入权值和隐含层的偏差在网络训练的过程中不需要调整,可以任意给定。基于上述理论,输出权重可以通过计算Hβ=T的最小二乘解求得:可以利用线性方法快速求得方程的解,如式所示:其中,代表H的Moore-Penrose广义逆矩阵,代表最小范数最小二乘解,它正好是最小二乘解中范数最小的解。相比很多已有的基因检测系统,极限学习机通过这种Moore-Penrose广义逆的求解能够以非常快的速度达到很好的训练效果。参数寻优模块设计使用差分进化算法作为基础,并在算法中加入群智能蚁群算法来增加种群的多样性,具体设计如下:1)初始化DE算法的种群信息:在种群中,随机产生:上式中xi(0)代表初代第i个个体染色体基因的表达值,xj,i(0)代表初代第i个个体中第j个染色体基因的表达值、rand(0,1)是(0,1)区间里的均匀随机数、NP是种群大小、上标L、U分别表示下界值、上界值。2)变异操作(Mutation):DE算法区分于遗传算法(GA)的特点就在于其采用查分策略进行变异,通过随机选择两个个体之差,缩放后与目标个体进行向量和,也就是vi(g+1)=xr1(g)+F·(xr2(g)-xr3(g))其中,g代表第g代,F是两个随机向量差的缩放系数,vi(g+1)是变异中间变量,xr1(g)、xr2(g)、xr3(g)分别表示第g代第1、2、3个个体第r个染色体基因的表达值。3)交叉操作(Crossover):将第g代种群xi(g)与步骤2)产生的变异中间变量vi(g+1)进行交叉,产生其中,CR是设定的交叉率,uj,i(g+1)是交叉中间变量。4)选择操作(Selection):差分进化算法使用通常的贪心算法进行保留下一代,如果交叉产生的种群适应度f(ui(g+1)大于上一代的种群适应度f(xi(g)),则保留,否则种群不变,即为了避免出现早熟情况,设计一个自适应算子λ:上式中Gmax代表最大迭代次数,G代表当前迭代数,F0为变异算子,初期该值较大,保证样本多样性,后期逐渐变小,意在保护进化过程的优良信息。5)迭代运行以上过程直至达到最大代数。然后将历史最佳参数作为参数寻优的最终结果输入模型输出模块。模型输出模块,利用以上过程得到的模型,直接输入病患数据,即可根据标签值得出结果。本专利技术的有益效果主要表现在:利用了智能寻优技术对分类器的参数进行群智能寻优,避免了人工调参带来的低效以及随意性,且系统具有很好的去相关性,精度高。附图说明图1是本专利技术的结构示意图;图2是本专利技术的流程图。具体实施方式下面根据附图具体说明本专利技术。参照图1,一种群智能寻优的肺癌癌细胞检测仪,该系统由基因微阵列读入模块1、数据预处理及特征排序模块2、参数寻优模块3、模型输出模块4组成;其中:基因微阵列读入模块1读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。数据预处理及特征排序模块2是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为本文档来自技高网...

【技术保护点】
1.一种群智能寻优的肺癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。

【技术特征摘要】
1.一种群智能寻优的肺癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。2.根据权利要求1所述群智能寻优的肺癌癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。3.根据权利要求1所述群智能寻优的肺癌癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对读入的原始微阵列数据进行归一化以及特征排序。其中归一化操作为:其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。在使用非线性核作为核函数的时候,一般可以如下近似计算:其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。由此,可得到基因检测的训练集合其中xi代表n×1的输入特征向量,ti代表m×1的目标向量。给定一个激活函数g(x)以及隐含层的节点个数那么ELM基因检测系统为:其中,ωi代表第i个隐含层节点和输入层之间的权重向量,bi代表第i个隐含层节点的偏置,βi代表第i个隐含层节点和输出层之间的权重向量,oj代表第j个输入数据的目标输出。另外,ωi·xj代表了ωi和xj的内积。该网络的输出能够无限地接近于输入的N个样本,即:可得:上式可以表达为矩阵形式:Hβ=T其中,H表示隐含层的输出矩阵,H的第i列分别表示隐含层的第i个节点对应于N个输入x1,...

【专利技术属性】
技术研发人员:刘兴高高信腾孙元萌
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1