一种采用链状多种群的遗传算法从体液代谢轮廓中筛选肝病标志物的方法技术

技术编号:4043367 阅读:335 留言:0更新日期:2012-04-11 18:40
一种采用链状多种群的遗传算法从体液代谢轮廓中筛选肝病标志物的方法,属于数据挖掘、代谢组学技术领域。其特征是首先采用液相色谱质谱联用仪对体液代谢物进行分析得到代谢轮廓,通过多种群并行进化得到多个区分能力强的特征子集,根据特征在这些子集中出现频数度量特征的重要性。其次依据特征的重要性采用顺序从前向后搜索,筛选出肝病三阶段特异性的标志物。在进化中相邻种群通过信息交互,避免了遗传算法的早熟缺点。同时提出了一种新的交叉操作,保证了任意一个染色体中不包含相同特征。本发明专利技术的效果和益处是可以高效,准确的筛选出肝病三阶段中相关的标志物,准确率高,稳定性好,利用筛选出来的特征构造的SVM模型的10倍交叉验证准确率达97.9%。

【技术实现步骤摘要】

本专利技术属于数据挖掘、代谢组学
,是一种基于数据挖掘方法及代谢组学 技术对体液进行代谢轮廓分析,用于筛选肝病小分子代谢标志物的新方法。
技术介绍
肝病日益成为严重危害人类健康的疾病之一,根据世界卫生组织的统计,世界上 大概有3. 5亿慢性肝炎感染者。在病程上,慢性肝炎可以发展为肝硬化,后者是肝细胞癌 (hepatocellular carcinoma, HCC)的主要发病诱因之一。HBV感染所致的慢性肝炎,肝硬 化以及肝癌每年导致50到120万人死亡。世界范围内,肝癌患者的死亡率排在恶性肿瘤的 第四位,而在中国,自上世纪90年代以来,肝癌死亡率高居恶性肿瘤的第二位,达到每10万 人34.7例。这其中,由乙型肝炎继发而来的肝癌占80%-90%。目前对高危人群主要以甲 胎蛋白(AFP)和超声、影像学相结合的诊断技术进行肝癌筛查。AFP在肝癌诊断中存在一定 的漏诊率和误诊率。因此,发现灵敏度和特异性高的新的肿瘤标志物将是提高肝癌诊断率 的关键。代谢组学(Nicholson,J. K. ;Lindon, J. C. ;Holmes, Ε· Xenobiotical999,29, 1181-1189.)是近年发展起来的一种全面考察受刺激或扰动后的生物体中小分子代谢物 变化的方法。肝脏疾病一直都是代谢组学研究关注的重点之一。代谢组学通过应用化学 计量学的技术,在肝病的诊断及预测方面以及改善临床治疗方面进行了积极的探索,研究 中所发现的代谢物标志物对于深入研究了解肝脏疾病提供了新的思路。代谢组学方法寻 找疾病标志物可以分为以下几个部分对被研究对象代谢物含量的测定即代谢轮廓的取 得;根据已知样本的代谢轮廓数据建立并验证筛选模型;根据筛选模型筛选标志物。潜 在标志物的寻找也就是机器学习中的特征选择方法(Y. Saeys ;I. Inza ;P. Larranaga, Bioinformatics, 2007,23 (19),2507-2517.),即从原始的特征集合中寻找一个特征子集满 足构造的分类模型的准确率最高或者满足其他的评价标准达到最高等其他条件。现在已经 存在很多进行特征选择的方法,例如SVM-RFE,Random Forest,GAs以及各种组合方法,其中 遗传算法作为一种最优化搜索算法,能够在有效的时间内搜索到最优或次最优的解,已经 被很好的应用在代谢组学中的标志物的发现中。遗传算法(Goldberg,D.Ε.,1989,Reading, MA :Addison_Wesley)随机产生初始种 群,通过反复的选择、交叉、变异操作,不断提高种群中个体的质量,最后收敛到最优解。在 处理肝病数据时采用SVM分类器的10倍交叉验证准确率作为个体的适应度。选择、交叉和变异是遗传算法中主要的进化操作。选择操作从父代个体中选择出 与父代个体相同个数的个体,进行交叉操作;选择操作以适应度高的个体被选择到的概率 比较大、适应度低的个体被选择到的概率比较小为指导思想,这样非常差的个体就会被淘 汰掉,该个体包含的信息不会进入到下一代中,如滚轮选择方法。选择操作体现了进化的思 想。交叉操作是两个父代的个体通过交换这两个个体的某些位产生出两个新的个体,以限制遗传材料的丢失,其中的单点交叉是指随机的产生一个小于染色体长度的整数,以染色 体中该位为限,分别交换两个父代个体中前面的两部分形成新的个体。变异操作是把某个 染色体中的一位或多位变成本个体中不含有的特征,变异操作使得没有在当前种群中的特 征有机会进入到染色体中,可以从一定程度上增加种群的多样性和搜索空间,防止过早的 收敛。遗传算法对初始种群依赖能力很强,在迭代过程中,随着不断的进化,种群的多样 性不断的降低,容易陷入局部最优。因此为提高遗传算法的性能,研究者从种群的规模,遗 传操作,精英策略,选择策略等方面对遗传算法进行研究。比如自适应交叉和变异操作(Chen,L. ;McPhee, J. ;& Yeh,W. W. -G. Advances in Water Resources, 2007 30 (5),1082-1093.),根据染色体的特性来调节交叉和变异的概 率,降低种群中“好“的个体(适应度高的个体)的交叉概率,增大适应度低的个体交叉操 作的概率,以保证适应度高的个体有更大的概率遗传到下一代中;改进种群的结构,采用多 种群来得到特征子集,相邻种群之间设定共享的个体,在进化过程中,相邻子种群之间通过 共享的个体实现信息的传递,一定程度上避免早熟。本专利技术采用多种群并行进化进行特征度量,将多个种群组织成一双向循环链表。 在进化的过程中,相邻种群之间可以进行遗传信息传递。但遗传信息的传递不是通过共享 个体实现的,而是通过一定概率从相邻种群中采用滚轮方法选择部分个体完成,交叉操作 的父代既可以来自于本种群,同时也以一定的概率来自于相邻的两个种群。因此有效的提 高了种群个体的多样性,避免陷入局部最优。在采用该方法处理肝病数据时,得到了理想的 结果,发现了肝病各阶段的特异性物质。
技术实现思路
本专利技术的目的是提供一种采用链状多种群的遗传算法从体液代谢轮廓中筛选肝 病标志物的方法,所述的新方法基于分析化学方法及代谢组学技术测定体液中小分子代谢 轮廓,然后采用该改进的遗传算法从得到的数据中选择出潜在的标志物。该方法克服了遗 传算法的陷入局部最优的缺点,在特征筛选过程中,筛选的结果准确,特征子集小,误差率 小,结果稳定,筛选的模型参数及优化的结果全面,适应于高维数据集特征的筛选,可以广 泛的应用于化学分析、医学等领域。本专利技术采用的技术方案如下一种采用链状多种群的遗传算法从体液代谢轮廓筛选肝病标志物的方法,采用液 相色谱质谱联用仪对体液(包括血液,尿液等)代谢物进行分析得到代谢轮廓,把得到的匹 配好的数据作为改进遗传算法的输入数据,执行遗传算法,得到特征重要性度量结果,筛选 出肝病各个阶段肝炎,肝硬化和肝癌的特异性标志物,包括以下步骤1.获取研究对象血液样本。血样为清晨餐前空腹血液(血浆或血清均可),采集后于4°C静置半小时、9000g条 件下离心15分钟取上清后立即储存于-80°C的冰箱中备用。2.血样预处理将样品室温解冻。取50 μ L血样加入200 μ L乙腈,剧烈震荡后与 4°C静置10分钟,然后在4°C下以15000g离心10分钟,取上清4 μ L进样。3.样本分析色谱分析采用的是安捷伦1200系列快速分辨液相色谱,液相色谱柱采用的是C18 柱,质谱分析采用的是安捷伦6510四极杆-飞行时间质谱。4.血液小分子代谢物轮廓获取利用软件从原始数据中提取化合物信息,并计算 准确分子量。并做色谱峰匹配。匹配后的数据经过归一化以减少系统误差。5.采用液相色谱质谱联用仪对肝炎,肝硬化和肝癌患者体液中的代谢物进行分析 得到代谢轮廓,采用链状多种群的遗传算法对代谢组数据分析,度量特征的重要性,筛选出 肝炎,肝硬化,肝癌三阶段的特异性标志物。6.将肝炎,肝硬化和肝癌病人的代谢轮廓数据作为链状多种群遗传算法的输入 数据,根据原始数据中包含的特征个数,设定遗传算法的子种群个数。同时设置链状多种 群遗传算法的其他的参数值,包括相邻种群之间在选择过程中,从邻居节点得到个体的概 率以及遗本文档来自技高网
...

【技术保护点】
一种采用链状多种群的遗传算法从体液代谢轮廓中筛选肝病标志物的方法,采用液相色谱质谱联用仪对肝炎,肝硬化和肝癌患者体液中的代谢物进行分析得到代谢轮廓,采用链状多种群的遗传算法对代谢组数据分析,度量特征的重要性,筛选出肝炎,肝硬化,肝癌三阶段的特异性标志物,其特征在于:链状多种群的遗传算法包括三方面的内容:多种群间的组织结构,进化时的选择策略,一种适合指定染色体长度编码方式的交叉操作;A.种群结构本算法采用循环双向链表组织管理并行的多个种群;链表中的每个节点代表一个子种群,每个子种群与两个种群左右相邻;这种结构更类似与现实世界中的情况,整个世界由许多较小的群体组成,在这些小群体中的两个个体之间进行进化的概率大,而种群之间的个体产生新个体的概率小,但是存在发生的可能性;B.选择策略传统的遗传算法进化过程中,用于进化操作的父代个体来自本种群,产生出下一代与父代相同个数的新个体;遗传算法可能陷入局部最优,从而导致过早收敛;本算法根据种群组织结构,提出了一种新的选择策略,来避免陷入早熟的情况;具体:对子种群a,设在双向循环链表中它的两个相邻的种群为b,c,在进行选择操作时,依据不同的概率从三个子种群中产生种群a中用于进化的个体;从a种群中选择的概率比较大,而从b,c两个相邻种群中产生的个体的概率相对较小;而对于距离a更远的子种群,也存在从中被选到个体的情况,在本实验中,只采用了从相邻的两种群中选择;通过采用这种策略,种群之间存在了信息的交互,提高了种群的多样性;C.交叉操作本算法中每个染色体代表一个属性子集,其包含的属性个数相同;设染色体长度为l,那么种群中每个染色体均包含l个属性;在进行交叉操作时,为提高种群中个体的多样性,提出了一种随机交叉操作方法:两个父代个体进行交叉操作产生两个新个体,新个体中的遗传信息由两部分组成,一部分是两个父代个体中的相同属性,另一部分由两个父代个体中的不同特征随机交叉组合产生。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林晓惠李红尹佩源许国旺
申请(专利权)人:大连理工大学
类型:发明
国别省市:91

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1