人类常见病遗传风险评估方法技术

技术编号:7304875 阅读:301 留言:0更新日期:2012-04-29 08:07
本发明专利技术公开了一种人类常见病遗传风险评估方法,建立一个较大的病例——正常人环境资料和遗传信息支持数据库,然后通过关联分析,找出与疾病关系比较密切的风险因子,再对待风险评估者,搜索数据库,找出与其最相似若干个样本。统计这些样本的患病概率。作为该人的患病风险概率。若其风险很大/很小,则作出患病/健康的预测。本发明专利技术不需要对疾病机理有所假设,特别适用于多因子复杂疾病;对风险的评估准确性高;可扩展性好,即随着样本库的增加,风险评估的准确性能持续提高;算法实现容易,速度快。

【技术实现步骤摘要】

本专利技术涉及一种涉及生物医药领域的方法,尤其是一种。
技术介绍
目前对于疾病风险评估主要技术是逻辑回归Logistic Regression,缩写为LR。LR的简要模型如下I-P i其中P为个体患病概率,Xi为各种风险因素,例如基因缺陷、不良生活习惯等。Bi和b都是回归系数。该内容在以下参考文献中有详细描述Hilbe,Joseph Μ. (2009). Logistic Regression Models. Chapman & Hall/CRC Press. ISBN 978-1-4200-7575-5。在LR模型中,事实上假定了 1.各个风险因子互相独立;2.这些风险因子之间没有交互作用。而现实的情况常常是1.风险因子之间有相关性,例如所谓的“烟酒不分家”,吸烟的人更有可能饮酒;2.风险因子之间有交互作用,例如先天性过敏体质的人,在花粉刺激下会导致哮喘。 而两个风险因子单独作用却不易导致哮喘。因此,传统的LR模型无法很好的在现实条件下进行患病综合风险评估。随着基因检测技术的进步与普及,如何利用检测到的个人基因信息结合环境暴露情况来评估特定疾病的患病风险已经成为人们关注的热点。现有的逻辑回归的方法并非为患病风险评估定制,无论应用的可行性与风险评估的准确性都无法满足实际需求。疾病风险评估有其自身的特点疾病特别是复杂疾病牵涉到的因子很多,而且其结果不是个因子的简单累加,使得难以对其建模,从而使得逻辑回归方法效果欠佳。
技术实现思路
本专利技术所要解决的技术问题是提供一种,能够结合疾病风险评估这一特点,发展出一种能充分利用个人基因信息以及环境暴露情况,但又独立于对疾病机理假设的通用方法来评估患病风险。为解决上述技术问题,本专利技术的技术方案是,包括如下步骤建立一个数据库,该数据库需要包含健康人与病人的流行病学资料,以及在若干遗传相关位点上的基因分型资料;对于以上资料/变量,根据其与疾病的相关性排序,重要的变量列在前面; 对于一个待检测个体,首先获取其上述各个资料,作为风险评估的依据;依据变量的重要程度进行数据库匹配比较数据库中的某样本与待检测样本的第一个变量,如果匹配则继续比较第二个,第三个,直到无法匹配为止;选择数据库中与待检测样本最为匹配的前多个样本;根据这些最匹配的数据库样本中的患者比例估计待检测样本的患病概率,并用群体患病率校正数据库样本采集的偏差。本专利技术通过上述方法,不需要对疾病机理有所假设,特别适用于多因子复杂疾病; 对风险的评估准确性高;可扩展性好,即随着样本库的增加,风险评估的准确性能持续提高;算法实现容易,速度快。附图说明图1为本专利技术中数据库的示意图。 具体实施例方式本专利技术公开了一种一种,结合图1所示,包括如下步骤建立一个数据库,该数据库需要包含健康人与病人的流行病学资料,以及在若干遗传相关位点上的基因分型资料;对于以上资料/变量,根据其与疾病的相关性排序,重要的变量列在前面; 对于一个待检测个体,首先获取其上述各个资料,作为风险评估的依据; 依据变量的重要程度进行数据库匹配比较数据库中的某样本与待检测样本的第一个变量,如果匹配则继续比较第二个,第三个,直到无法匹配为止;选择数据库中与待检测样本最为匹配的前多个样本;根据这些最匹配的数据库样本中的患者比例估计待检测样本的患病概率,并用群体患病率校正数据库样本采集的偏差。本专利技术还包括不断扩大数据库的样本量以及变量数目。本专利技术相对于现有的Logisitic Regression方法1.本专利技术可以对任意多个风险因子的总体效应进行评估,而现有的LR方法只能做数个风险因子的总体效应评估;2.本专利技术在对待监测个体的鉴别率上,本方法显著的好于传统的LR方法。由于前一条原因,在比较两种方法评估效果的时候,无法使用多达上百个因子的实际数据,这里只展示一次模拟4个因子数据的结果本方法预测健康预测患病正确率健康37013074. 0%患病5144989. 8%总计81. 9%LR方法预测健康预测患病正确率健康32917165. 8%患病14535571. 0%总计68. 4%3.本专利技术的实际鉴定正确率依赖于其支持数据库,随着数据库质量和数量提高,鉴定正确率可以相应的不断提高。 综上所述,本专利技术建立一个较大的病例——正常人环境资料和遗传信息支持数据库,然后通过关联分析,找出与疾病关系比较密切的风险因子,再对待风险评估者,搜索数据库,找出与其最相似若干个样本。统计这些样本的患病概率。作为该人的患病风险概率。若其风险很大/很小,则作出患病/健康的预测。本专利技术不需要对疾病机理有所假设, 特别适用于多因子复杂疾病;对风险的评估准确性高;可扩展性好,即随着样本库的增加, 风险评估的准确性能持续提高;算法实现容易,速度快。权利要求1.一种,其特征在于,包括如下步骤建立一个数据库,该数据库需要包含健康人与病人的流行病学资料,以及在若干遗传相关位点上的基因分型资料;对于以上资料/变量,根据其与疾病的相关性排序,重要的变量列在前面; 对于一个待检测个体,首先获取其上述各个资料,作为风险评估的依据; 依据变量的重要程度进行数据库匹配比较数据库中的某样本与待检测样本的第一个变量,如果匹配则继续比较第二个,第三个,直到无法匹配为止;选择数据库中与待检测样本最为匹配的前多个样本;根据这些最匹配的数据库样本中的患者比例估计待检测样本的患病概率,并用群体患病率校正数据库样本采集的偏差。2.根据权利要求1所述的,其特征在于,还包括不断扩大数据库的样本量以及变量数目。全文摘要本专利技术公开了一种,建立一个较大的病例——正常人环境资料和遗传信息支持数据库,然后通过关联分析,找出与疾病关系比较密切的风险因子,再对待风险评估者,搜索数据库,找出与其最相似若干个样本。统计这些样本的患病概率。作为该人的患病风险概率。若其风险很大/很小,则作出患病/健康的预测。本专利技术不需要对疾病机理有所假设,特别适用于多因子复杂疾病;对风险的评估准确性高;可扩展性好,即随着样本库的增加,风险评估的准确性能持续提高;算法实现容易,速度快。文档编号G06F19/00GK102419791SQ20101029449公开日2012年4月18日 申请日期2010年9月28日 优先权日2010年9月28日专利技术者王一, 王颖, 金力, 黄薇 申请人:上海人类基因组研究中心, 上海南方基因科技有限公司, 复旦大学本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:王一王颖金力黄薇
申请(专利权)人:上海人类基因组研究中心复旦大学上海南方基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术