本发明专利技术公开了一种肝硬化标志物的模型构建方法,通过利用肝硬化患者和健康人员进行基因序列的测定,然后进行相同的窗口划分处理,通过对健康人员进行数据处理后得到用于划分肝硬化的阈值,然后将该阈值代入至肝硬化患者的数据处理过程中,从而筛选得到了标志物chr6_115000001_120000000;然后进行算法构建模型,进行多次迭代训练,从而获得最佳的肝硬化标志物模型,在后续的处理过程中只需将相关的受检者chr6_115000001_120000000处片段分布信息代入到该模型内,就能反馈受检者的肝部信息,为专业医生提供信息支持。为专业医生提供信息支持。为专业医生提供信息支持。
【技术实现步骤摘要】
一种肝硬化标志物的模型构建方法
[0001]本专利技术涉及医疗领域,尤其涉及一种肝硬化标志物的模型构建方法。
技术介绍
[0002]早期肝硬化病人通过病因治疗(如乙肝病毒治疗),生活习惯改善(如酒精性脂肪肝导致的早期肝硬化)等可以有效阻止肝硬化的恶性发展或逆转肝脏损伤以达到长期生存甚至治愈的效果。因此肝硬化的早发现早预防早治疗,防止疾病进展,避免临床失代偿性并发症的出现是肝硬化治疗的基本原则。但由于肝脏具有较强的代偿性,早期肝硬化往往并不表现出明显的临床症状,而到了症状较明显时,往往已到了肝硬化晚期。因此发现早期肝硬化的诊断标志物具有良好的临床意义及应用价值。
[0003]临床上用于确诊肝硬化的手段主要依靠超声影像并由肝穿刺进行确诊。超声诊断的灵敏度较低,而肝穿刺对患者的肝脏有损伤,存在风险,不易推广,导致很多患者直到肝硬化失代偿期才被确诊。最近有研究发现血清的HA、CG、PⅢNP、PCⅢ、CⅣ和LN等在肝硬化病人中升高,但由于其敏感度与特异性有待提高,目前尚未被临床采用作为早期肝硬化的指标;因此急需发现新的早期肝硬化标志物。
技术实现思路
[0004]针对上述技术中存在的不足之处,本专利技术提供一种肝硬化标志物的模型构建方法,通过进行全基因组测序,进行对比后获得标志物信息,然后进行相关的模型训练,得到最佳检测模型,在后续的处理过程中只需要将标志物片段分布信息输入到检测模型内即可快速判断受检者肝硬化情况。
[0005]为实现上述目的,本专利技术公开了一种肝硬化标志物的模型构建方法,包括以下步骤:S1:对DNA片段进行提取和测序,获得cfDNA片段分布信息;S2:对cfDNA进行长度窗口切割划分,计算在该长度窗口内短、长片段分布比值,视为特征值;S3:对特征值进行方差计算,获得肝硬化数据;S4:对肝硬化数据进行差异分析,选择代表性区域chr6_115000001_120000000作为标志物;S5: 利用机器学习算法对数据进行模型训练,进行多次迭代后获得最优模型,将全基因组数据进行代入后,得到肝硬化标志物的检测结果。
[0006]作为优选,在步骤S1中,首先提取肝硬化人群血浆中游离DNA,进行文库建立,并进行全基因组测序,得到原始的下机数据;将下机数据中的低质量、短序列、接头区域的数据去除,得到过滤后数据,获得cfDNA片段分布信息。
[0007]作为优选,在步骤S2中,对人类参考基因组和cfDNA进行5Mbp长度窗口的切割划分,计算所有样品每个5Mb窗口内短片段与长片段的分布比值,视为一个特征值。
[0008]作为优选,在步骤S3中,对正常人群的片段分布特征值进行方差计算,并且按照从小到大进行排序,以3/4位的值作为阈值,大于该阈值的肝硬化样品定义为肝硬化类似肿瘤,反之定义为肝硬化类似正常,获得相关的肝硬化数据。
[0009]作为优选,在步骤S4中,对相关的肝硬化数据进行计算差异倍数,最终选择差异大,有代表区域chr6_115000001_120000000作为标志物。
[0010]作为优选,在步骤S5中,提取肝硬化样品在染色体chr6_115000001_120000000区域片段分布信息,计算得到特征值,利用机械学习算法XGBoots对数据进行模型训练和验证,计算模型灵敏度和特异性;通过多次迭代学习后,得到最优模型。
[0011]本专利技术的有益效果是:与现有技术相比,本专利技术提供的肝硬化标志物的模型构建方法,通过利用肝硬化患者和健康人员进行基因序列的测定,然后进行相同的窗口划分处理,通过对健康人员进行数据处理后得到用于划分肝硬化的阈值,然后将该阈值代入至肝硬化患者的数据处理过程中,从而筛选得到了标志物chr6_115000001_120000000;然后进行算法构建模型,进行多次迭代训练,从而获得最佳的肝硬化标志物模型,在后续的处理过程中只需将相关的标志物片段分布信息代入到该模型内,就能反馈出受检者肝硬化情况。
附图说明
[0012]图1为本专利技术的步骤流程图;图2为本专利技术的肝硬化类似正常和肝硬化类似肿瘤的片段分布图谱;图3为本专利技术的肝硬化预测模型的性能图。
具体实施方式
[0013]为了更清楚地表述本专利技术,下面结合附图对本专利技术作进一步地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下获得的所有其他实施例,都属于本专利技术保护的范围。
[0014]在申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为使本领域任何技术人员能够实现和使用本专利技术,给出了以下描述。在以下描述,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认到,在不使用这些特定细节的情况下也可以实现本专利技术。在其它实例中,不会对已知的结构和过程进行详细阐述,以避免不必要的细节使本专利技术的描述变得晦涩。因此,本专利技术并非旨在限于所示的实施例,而是与符合本申请所公开的原理的最广范围相一致。
[0015]请参阅图1至图3,本专利技术公开了一种肝硬化标志物的模型构建方法,包括以下步骤:S1:对DNA片段进行提取和测序,获得cfDNA片段分布信息;S2:对cfDNA进行长度窗口切割划分,计算在该长度窗口内短、长片段分布比值,视为一个特征值;S3:对特征值进行方差计算,获得肝硬化数据;S4:对肝硬化数据进行差异分析,选择代表性区域chr6_115000001_120000000作为标志物;S5: 利用机器学习算法对数据进行模型训练,进行多次迭代后获得最优模型,将全基因组数据进行代入后,得到肝硬化标志物的检测结果。在本实施例中,对肝硬化患者两亚组进行cfDNA片段分布信息的获取,从而找到两者所存在的差距,得到标志
物,这样在后续的检测过程中就可以直接检测该标志物片段分布信息,从而作为是否患有肝硬化的评判标准依据,相比较与现有的其他方式,本申请依赖于基因序列,从而确保检测的准确性更强,能够从源头判断是否出现了肝硬化,从而能够在早期就能进行发现,预警性更强。
[0016]为了实现上述目的,在步骤S1中,首先提取肝硬化人群血浆中游离DNA,进行文库建立,并进行全基因组测序,得到原始的下机数据;将下机数据中的低质量、短序列、接头区域的数据去除,得到过滤后数据,获得cfDNA(游离DNA)片段分布信息。在本实施例中,采用细胞游离DNA,在确保检测准确性的同时不会对人体本身的健康造成任何影响,因为细胞游离DNA是在血液中游离的DNA,是从身体的细胞或者白血球破裂释放出来的,一段时间后会被自身代谢清理掉,在具体的操作过程中,首先对外周血进行采集,然后利用离心法分离得到血浆,对分离得到的血浆进行cfDNA进行抽提,然后就可以进行全基因组测序,因为所得到的数据信息过于庞大,不方便进行后续的处理过程,且存在较多无意义的数据信息,因此就需要实现对数据进行去除,消除掉无意义的数据信息,仅保留有意义的数据。
[0017]在本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种肝硬化标志物的模型构建方法,其特征在于,包括以下步骤:S1:对DNA片段进行提取和测序,获得cfDNA片段分布信息;S2:对cfDNA进行窗口切割划分,计算在该长度窗口内短、长片段分布比值,视为特征值;S3:对特征值进行方差计算,获得肝硬化数据;S4:对肝硬化数据进行差异分析,选择代表性区域chr6_115000001_120000000作为标志物;S5: 利用机器学习算法对数据进行模型训练,进行多次迭代后获得最优模型,将全基因组数据进行代入后,得到肝硬化标志物的检测结果。2.根据权利要求1所述的肝硬化标志物的模型构建方法,其特征在于,在步骤S1中,首先提取肝硬化人群血浆中游离DNA,进行文库建立,并进行全基因组测序,得到原始的下机数据;将下机数据中的低质量、短序列、接头区域的数据去除,得到过滤后数据,获得cfDNA片段分布信息。3.根据权利要求1所述的肝硬化标志物的模型构建方法,其特征在于,在步骤S2中,对人类参考基因组和cfDNA进行5M...
【专利技术属性】
技术研发人员:崔品,周小舟,
申请(专利权)人:深圳市中医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。