本发明专利技术提供了一种高危型HPV型别和宫颈癌前病变阶段间关系的计算方法和装置,该方法包括:对通过薄层细胞学检查(TCT)和HPV基因分型检测得到的M种宫颈癌前病变阶段下的N种高危型HPV感染数据进行分类整理,获得不同感染方式下的HPV感染预处理数据;基于HPV预处理数据作聚类分析,并基于聚类分析结果获取不同高危型HPV的相似性;基于所述的单重感染和多重感染方式下的HPV预处理数据按泊松分布建模,进行回归分析,获取HPV单重感染和多重感染对宫颈癌前病变的影响比重。该方法结合聚类技术、统计分析方法,对生物数据进行挖掘,发现不同高危型HPV与不同宫颈癌前病变阶段间的关系。
Calculation method and device of the relationship between high risk HPV type and cervical precancerous lesion stage
【技术实现步骤摘要】
高危型HPV型别和宫颈癌前病变阶段关系的计算方法及装置
本专利技术涉及一种结合生物医学数据,利用计算机数据挖掘技术和统计分析技术对不同高危型HPV型别和宫颈癌前病变阶段关系进行挖掘研究的方法,尤其是涉及一种高危型HPV型别和宫颈癌前病变阶段关系的计算方法及装置。
技术介绍
宫颈癌作为威胁全球女性健康的第四大常见肿瘤,已被研究证实主要由人乳头瘤病毒(HPV)引起。据报告估计,与HPV感染相关的癌症病例占全球新发癌症总数的4.5%,其中宫颈癌在这些HPV感染相关癌症中的占比又高达83%,对女性健康(尤其在发展中国家)造成了极大的威胁。流行病学相关研究表明N种HPV类型(16,18,31,33,35,39,45,51,52,56,58,59和68型)根据其引发宫颈癌变的可能性而被归为高危型HPV(HR-HPV)。由于宫颈癌变是一个多因素、多步骤的缓慢的渐进过程,大约持续感染HR-HPV的癌变发生时间约为20年,因此宫颈癌是唯一可以通过HPV分型筛查早期预防和治疗的恶性肿瘤,对改善患者预后具有重要作用。目前,我国已成为宫颈癌高发国家之一,HPV感染在女性中较为普遍,因此在我国开展高危型HPV感染的研究具有十分重要的意义。从国内外研究来看,在宫颈的HPV数据收集层面上,液基细胞学检查(LCT)和(TCT)是细胞水平上常见的两种宫颈鳞状上皮内病变的宫颈筛查方法,但它们并不擅长检测特定的HR-HPV基因型感染;而HPV基因分型方法不仅比LCT和TCT方法更容易检测到特定的HPV基因型,而且能够区分单一感染和多重感染,但该方法的高灵敏度可能会导致过度诊断。因此,为了兼顾灵敏度和准确性,在收集数据阶段将HR-HPV基因分型筛查与细胞学诊断相结合,能有效减少错误诊断,避免过度治疗。例如,在用LCT/TCT和HR-HPV基因分型方法收集样本数据后,Catteau等人计算了比利时女性在不同癌前病变阶段分组下总的N种HR-HPV感染流行率;而Ying等人则以总的癌前病变阶段中不同HR-HPV型别流行率来刻画北京地区主要的感染型别分布情况。然而,由于在同一种癌前病变阶段中有些HR-HPV型别的流行率会明显高于其他的HR-HPV型别;而且对同一种HR-HPV而言,该亚型在不同的癌前病变阶段分组中的流行率也并不一致,因此用总的癌前病变阶段数据来描述HR-HPV型别与癌前病变阶段间的感染关系存在争议。另一方面,在HPV多重感染层面上,尚不清楚多重感染(两种或两种以上HPV型别感染)是否比单重感染(只感染一种HPV型别)对宫颈癌变影响的风险性更大。很多学者对此进行了研究,例如,Chaturvedi等人研究了25种HPV基因型的共同感染模式,并计算每个基因型与24个其他基因型组合感染的优势比(OR),其结果表明多重感染的患病风险与个体类型估计风险的总和相接近,几乎没有HPV基因型协同相互作用的证据;然而,Ying等人和Dickson等人的研究结果却均认为多重感染的女性的癌变风险明显高于单重感染的女性。可能由于这些不同的多重感染研究收集到的HPV类型、患者年龄等相关影响因素存在差异,从而导致了多重感染引起宫颈病变风险的不一致结论。此外,以往的大多数研究主要使用队列分析方法而没有考虑使用回归模型来研究不同的HPV型别在不同癌前病变阶段下的单重感染和多重感染的影响比重。
技术实现思路
鉴于上述提出的研究不足,本专利技术实施范例提供一种研究不同高危型人乳头瘤病毒(HPV)和不同宫颈癌前病变阶段间关系的方法,所述方法包括:步骤1、结合TCT和HPV基因分型检测方法,从临床上收集到的M种宫颈癌前病变阶段下的N种高危型HPV感染数据进行分类整理,获得不同感染方式(包括全部感染、单重感染和多重感染)下的HPV感染预处理数据,并根据不同的癌前病变阶段对感染不同的高危型HPV的流行率进行统计;步骤2、基于所述的全部感染和单重感染方式下的HPV预处理数据作聚类分析,并基于聚类分析结果获取不同高危型HPV的相似性;步骤3、基于所述的单重感染和多重感染方式下的HPV预处理数据按泊松分布建模,进行回归分析,获取HPV单重感染和多重感染对宫颈癌前病变的影响比重。所述回归分析模型为公式1,具体为:其中,λ表示结果变量(感染患者数)的均值,X1…Xp表示预测变量(不同高危型HPV类型的单重感染和多重感染),β0…βp是回归系数,由样本估计而得。优选地,所述步骤2进一步包括:步骤201、分别计算全部感染数据集和单重感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变阶段中N种高危型HPV的最佳聚类个数,其中最佳聚类个数通过R语言包的NbClust包进行计算参考;步骤202、根据步骤201得到相对应的最佳聚类个数后,使用K-means聚类算法对全部感染数据集和单重感染数据集中的N种高危型HPV进行聚类分析得到不同数据集下的HPV感染相似性;优选地,步骤202所述的聚类分析的具体过程包括:步骤2021、基于步骤201分别得到全部感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变组中不同高危型HPV的最佳聚类个数后,使用R包中的K-means算法分别聚类这4个病变分组中的N种高危型HPV,得到不同的病变阶段下的HPV聚类结果;步骤2022、整合步骤2021中得到的四组癌前病变阶段的聚类结果,得到整体癌前病变阶段下N种高危型HPV感染趋势的相似性;步骤2023、基于步骤201分别得到单重感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变组中不同高危型HPV的最佳聚类个数后,使用R包中的K-means算法分别聚类这4个病变分组中的N种高危型HPV,得到不同的病变阶段下的HPV聚类结果。步骤2024、整合步骤2023中得到的四组癌前病变阶段的聚类结果,得到整体癌前病变阶段下N种高危型HPV感染趋势的相似性;另外,步骤2021和步骤2023中的K-means算法采用欧几里得距离来测量两个观测值间的距离,它的计算距离公式为公式2,具体为:其中,dij表示第i个观测对象和第j个观测对象间的距离,p表示观测对象的变量数,xip和xjp分别表示第i个观测对象的第p个变量的值和第j个观测对象的第p个变量的值。优选地,所述步骤3中的回归分析,具体通过以下步骤进行:步骤301、通过泊松分布建立回归模型;步骤302、基于步骤301得到的回归模型和极大似然估计法,在统计应用软件R3.4.3中推导各个参数的估计值;步骤303、由于在泊松回归中,变量以条件均值的对数函数log(λ)来建模,为了在因变量的初始尺度(感染人数,而非感染人数的对数)上解释回归系数,对步骤302得到的参数估计结果作指数化处理,得到更易于解释的参数估计结果;步骤304、基于统计假设检验的标准方法,在统计应用软件R3.4.3中,使用plot()算法生成评价模型拟合情况的评价结果,来对所述的步骤3建模部分进本文档来自技高网...
【技术保护点】
1.高危型HPV型别和宫颈癌前病变阶段关系的计算方法,所述方法包括:/n步骤1、对使用TCT和HPV基因分型检测方法从临床上收集到的M种宫颈癌前病变阶段下的N种高危型HPV感染数据进行分类整理,获得不同感染方式(包括全部感染、单重感染和多重感染)下的HPV感染预处理数据,并根据不同的癌前病变阶段对不同的高危型HPV的流行率进行统计;/n步骤2、基于所述的全部感染和单重感染方式下的HPV预处理数据作聚类分析,并基于聚类分析结果获取不同高危型HPV的相似性;/n步骤3、基于所述的单重感染和多重感染方式下的HPV预处理数据按泊松分布建模,进行回归分析,获取HPV单重感染和多重感染对宫颈癌前病变的影响比重。/n所述回归分析模型为公式1,具体为:/n
【技术特征摘要】
1.高危型HPV型别和宫颈癌前病变阶段关系的计算方法,所述方法包括:
步骤1、对使用TCT和HPV基因分型检测方法从临床上收集到的M种宫颈癌前病变阶段下的N种高危型HPV感染数据进行分类整理,获得不同感染方式(包括全部感染、单重感染和多重感染)下的HPV感染预处理数据,并根据不同的癌前病变阶段对不同的高危型HPV的流行率进行统计;
步骤2、基于所述的全部感染和单重感染方式下的HPV预处理数据作聚类分析,并基于聚类分析结果获取不同高危型HPV的相似性;
步骤3、基于所述的单重感染和多重感染方式下的HPV预处理数据按泊松分布建模,进行回归分析,获取HPV单重感染和多重感染对宫颈癌前病变的影响比重。
所述回归分析模型为公式1,具体为:
其中,λ表示结果变量(感染患者数)的均值,X1…Xp表示预测变量(不同高危型HPV类型的单重感染和多重感染),β0…βp是回归系数,由样本估计而得。
2.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括:
步骤201、分别计算全部感染数据集和单重感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变阶段中N种高危型HPV的最佳聚类个数,其中最佳聚类个数通过R语言包的NbClust包进行计算参考;
步骤202、根据步骤201得到相对应的最佳聚类个数后,使用K-means聚类算法对全部感染数据集和单重感染数据集中的N种高危型HPV进行聚类分析得到不同数据集下的HPV感染相似性。
3.根据权利要求2所述的方法,其特征在于,所述步骤202的聚类过程具体包括:
步骤2021、基于步骤201分别得到全部感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变组中不同高危型HPV的最佳聚类个数后,使用R包中的K-means算法分别聚类这4个病变分组中的N种高危型HPV,得到不同的病变阶段下的HPV聚类结果;
步骤2022、整合步骤2021中得到的四组癌前病变阶段的聚类结果,得到整体癌前病变阶段下N种高危型HPV感染趋势的相似性;
步骤2023、基于步骤201分别得到单重感染数据集中Normal组、ASCUS组、LSIL组和HSIL组这四个癌前病变组中不同高危型HPV的最佳聚类个数后,使用R包中的K-means算法分别聚类这4个病变分组中的N种高危型HPV,得到不同的病变阶段下的HPV聚类结果。
步骤2024、整合步骤2023中得到的四组癌前病变阶段的聚类结果,得到整体癌前病变阶段下N种高危型HPV感染趋势的相似性;
另外,步骤2021和步骤2023中的K-means算法采用欧几里得距...
【专利技术属性】
技术研发人员:章乐,吴雯婷,刘宏图,
申请(专利权)人:四川大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。