【技术实现步骤摘要】
用于检测MSI的微卫星位点、其筛选方法及应用
[0001]本专利技术涉及高通量测序数据分析领域,具体而言,涉及一种用于检测MSI的微卫星位点、其筛选方法及应用。
技术介绍
[0002]微卫星不稳定(MSI)是错配修复(MMR)缺失的一种表型表现,并作为一种生物标记物越来越多地应用到临床肿瘤诊断和治疗中。相比较基于PCR的MSI检测,基于NGS 的MSI检测有在临床上有多项优势:可以在定制的靶向区域(targeted panel)同时进行MSI 检测和其他的检测,比如SNV。另外,基于PCR检测的MSI检测对样本的肿瘤纯度要求偏高(>20%), 基于NGS 的MSI检测由于算法的优化,可以降低肿瘤含量的要求。
[0003]基于NGS的MSI检测方法发展迅速,目前常规的去重策略是“基于碱基质量值总和最高”,软件mSINGS 和MSIsensor-pro等使用的就是基于该策略的Picard,而这种去重策略是否适合MSI这种单碱基重复序列,也没有相关的比较和研究。同时,选择合适的位点对检测准确性有重要影响。
[0004]然而,采用现有的方法对MSI检测时,仍存在检测准确性低的缺陷。
技术实现思路
[0005]本专利技术的主要目的在于提供一种用于检测MSI的微卫星位点、其筛选方法及应用,以解决现有技术检测结果准确性低的问题。
[0006]为了实现上述目的,根据本专利技术的一个方面,提供了一种用于检测MSI的微卫星位点的筛选方法,该筛选方法包括:选取符合第一条件的微卫星位点, ...
【技术保护点】
【技术特征摘要】
1.一种用于检测MSI的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:选取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.≤15bp的单碱基重复序列;b.所述单碱基重复序列为A或T的重复序列;c.与所述单碱基重复序列的两翼序列相似值低于相似阈值;获取多个微卫星稳定样本的测序数据,并从每个所述微卫星稳定样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型频率;从所述第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,所述第二条件指包括:1)频率最高的所述重复单元的类型与参考序列一致;2)在建库测序过程中的捕获效率高于捕获阈值;3)在人群中的多态性低于5%;采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组,统计所述第二位点集中每个所述微卫星位点在所述阴性样本组和所述阳性样本组之间deletion ratio 的差异性,并保留所述deletion ratio存在显著差异的微卫星位点。2.根据权利要求1所述的筛选方法,其特征在于,从人类参考基因组序列或靶向基因捕获序列中提取符合所述第一条件的微卫星位点,记作第一位点集。3.根据权利要求2所述的筛选方法,其特征在于,从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点;针对每个所述微卫星位点,计算所述7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与所述A或T单碱基重复序列的相似值;选取所述相似值低于相似阈值的微卫星位点,作为所述第一位点集。4.根据权利要求3所述的筛选方法,其特征在于,所述相似值按如下公式计算:∑(d2+1-d1)/d2,其中d1是所述左右两端设定长度的序列中与微卫星位点碱基相同的碱基到所述微卫星位点的距离,d2为所述设定长度。5.根据权利要求4所述的筛选方法,其特征在于,所述d2为8~12bp。6.根据权利要求4所述的筛选方法,其特征在于,所述d2为10bp。7.根据权利要求3所述的筛选方法,其特征在于,所述相似阈值为1.5~2.5。8.根据权利要求3所述的筛选方法,其特征在于,所述相似阈值为2。9.根据权利要求2所述的筛选方法,其特征在于,获取多个微卫星稳定样本的测序数据,并从每个所述微卫星稳定样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型频率包括:将每个所述微卫星稳定样本的测序数据分别与参考基因组序列进行比对,得到比对结果;从所述比对结果中查找所述第一位点集,并从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的spanning reads,所述spanning reads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads;对属于同一重复序列家族的所述spanning reads进行去重,获得每个重复序列家族的重复单元类型;统计每个所述微卫星位点的每种所述重复单元的类型和每种所述重复单元的类型的
频率。10.根据权利要求9所述的筛选方法,其特征在于,对属于同一重复序列家族的所述spanning reads进行去重,获得每个重复序列家族的重复单元类型包括:从所述比对结果中统计属于同一重复序列家族的spanning reads,并统计所述同一重复序列家族中不同重复单元的类型的数量,选择数量最多的所述重复单元的类型作为所述同一重复序列家族的重复单元的类型,并计入支持所述微卫星位点的所述重复单元的类型的family支持数,计算所述微卫星位点family数目之和,定义为spanning coverage。11.根据权利要求10所述的筛选方法,其特征在于,存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析。12.根据权利要求10所述的筛选方法,其特征在于,支持各所述微卫星位点的各重复单元类型的所述family支持数至少为2个。13.根据权利要求10所述的筛选方法,其特征在于,所述捕获效率以各所述微卫星位点的所述spanning coverage与样本的测序深度的比值来衡量。14.根据权利要求10所述的筛选方法,其特征在于,所述捕获阈值≥0.2。15.根据权利要求1所述的筛选方法,其特征在于,采用非参数检验的方法统计所述第二位点集中每个所述微卫星位点在所述阴性样本组和所述阳性样本组之间deletion ratio的差异性,并保留所述deletion ratio存在显著差异的微卫星位点。16.根据权利要求15所述的筛选方法,其特征在于,所述非参数检验为wilcox test检验。17.根据权利要求16所述的筛选方法,其特征在于,存在显著差异的微卫星位点指 p-value <0.5的所述微卫星位点。18.一种用于检测MSI的基线构建方法,其特征在于,所述构建方法包括:获取多个已知MSS样本的测序数据,并对所述测序数据进行降采样处理,获得不同数据量的MSS样本,统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率;在spanning coverage 达到饱和值的条件下,根据所述每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率,构建不同duplicate ratio水平下各所述微卫星位点的deletion ratio的基线;其中,所述微卫星位点为权利要求1至17中任一项所述的筛选方法所筛选到的用于检测MSI的微卫星位点;每个微卫星位点的所述duplicate ratio即为reads重复率;所述deletion ratio指所述微卫星位点与参考序列相比,长度减少的重复单元类型的family的数目总和与所述spanning coverage的比例。19.根据权利要求18所述的构建方法,其特征在于,构建不同duplicate ratio水平下各所述微卫星位点的deletion ratio的基线包括:计算出所有经过所述降采样处理得到的各所述MSS样本在相同duplicate ratio水平下每个所述微卫星位点的deletion ratio,并去除所述MSS样本中具有多态性的微卫星位点;在不同duplicate ratio(d)水平下,计算出位点k的 deletion ratio平均值mean(k)
(d)以及标准偏差SD(k)(d),duplicate ratio的步长为m;对于每一个duplicate ratio, 来自同一个样本的所述降采样处理后的MSS样本只取一个;对平均值和标准差进行如下任一种处理:(1)采用移动窗口中位值或均值的方式进行平滑处理;(2)构建回归线;(3)构建方程式,从而构建出在不同duplicate ratio水平下的deletion ratio平均值和标准差,作为检测MSI的基线。20.根据权利要求19所述的构建方法,其特征在于,所述m为0.01。21.根据权利要求19所述的构建方法,其特征在于,不同duplicate ratio水平按照如下任意一种方式获得:(1)通过使用软件降采样方式按照设定比例从所述测序数据与参考基因组序列的比对文件提取;(2)通过使用软件经过降采样方式从所述测序数据提取;(3)通过测试不同的duplicate ratio的样本,不经过降采样直接获取。22.根据权利要求21所述的构建方法,其特征在于,按公式I计算所述duplicate ratio,所述公式I为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(I),其中,k代表完全覆盖所述微卫星位点的某个family,n
total,k
是family(k)的spanning reads的数目。23.根据权利要求19所述的构建方法,其特征在于,在去除所述MSS样本中具有多态性的微卫星位点之前,所述构建方法还包括:判断所有所述MSS样本中各所述微卫星位点的多态性。24.根据权利要求23所述的构建方法,其特征在于,通过如下任一方式判断所有所述MSS样本中各所述微卫星位点的多态性:(1)计算频率第一高的重复单元的类型与频率第二高的重复单元的类型,两者的频率的差异是否在第一预定范围内;(2)比较野生型或与reference长度相同的重复单元的类型的频率是否显著低于第二预定范围;(3)比较deletion ratio是否显著高于第三预定范围。25.一种微卫星状态的检测方法,其特征在于,所述检测方法包括:获得待检样本的测序数据并计算所述待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio;若所述微卫星位点的spanning coverage 达到饱和值并且duplicate ratio 大于或等于所述微卫星位点的基线的最低duplicate ratio,则所述微卫星位点通过质控;将所述待检样本在相同duplicate ratio水平下与基线进行比较,所述基线为权利要求18-24中任一项所述的构建方法构建的基线;若所述待检样本的 deletion ratio(d)> mean(d)+n*SD(d),则判定所述微卫星位点
为不稳定;根据如下条件判断所述待检样本的微卫星状态:(1)若通过质控的位点数目n1≥15,不稳定位点的数目为n2,且n2/n1≥a,a≥0.1,则所述待检样本的微卫星状态判断为MSI-H;(2)若通过质控的位点数目n1≥15,不稳定位点的数目为n2,且n2/n1<a,a≥0.1,则所述待检样本的微卫星状态判断为MSS;(3)若通过质控的位点数目n1<15,则所述待检样本的微卫星状态判断为待定;其中,所述微卫星位点为权利要求1至17中任一项所述的筛选方法所筛选到的用于检测MSI的微卫星位点;每个微卫星位点的所述duplicate ratio(d)即为reads重复率;所述deletion ratio指所述微卫星位点与参考序列相比,长度减少的重复单元类型的family的数目总和与所述spanning coverage的比例。26.根据权利要求25所述的检测方法,其特征在于, 所述n为3或者4。27.根据权利要求25所述的检测方法,其特征在于,按公式I计算所述待检样本中每个微卫星位点的duplicate ratio(d)和deletion ratio,所述公式I为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(I),其中,k代表完全覆盖所述微卫星位点的某个family,n
total,k
是family(k)的spanning reads数目。28.一种用于检测MSI的微卫星位点的筛选装置,其特征在于,所述筛选装置包括:第一位点集获取模块,用于选取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.≤15bp的单碱基...
【专利技术属性】
技术研发人员:赵利利,谢泓禹,于佳宁,王小庆,洪媛媛,陈维之,何骥,杜波,
申请(专利权)人:无锡臻和生物科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。