单细胞测序标签识别及鉴定方法、系统、终端及介质技术方案

技术编号:37136876 阅读:12 留言:0更新日期:2023-04-06 21:37
本发明专利技术的单细胞测序标签识别及鉴定方法、系统、终端及介质,采用频度排序和基于灰色关联度预测法微分方程模型的二次建模预测法流程相结合的方式进行目标标签识别及鉴定,具有鉴定结果检出率高、鉴定流程标准化及模块化程度好、可实现自动参数调节与结果优化等优点,同时算法结构可靠、参数灵活性强,且提供参数建模效果可信度更高、综合性能更为优越的单细胞测序标签识别及鉴定流程,显著提高并优化了相关单细胞测序标签识别及鉴定流程的理论基础及实际应用,并有望以此进一步加强单细胞测序技术的进一步应用前景及未来发展。序技术的进一步应用前景及未来发展。序技术的进一步应用前景及未来发展。

【技术实现步骤摘要】
单细胞测序标签识别及鉴定方法、系统、终端及介质


[0001]本专利技术单细胞测序
,特别是涉及一种单细胞测序标签识别及鉴定方法、系统、终端及介质。

技术介绍

[0002]单细胞测序是一种针对单个细胞的新一代测序技术,通过一定技术及手段,获取单个细胞遗传信息并进行数据分析,具有测序范围精确、可获得微环境下细胞序列差异等优点,在近年来生物医药领域尤其肿瘤领域有着广泛使用,正成为近年来相关领域高水平研究及临床应用不可缺少的研究手段之一,如肿瘤亚细胞群、免疫细胞群、临床微生物检测、肿瘤检测等。
[0003]在单细胞测序流程中,基于标签(barcode)的单细胞识别及鉴定流程是相当重要的一步。此过程用若干种不同类型的特异碱基序列标记每个细胞,这种用以区分不同细胞的特异碱基序列标记被称为标签。在此步骤中,提取与鉴定出的可用标签数量会大大影响后续测序与分析过程实际碱基序列数量,从而进一步影响单细胞测序的最终分析结果。
[0004]目前单细胞测序标签识别及鉴定流程中,普遍使用四步法从原始序列文件中计算并鉴定可用标签,即:首先采用编码距离法(如汉明距离等)依次计算出原始序列文件对应的标签碱基序列与标准标签序列间距离;然后将其按照一定规则排列,如频率等;其后按照一定规则,截取排序中一部分标签作为目标标签;最后以截取后标签为基础,按照一定规则选择原始序列文件中一部分作为输出文件,进行后续分析。目前研究及商业领域较为流行的此类鉴定流程绝大部分均基于上述基础,普遍具有鉴定结果偏少、算法结构单一、参数灵活性不强、建模效果难以验证等等缺点。

技术实现思路

[0005]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种单细胞测序标签识别及鉴定方法、系统、终端及介质,用于解决现有技术中的鉴定流程普遍具有鉴定结果偏少、算法结构单一、参数灵活性不强、建模效果难以验证等问题。
[0006]为实现上述目的及其他相关目的,本专利技术提供一种单细胞测序标签识别及鉴定方法,包括:对输入的原始序列文件进行切割,获得一或多个原始序列;将各原始序列分别与给定标准序列进行编码距离计算,并获得对应各原始序列的最小距离参数;当对应各原始序列的最小距离参数满足预设条件时,记录对应各最小距离参数分别所对应的目标标签以及真实标签;当获得所述原始序列文件中的所有原始序列的目标标签以及真实标签时,统计各目标标签的频度,并按频度从大到小排列,以获得目标标签序列

频度表;选取所述目标标签序列

频度表中排列在前端的一或多个目标标签,以获得标签表A;选取所述目标标签序列

频度表中排列在末端的一或多个目标标签,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型;基于所述第一模型,对所述目标标签序列

频度表中去除标签表A的目标标签进行预测,以获得具有显著差异的一或多个目标标签,并输出为标签
表B;依据所述标签表A、标签表B及所述目标标签的对应关系,从所述原始序列文件中检索出一或多个序列文件,以作为对应所述原始序列文件的最终输出结果输出。
[0007]于本专利技术的一实施例中,将各原始序列分别与给定标准序列进行编码距离计算,并获得对应各原始序列的最小距离参数包括:将各原始序列分别与所述给定标准序列的各列进行编码距离计算,获得对应各原始序列的编码距离;分别对比对应各原始序列的编码距离,获得分别对应各原始序列的最小编码距离,以作为对应各原始序列的最小距离参数。
[0008]于本专利技术的一实施例中,所述当对应各原始序列的最小距离参数满足预设条件时,记录对应各最小距离参数分别所对应的目标标签以及真实标签包括:累加对应各原始序列的最小距离参数,获得最小距离累加值;当所述最小距离累加值大于所述预设阈值时,将各最小距离参数所对应的给定标准序列以及原始序列分别作为目标标签以及真实标签进行记录。
[0009]于本专利技术的一实施例中,所述选取所述目标标签序列

频度表中排列在前端的一或多个目标标签,以获得标签表A包括:将提取的所述目标标签序列

频度表中排序前预设百分比部分的目标标签所对应的频度除以一固定参数,将得到的值作为标准阈值;将所述目标标签序列

频度表中频度大于该标准阈值的所有目标标签以所述标签表A输出。
[0010]于本专利技术的一实施例中,所述选取所述目标标签序列

频度表中排列在末端的一或多个目标标签,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型包括:选取的所述目标标签序列

频度表中排列在末端预设百分比部分的目标标签及其对应的频度,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型;对所述第一模型进行可靠性评估,以输出可靠的第一模型。
[0011]于本专利技术的一实施例中,所述基于所述第一模型,对所述目标标签序列

频度表中去除标签表A的目标标签进行预测,以获得具有显著差异的一或多个目标标签,并输出为标签表B包括:基于所述第一模型,对所述目标标签序列

频度表中去除标签表A的目标标签进行预测,以获得对应各目标标签的预测频度;将各目标标签的预测频度与其所在目标标签序列

频度表分别对应的频度相对比,以获得具有显著差异的一或多个目标标签,并将具有显出差异的各目标标签以标签表B输出。
[0012]于本专利技术的一实施例中,所述基于所述第一模型,对所述目标标签序列

频度表中去除标签表A的目标标签进行预测,以获得对应各目标标签的预测频度包括:将所述目标标签序列

频度表中去除标签表A的目标标签输入至所述第一模型,输出对应输入的各目标标签的预测频度;或者,利用所述目标标签序列

频度表中去除标签表A的目标标签及其频度训练所述第一模型,获得第二模型;将所述目标标签序列

频度表中去除标签表A的目标标签输入至所述第二模型,输出对应输入的各目标标签的预测频度。
[0013]为实现上述目的及其他相关目的,本专利技术提供一种单细胞测序标签识别及鉴定系统,所述系统包括:原始序列获取模块,用于对输入的原始序列文件进行切割,获得一或多个原始序列;距离计算模块,连接所述原始序列获取模块,用于将各原始序列分别与给定标准序列进行编码距离计算,并获得对应各原始序列的最小距离参数;目标标签获取模块,连接所述距离计算模块,用于当对应各原始序列的最小距离参数满足预设条件时,记录对应各最小距离参数分别所对应的目标标签以及真实标签;频度统计模块,连接所述目标标签获取模块,用于目标标签当获得所述原始序列文件中的所有原始序列的目标标签以及真实
标签时,统计各目标标签的频度,并按频度从大到小排列,以获得目标标签序列

频度表;标签表A获取模块,连接所述频度统计模块,用于选取所述目标标签序列

频度表中排列在前端的一或多个目标标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞测序标签识别及鉴定方法,其特征在于,所述方法包括:对输入的原始序列文件进行切割,获得一或多个原始序列;将各原始序列分别与给定标准序列进行编码距离计算,并获得对应各原始序列的最小距离参数;当对应各原始序列的最小距离参数满足预设条件时,记录对应各最小距离参数分别所对应的目标标签以及真实标签;当获得所述原始序列文件中的所有原始序列的目标标签以及真实标签时,统计各目标标签的频度,并按频度从大到小排列,以获得目标标签序列

频度表;选取所述目标标签序列

频度表中排列在前端的一或多个目标标签,以获得标签表A;选取所述目标标签序列

频度表中排列在末端的一或多个目标标签,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型;基于所述第一模型,对所述目标标签序列

频度表中去除标签表A的目标标签进行预测,以获得具有显著差异的一或多个目标标签,并输出为标签表B;依据所述标签表A、标签表B及所述目标标签的对应关系,从所述原始序列文件中检索出一或多个序列文件,以作为对应所述原始序列文件的最终输出结果输出。2.根据权利要求1中所述的单细胞测序标签识别及鉴定方法,其特征在于,将各原始序列分别与给定标准序列进行编码距离计算,并获得对应各原始序列的最小距离参数包括:将各原始序列分别与所述给定标准序列的各列进行编码距离计算,获得对应各原始序列的编码距离;分别对比对应各原始序列的编码距离,获得分别对应各原始序列的最小编码距离,以作为对应各原始序列的最小距离参数。3.根据权利要求2中所述的单细胞测序标签识别及鉴定方法,其特征在于,所述当对应各原始序列的最小距离参数满足预设条件时,记录对应各最小距离参数分别所对应的目标标签以及真实标签包括:累加对应各原始序列的最小距离参数,获得最小距离累加值;当所述最小距离累加值大于所述预设阈值时,将各最小距离参数所对应的给定标准序列以及原始序列分别作为目标标签以及真实标签进行记录。4.根据权利要求1中所述的单细胞测序标签识别及鉴定方法,其特征在于,所述选取所述目标标签序列

频度表中排列在前端的一或多个目标标签,以获得标签表A包括:将提取的所述目标标签序列

频度表中排序前预设百分比部分的目标标签所对应的频度除以一固定参数,将得到的值作为标准阈值;将所述目标标签序列

频度表中频度大于该标准阈值的所有目标标签以所述标签表A输出。5.根据权利要求1中所述的单细胞测序标签识别及鉴定方法,其特征在于,所述选取所述目标标签序列

频度表中排列在末端的一或多个目标标签,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型包括:选取的所述目标标签序列

频度表中排列在末端预设百分比部分的目标标签及其对应的频度,并基于灰色关联度预测法微分方程模型进行二次建模,以获得第一模型;对所述第一模型进行可靠性评估,以输出可靠的第一模型。
6.根据权利要求1或5中所述的单细胞测序标签识别及鉴定方法,其特征在于,所述基于所述第一模型,对所述目标标签序列
‑...

【专利技术属性】
技术研发人员:王伟光崔先同
申请(专利权)人:上海吉凯基因医学科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1