基因检测高通量测序数据的分析方法及系统技术方案

技术编号:39065666 阅读:16 留言:0更新日期:2023-10-12 19:58
本发明专利技术涉及生物信息技术领域,公开了一种基因检测高通量测序数据的分析方法及系统,用于提高测序数据分析的准确率。包括:对原始测序数据进行数据清洗,得到待处理测序数据;获取参考基因组序列,对参考基因组序列进行索引参考组序列生成,得到索引参考组序列;通过索引参考组序列对待处理测序数据进行数据比对,得到序列比对结果;基于序列比对结果对待处理测序数据进行序列变异识别,得到变异序列数据;对变异序列数据进行基因型分析,得到目标基因型数据并进行生物学信息分析,得到目标生物学信息;对目标生物学信息以及变异序列数据进行数据融合,生成目标分析报告,对目标分析报告进行加密处理,得到目标加密数据。得到目标加密数据。得到目标加密数据。

【技术实现步骤摘要】
基因检测高通量测序数据的分析方法及系统


[0001]本专利技术涉及生物信息
,尤其涉及一种基因检测高通量测序数据的分析方法及系统。

技术介绍

[0002]高通量测序技术的发展使得快速获取个体的基因组信息成为可能。通过对原始测序数据的分析和解释,可以揭示个体基因组中的变异和其与疾病、个体特征等之间的关联,从而推动个性化医疗和生物学研究的发展。上述技术描述了一套完整的高通量测序数据分析流程,从原始测序数据获取到最终的目标生物学信息和变异序列数据,并生成加密报告,以确保数据的安全传输。
[0003]然而,原始测序数据中可能包含测序误差、低质量序列和污染等问题。当前的数据清洗和质量控制方法虽然相对成熟,但对于一些特殊情况下的数据质量处理仍面临挑战。参考基因组的选择会影响变异检测的准确性和覆盖度。不同物种和个体之间的基因组变异导致参考基因组的选择和生成索引参考组序列需要针对不同研究对象进行优化。尽管目前有多种可靠的比对算法和变异识别方法,但特定区域的比对和识别仍可能受到限制,例如在复杂的重复序列区域或结构变异的识别方面,还需要更精确和高效的算法。基因型分析和生物学信息分析需要综合运用多种生物信息学工具和数据库。在不同变异位点的功能注释和生物学解释方面,可能存在一定程度的主观性和不确定性。将生物学信息和变异序列数据进行有效融合,生成全面准确的分析报告是一个复杂的任务。确保报告的准确性、全面性和易读性,需要更多的自动化和标准化的分析流程。

技术实现思路

[0004]本专利技术提供了一种基因检测高通量测序数据的分析方法及系统,用于提高测序数据分析的准确率。
[0005]本专利技术第一方面提供了一种基因检测高通量测序数据的分析方法,所述方法包括:获取原始测序数据,并对所述原始测序数据进行格式文件提取,得到目标格式文件,其中,所述目标格式文件包括测序序列以及质量分数数据;基于所述目标格式文件,对所述原始测序数据进行数据清洗,得到待处理测序数据;获取参考基因组序列,对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列;通过所述索引参考组序列对所述待处理测序数据进行数据比对,得到序列比对结果;基于所述序列比对结果对所述待处理测序数据进行序列变异识别,得到变异序列数据;
对所述变异序列数据进行基因型分析,得到目标基因型数据,并通过所述目标基因型数据进行生物学信息分析,得到目标生物学信息;对所述目标生物学信息以及所述变异序列数据进行数据融合,生成目标分析报告,对所述目标分析报告进行加密处理,得到目标加密数据,并将所述目标加密数据传输至预置的数据加密传输终端。
[0006]结合第一方面,在本专利技术第一方面的第一实施方式中,所述基于所述目标格式文件,对所述原始测序数据进行数据清洗,得到待处理测序数据,包括:对所述目标格式文件进行字符遍历,得到所述目标格式文件对应的字符串集合;对所述字符串集合中每个字符串进行ASCII码分析,得到ASCII码集合;基于预设的ASCII码阈值,对所述ASCII码集合进行数据筛选,得到对应的低质量ASCII码;通过所述ASCII码对所述原始测序数据进行低质量序列清洗,得到第一候选测序数据;对所述第一候选测序数据进行接头序列分析,确定接头序列集合,并通过所述接头序列集合对所述第一候选测序数据进行去接头序列处理,得到第二候选测序数据;对所述第二候选测序数据进行重复序列剔除,得到第三候选测序数据;对所述第三候选测序数据进行污染序列剔除,得到所述待处理测序数据。
[0007]结合第一方面,在本专利技术第一方面的第二实施方式中,所述获取参考基因组序列,对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列,包括:获取所述参考基因组序列,并对所述参考基因组序列进行数据类型分析,确定目标数据类型;通过所述目标数据类型进行索引算法匹配,确定目标索引算法;通过所述目标索引算法对所述参考基因组序列进行索引字符提取,确定目标索引子序列;通过所述目标索引子序列对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列。
[0008]结合第一方面,在本专利技术第一方面的第三实施方式中,所述通过所述索引参考组序列对所述待处理测序数据进行数据比对,得到序列比对结果,包括:通过所述索引参考组序列对所述待处理测序数据进行序列位置分析,确定对应的序列位置对;基于所述序列位置对进行相似序列提取,确定多个相似序列组;通过多个所述相似序列组进行质量分数校验,确定质量分数校验结果;基于所述质量分数校验结果对所述待处理测序数据进行匹配方向分析,确定当前比对匹配方向;基于所述当前比对匹配方向对所述待处理测序数据进行错配分析,确定错配数据;基于所述错配数据对多个所述相似序列组进行数据比对,得到所述序列比对结果。
[0009]结合第一方面,在本专利技术第一方面的第四实施方式中,所述基于所述序列比对结
果对所述待处理测序数据进行序列变异识别,得到变异序列数据,包括:对所述序列比对结果进行数据遍历,得到所述待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向;通过变异识别算法对每个所述测序序列对应的比对位置、质量信息以及匹配方向进行局部重比对,得到重比对结果;基于所述参考基因组序列,通过所述重比对结果对所述待处理测序数据进行碱基序列差异识别,确定变异位点数据;对所述变异位点数据进行测序深度分析,确定测序深度集合,基于所述测序深度集合对所述变异位点数据进行数据过滤,得到过滤变异数据;对所述过滤变异数据进行变异类型分析,确定目标变异类型,并对所述过滤变异数据进行变异频率计算,得到目标变异频率;基于所述目标变异类型以及所述目标变异频率进行序列变异识别,得到所述变异序列数据。
[0010]结合第一方面,在本专利技术第一方面的第五实施方式中,所述对所述变异序列数据进行基因型分析,得到目标基因型数据,并通过所述目标基因型数据进行生物学信息分析,得到目标生物学信息,包括:对所述变异序列数据进行基因功能注释,得到目标基因型数据;对所述目标基因型数据进行关键通路提取,得到所述目标基因型数据对应的通路数据;采集历史多样本数据,并对所述历史多样本数据以及所述通路数据进行关联分析,确定所述变异序列数据对应的变异关联信息;基于所述变异关联信息,从预置的公共信息数据库中进行数据采集,得到所述目标生物学信息。
[0011].结合第一方面的第五实施方式,在本专利技术第一方面的第六实施方式中,所述对所述变异序列数据进行基因功能注释,得到目标基因型数据,包括:对所述变异序列数据进行变异位点区域分析,确定对应的区域类型集合,其中,所述区域类型集合包括:编码区、调控区或非编码区;通过所述区域类型集合对所述变异序列数据进行氨基酸变异类型分析,确定对应的目标氨基酸变异类型;基于所述目标氨基酸变异类型,对所述变异序列数据进行基因功能注释,得到目标基因型数据。
[0012]本专利技术第二方面提供了一种基因检测高通量测序数据的分析系统,所述基因检测高通量测序数据的分析系统包括:获取模块,用于获取原始测序数据,并对所述原始测序数据进行格式文件提取,得到目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因检测高通量测序数据的分析方法,其特征在于,所述方法包括:获取原始测序数据,并对所述原始测序数据进行格式文件提取,得到目标格式文件,其中,所述目标格式文件包括测序序列以及质量分数数据;基于所述目标格式文件,对所述原始测序数据进行数据清洗,得到待处理测序数据;获取参考基因组序列,对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列;通过所述索引参考组序列对所述待处理测序数据进行数据比对,得到序列比对结果;基于所述序列比对结果对所述待处理测序数据进行序列变异识别,得到变异序列数据;对所述变异序列数据进行基因型分析,得到目标基因型数据,并通过所述目标基因型数据进行生物学信息分析,得到目标生物学信息;对所述目标生物学信息以及所述变异序列数据进行数据融合,生成目标分析报告,对所述目标分析报告进行加密处理,得到目标加密数据,并将所述目标加密数据传输至预置的数据加密传输终端。2.根据权利要求1所述的基因检测高通量测序数据的分析方法,其特征在于,所述基于所述目标格式文件,对所述原始测序数据进行数据清洗,得到待处理测序数据,包括:对所述目标格式文件进行字符遍历,得到所述目标格式文件对应的字符串集合;对所述字符串集合中每个字符串进行ASCII码分析,得到ASCII码集合;基于预设的ASCII码阈值,对所述ASCII码集合进行数据筛选,得到对应的低质量ASCII码;通过所述ASCII码对所述原始测序数据进行低质量序列清洗,得到第一候选测序数据;对所述第一候选测序数据进行接头序列分析,确定接头序列集合,并通过所述接头序列集合对所述第一候选测序数据进行去接头序列处理,得到第二候选测序数据;对所述第二候选测序数据进行重复序列剔除,得到第三候选测序数据;对所述第三候选测序数据进行污染序列剔除,得到所述待处理测序数据。3.根据权利要求1所述的基因检测高通量测序数据的分析方法,其特征在于,所述获取参考基因组序列,对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列,包括:获取所述参考基因组序列,并对所述参考基因组序列进行数据类型分析,确定目标数据类型;通过所述目标数据类型进行索引算法匹配,确定目标索引算法;通过所述目标索引算法对所述参考基因组序列进行索引字符提取,确定目标索引子序列;通过所述目标索引子序列对所述参考基因组序列进行索引参考组序列生成,得到索引参考组序列。4.根据权利要求1所述的基因检测高通量测序数据的分析方法,其特征在于,所述通过所述索引参考组序列对所述待处理测序数据进行数据比对,得到序列比对结果,包括:通过所述索引参考组序列对所述待处理测序数据进行序列位置分析,确定对应的序列位置对;
基于所述序列位置对进行相似序列提取,确定多个相似序列组;通过多个所述相似序列组进行质量分数校验,确定质量分数校验结果;基于所述质量分数校验结果对所述待处理测序数据进行匹配方向分析,确定当前比对匹配方向;基于所述当前比对匹配方向对所述待处理测序数据进行错配分析,确定错配数据;基于所述错配数据对多个所述相似序列组进行数据比对,得到所述序列比对结果。5.根据权利要求1所述的基因检测高通量测序数据的分析方法,其特征在于,所述基于所述序列比对结果对所述待处理测序数据进行序列变异识别,得到变异序列数据,包括:对所述序列比对结果进行数据遍历,得到所述待处理测序数据中每个测序序列对应的比对位置、质量信息以及匹配方向;通过变异识别算法对每个所述测序序列对应的比对...

【专利技术属性】
技术研发人员:杨骁
申请(专利权)人:深圳人体密码基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1