System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息学,特别涉及一种基于尺度不变特征变换和预过滤的同源蛋白质查找方法。
技术介绍
1、随着人工智能驱动的蛋白质结构预测工具(如alphafold2、rosettafold和esmfold)的飞速发展,生物信息学领域已获得数十亿个蛋白质结构。
2、然而,现有的蛋白质结构比对工具(如dali、ce align等),在处理大规模数据时依然存在效率低下的问题,如图1所示。具体地,如图1中的(a)所示,为主流算法foldseek算法(包括有预过滤器的foldseek算法和无预过滤器的foldseek算法)、dali(distance matrixalignment ,距离矩阵对齐)算法、ce(combinatorial extension,组合扩展比对) 算法和adams(align distance matrices with sift,使用尺度不变特征变换算法对齐距离矩阵)算法的速度比较,dali算法在面对数亿级别蛋白质数据库的单次搜索时可能需要数月甚至数年的时间。而新一代结构比对算法,如foldseek、progres等,虽然提升了速度,但在处理具有高柔性区域的蛋白质时精度有所下降。例如,foldseek算法通过将结构比对简化为序列比对的方式提高了速度。然而,在处理具有高度柔性区域的蛋白质时,如图1中的(b)所示,foldseek算法可能会出现错误比对或错失重要的同源结构,其中,图1中的(b)使用foldseek算法和adams算法对人类-秀丽隐杆线虫同源蛋白质进行结构比对的正确率进行比较,其中,图1中
3、进一步地,如图1中的(c)和图1中的(d)所示,通过对拥有不同长度蛋白无序区的蛋白质,adams和foldseek比对正确率的统计,蛋白质结构比对工具adams在一定程度上解决了高度柔性区域带来的噪声问题,并且在结构查找速度上与foldseek相似。然而,其数据预过滤(prefilter)机制效率不高,导致在对大规模数据库进行结构搜索比对时,仍需遍历整个数据库。这一过程需要较大的gpu(graphics processing unit,图形处理器)显存和内存资源来进行结果的预存,从而消耗了大量的计算资源和时间。
4、综上所述,相关技术中,难以同时兼顾比对精度和比对速度,且资源占用较为严重,难以推广应用,有待改进。
技术实现思路
1、本专利技术提供一种基于尺度不变特征变换和预过滤的同源蛋白质查找方法,以解决相关技术中,难以同时兼顾比对精度和比对速度,且资源占用较为严重,难以推广应用的技术问题。
2、本专利技术第一方面实施例提供一种基于尺度不变特征变换和预过滤的同源蛋白质查找方法,包括以下步骤:提取待比对蛋白质结构和预设的大规模蛋白质数据库中每个待筛选蛋白质结构的-碳原子坐标,并基于所述-碳原子坐标计算相应的距离矩阵,从所述距离矩阵中提取多个sift特征点,基于所述多个sift特征点为所述待比对蛋白质结构和所述每个待筛选蛋白质结构构建对应的特征描述向量矩阵,并将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵映射至目标高维球面,以确定所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵在所述目标高维球面中的区块标识符;获取所述待比对蛋白质结构在所述目标高维球面上的区块标识符与所有待筛选蛋白质结构的区块标识符的交集,并根据预设的预过滤算法判断所述交集是否满足预设的预过滤条件,以确定所述每个待筛选蛋白质结构的判断结果,且根据所述判断结果筛选出所述大规模蛋白质数据库中的至少一个候选蛋白质结构;将所述待比对蛋白质结构与所述至少一个候选蛋白质结构的特征描述向量矩阵进行gpu加速的精确比对,以生成所述待比对蛋白质结构的比对结果,并根据所述比对结果确定所述待比对蛋白质结构对应的同源蛋白质结构。
3、可选地,在本申请的一个实施例中,所述提取待比对蛋白质结构和预设的大规模蛋白质数据库中每个待筛选蛋白质结构的-碳原子坐标,并基于所述-碳原子坐标计算相应的距离矩阵,从所述距离矩阵中提取多个sift特征点,基于所述多个sift特征点为所述待比对蛋白质结构和所述每个待筛选蛋白质结构构建对应的特征描述向量矩阵,包括:提取蛋白质结构中每个氨基酸的-碳原子坐标,并根据所述每个氨基酸的-碳原子坐标构建所述蛋白质结构对应的-碳原子坐标矩阵;计算所述-碳原子坐标矩阵中每两个-碳原子坐标之间的欧氏距离,以根据所述每两个-碳原子坐标之间的欧氏距离建立所述距离矩阵;利用预设的尺度不变特征变换算法提取所述距离矩阵各个尺度的多个sift特征点,并通过目标维度向量表征所述多个sift特征点中的每个sift特征点,以得到所述每个sift特征点对应的特征描述向量,且对所述特征描述向量的模长进行归一化操作,得到所述待比对蛋白质结构和所述每个待筛选蛋白质结构对应的特征描述向量矩阵。
4、可选地,在本申请的一个实施例中,所述将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵映射至目标高维球面,以确定所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵在所述目标高维球面中的区块标识符,包括:将目标维度的目标高维球面中每对坐标轴的正半轴平面等分为多个扇形区域,并计算所述多个扇形区域中每个扇形区域的圆心角;根据所述圆心角将所述目标高维球面划分为多个子区域,并通过多位五进制数表征所述每个子区域对应的区块标识符;将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的每个特征描述向量映射至所述目标高维球面的对应子区域中,以确定所述待比对蛋白质结构和所述每个待筛选蛋白质结构的每个特征描述向量在所述目标高维球面中的区块标识符,并将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的多位五进制数的区块标识符转化为十进制数。
5、可选地,在本申请的一个实施例中,所述获取所述待比对蛋白质结构在所述目标高维球面上的区块标识符与所有待筛选蛋白质结构的区块标识符的交集,并根据预设的预过滤算法判断所述交集是否满足预设的预过滤条件,以确定所述每个待筛选蛋白质结构的判断结果,且根据所述判断结果筛选出所述大规模蛋白质数据库中的至少一个候选蛋白质结构,包括:对每个蛋白质结构的所有的十进制数区块标识符进行去重操作,并计算所述待筛选蛋白质结构去重后的区块标识符与所述待比对蛋白质结构去重后的区块标识符的交集;判断所述交集中的区块标识符数量是否大于预设的预过滤阈值,如果所述交集中的区块标识符数量大于所述预过滤阈值,则将对应的待筛选蛋白质结构确定为候选蛋白质结构,否则,过滤所述待筛选蛋白质结构。
6、可选地,在本申请的一个实施例中,所述将所述待比对蛋白质结构与所述至少一个候选蛋白质结构的特征描述向量矩阵进行gpu加速的精确比对,以生成所述待比对蛋白质结构的比对结果,并根据所述比对结果确定所述待比对蛋白质结构对应的同源本文档来自技高网...
【技术保护点】
1.一种基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述提取待比对蛋白质结构和预设的大规模蛋白质数据库中每个待筛选蛋白质结构的-碳原子坐标,并基于所述-碳原子坐标计算相应的距离矩阵,从所述距离矩阵中提取多个SIFT特征点,基于所述多个SIFT特征点为所述待比对蛋白质结构和所述每个待筛选蛋白质结构构建对应的特征描述向量矩阵,包括:
3.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵映射至目标高维球面,以确定所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵在所述目标高维球面中的区块标识符,包括:
4.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述获取所述待比对蛋白质结构在所述目标高维球面上的区块标识符与所有待筛选蛋白质结构的区块标识符的交集,并根据预设的预过滤算法判断所述
5.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述将所述待比对蛋白质结构与所述至少一个候选蛋白质结构的特征描述向量矩阵进行GPU加速的精确比对,以生成所述待比对蛋白质结构的比对结果,并根据所述比对结果确定所述待比对蛋白质结构对应的同源蛋白质结构,包括:
6.根据权利要求5所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述待比对蛋白质结构和所述每个候选蛋白质结构之间所有SIFT特征对的余弦相似度矩阵的计算表达式为:
7.一种基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,包括:
8.根据权利要求7所述的基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,所述数据库处理模块包括:
9.根据权利要求7所述的基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,所述数据库处理模块还包括:
10.根据权利要求7所述的基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,所述预过滤模块包括:
11.根据权利要求7所述的基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,所述加速比对模块包括:
12.根据权利要求11所述的基于尺度不变特征变换和预过滤的同源蛋白质查找装置,其特征在于,所述待比对蛋白质结构和所述每个候选蛋白质结构之间所有SIFT特征对的余弦相似度矩阵的计算表达式为:
...【技术特征摘要】
1.一种基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述提取待比对蛋白质结构和预设的大规模蛋白质数据库中每个待筛选蛋白质结构的-碳原子坐标,并基于所述-碳原子坐标计算相应的距离矩阵,从所述距离矩阵中提取多个sift特征点,基于所述多个sift特征点为所述待比对蛋白质结构和所述每个待筛选蛋白质结构构建对应的特征描述向量矩阵,包括:
3.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述将所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵映射至目标高维球面,以确定所述待比对蛋白质结构和所述每个待筛选蛋白质结构的特征描述向量矩阵在所述目标高维球面中的区块标识符,包括:
4.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋白质查找方法,其特征在于,所述获取所述待比对蛋白质结构在所述目标高维球面上的区块标识符与所有待筛选蛋白质结构的区块标识符的交集,并根据预设的预过滤算法判断所述交集是否满足预设的预过滤条件,以确定所述每个待筛选蛋白质结构的判断结果,且根据所述判断结果筛选出所述大规模蛋白质数据库中的至少一个候选蛋白质结构,包括:
5.根据权利要求1所述的基于尺度不变特征变换和预过滤的同源蛋...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。