System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 蛋白结构域的本体化知识语义注解方法及在线分析引擎系统技术方案_技高网

蛋白结构域的本体化知识语义注解方法及在线分析引擎系统技术方案

技术编号:43958185 阅读:1 留言:0更新日期:2025-01-07 21:42
本发明专利技术涉及一种蛋白结构域的本体化知识语义注解方法及在线分析引擎系统,通过整合不同定义的蛋白结构域数据类型,为用户提供经蛋白结构域语义注解图谱,所提出的语义注解方法使用蛋白结构域信息和蛋白本体注解构建结构域/超结构域与本体术语之间的映射矩阵;基于映射矩阵分别进行总体和相对统计推断,保留最相关的本体术语;遵循真实路径规则获得以结构域为中心的本体注解,对于每个结构域/超结构域,依据所得的总体和相对统计推断结果筛选术语间的关联关系,构成本体注解配置文件。与现有技术相比,本发明专利技术支持用户对相应的蛋白结构域进行语义注解,同时支持本体化知识的富集分析,为蛋白结构域语义注解领域的探索提供了有力的支持。

【技术实现步骤摘要】

本专利技术涉及蛋白结构域本体化知识分析,尤其是涉及一种蛋白结构域的数据和本体化知识语义注解方法及分析引擎系统。


技术介绍

1、在分子生物学的广阔领域中,对蛋白功能的准确注解无疑是理解生命本质的关键所在,具有重大的生物医学和药学意义。尽管分子实验能够提供最为可靠的蛋白功能注解,但由于其通量相对较低且范围有限,使得计算预测在功能注解方面逐渐崭露头角。由计算机生成的精确生物大分子功能注解,为生物学家们提供了迅速鉴定蛋白在生物过程或通路中潜在作用的有力工具。近年来,随着新技术的不断涌现,针对蛋白结构的计算预测已变得可行,尤其是ai工具alphafold2问世后快速解析了地球上几乎已知的所有蛋白,产生了海量蛋白数据。以及最近发布的alphafold3以前所未有的精确度成功预测了蛋白结构和相互作用。与此同时,随着测序技术的飞速发展,基因组解析需求迅猛增长,导致迫切需要利用计算机来对绝大多数的蛋白进行注解。然而,蛋白功能注解领域仍面临着巨大的挑战。如何进一步提高目前的计算资源,对蛋白功能进行准确预测,已成为当前计算和分子生物学领域的前沿问题。为了应对这一挑战,功能注解关键评估(cafa)挑战应运而生,致力于评估和改进蛋白功能的计算注解方法,以缩小不断扩大的分子数据库与有限的理解资源之间的差距。结构域作为蛋白的基本功能单位,与其将本体论术语仅与全长蛋白相关联,不如将术语与单个结构域相关联来得更为直接和有意义。然而,目前大多数蛋白序列仍缺乏生物学注解,特别是在本体化知识注解方面,全长蛋白的研究占据了主导地位,而蛋白结构域的研究则相对滞后,这也导致了该领域缺乏相应的研究工具与数据资源。在功能基因组学中,以结构域为中心的功能注解进展明显滞后于蛋白水平的注解。鉴于越来越多的本体被创建并用于全长蛋白注解,且蛋白结构域通常作为蛋白的功能与进化单元,在蛋白功能预测和表型预测中发挥了重要作用,及时对蛋白结构域进行全面的语义注解变得尤为必要。因此,如何有效地对蛋白结构域进行全面的生物学注解,并深入挖掘本体和结构域资源,已成为当前迫切需要解决的问题。

2、蛋白结构域作为蛋白不可或缺的功能单元,已被证明在蛋白功能预测和表型预测中发挥重要作用。然而,目前尚缺乏一个整合多种蛋白结构域及其本体化知识的数据库且可进一步进行数据深入分析和挖掘的系统。1)大多数已知的蛋白序列缺乏生物学注解。相较于全长蛋白,蛋白结构域在本体论注解方面所获得的关注较少,这在一定程度上限制了对其功能的深入理解;2)当前的研究中,尚未有系统性的工作将多种蛋白结构域及其相关的本体化知识数据库进行有效的整合。这种碎片化的信息状态不仅使得研究工作变得复杂,同时也阻碍了科研人员在蛋白结构域领域的深入研究;3)确保蛋白预测计算的准确性一直是一个巨大的挑战。由于蛋白功能的复杂性和多样性,我们需要更为先进和精准的计算方法来支持我们的预测工作;4)尽管已经存在一些数据库用于存储和查询蛋白结构域的相关信息,但它们的性能仍有待进一步提高和完善。


技术实现思路

1、本专利技术的目的是克服上述现有技术存在的缺陷而提供一种蛋白结构域的数据和本体化知识语义注解方法及分析引擎系统。

2、本专利技术的目的可以通过以下技术方案来实现:

3、作为本专利技术的第一方面,提供一种蛋白结构域的本体化知识语义注解方法,所述方法步骤包括:

4、使用蛋白结构域信息和蛋白本体注解构建结构域/超结构域与本体术语之间的映射矩阵;

5、基于所得映射矩阵,在尊重本体的有向无环图的情况下,分别进行总体和相对统计推断,保留最相关的本体术语;

6、遵循真实路径规则以获得完整的以结构域为中心的本体注解,对于每个结构域/超结构域,依据所得的总体和相对统计推断结果筛选术语间的关联关系,构成本体注解配置文件。

7、作为优选技术方案,所述的总体和相对统计推断,具体步骤为:

8、采用fisher检验推断映射矩阵中行本体术语注解信息和特定的结构域/超结构域之间的关联,所述本体术语以有向无环图的形式呈现;

9、利用本体有向无环图的真实路径规则确定最佳关联;

10、计算衡量本体与结构域/超结构域之间关联的概率的p值,使用多重假设检验的错误发现率评估对映射矩阵间统计推断结果关联的显著性,并使用超几何分数量化关联强度。

11、作为优选技术方案,所述的利用本体有向无环图的真实路径规则确定最佳关联具体为:比较每个术语在两种不同背景下的重要性,一种背景包含所有可用于分析的uniprot蛋白,另一种背景则仅包含直接被父术语注解的uniprot蛋白;

12、如果某个本体术语及其父项术语在第一个背景下与结构域/超结构域显著相关,即总体p值poverall大于阈值;但在第二个背景下与父项术语关联不显著,即相对p值prelative小于阈值,则仅将父项术语与结构域/超结构域关联。

13、作为优选技术方案,所述衡量本体与结构域/超结构域之间关联的概率的p值计算如下:

14、p=max{poverall,prelative}

15、其中,p表示总体富集检验统计推断的总体p值poverall和相对富集检验统计推断的相对p值prelative中的最大p值,代表预测结果的统计显著性;

16、所述的总体富集检验统计推断的总体p值计算如下:

17、

18、其中,n表示在蛋白结构域中至少包含一个本体和一个结构域的个数,m表示在蛋白结构域中至少包含一个结构域的个数,k表示在蛋白结构域中注释到本体的个数,x表示观察到蛋白结构域注释到本体并且包含结构域的个数,poverall表示在第一个背景超几何分布下观察到的x个或者更多蛋白结构域的预期概率;

19、所述的相对富集检验统计推断的相对p值计算如下:

20、

21、其中,npa是有向无环图结构中本体的所有直接父本注释的蛋白结构域的个数,mpa表示与npa中蛋白结构域序列相交后包含结构域的蛋白结构域个数,k表示在蛋白结构域中注释到本体的个数,x表示观察到蛋白结构域注释到本体并且包含结构域的个数,prelative表示在第二个背景超几何分布下观察到的x个或者更多蛋白结构域的预期概率。

22、作为优选技术方案,当一个父节点有多个子节点注释信息,选择具有最小fdr和最大超几何分数的关联信息,相关联的本体术语将扩展至所有父项术语共同构成一个完整的本体注解配置文件。

23、作为优选技术方案,所述方法步骤为进一步优化注解配置文件,根据本体术语的信息内容,即对该术语进行注解的结构域/超结构域频率进行的负对数变换,来划分本体的有向无环图结构,每个分区位于不同的路径中但反映相同或相似的特异性:

24、通过多个信息内容递增的种子,生成一个go slim,即通过将术语向上折叠为与特定背景相关的更通用、更高级的术语后创建的子集;

25、利用ic衡量本体的特异性分为多个粒度递增的本体术语级别,具体步骤为:本文档来自技高网...

【技术保护点】

1.一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述方法步骤包括:

2.根据权利要求1所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述的总体和相对统计推断,具体步骤为:

3.根据权利要求2所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述的利用本体有向无环图的真实路径规则确定最佳关联具体为:比较每个术语在两种不同背景下的重要性,一种背景包含所有可用于分析的UniProt蛋白,另一种背景则仅包含直接被父术语注解的UniProt蛋白;

4.根据权利要求3所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述衡量本体与结构域/超结构域之间关联的概率的P值计算如下:

5.根据权利要求2所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,当一个父节点有多个子节点注释信息,选择具有最小FDR和最大超几何分数的关联信息,相关联的本体术语将扩展至所有父项术语共同构成一个完整的本体注解配置文件。

6.根据权利要求5所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述方法步骤为进一步优化注解配置文件,根据本体术语的信息内容,即对该术语进行注解的结构域/超结构域频率进行的负对数变换,来划分本体的有向无环图结构,每个分区位于不同的路径中但反映相同或相似的特异性:

7.根据权利要求1所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述方法提供两种版本的本体与蛋白结构域关联信息:高质量关联信息和高覆盖率关联信息;所述的高质量关联信息基于具有已知功能的单结构域蛋白,且具有因果结构域证据支持;所述的高覆盖率关联信息则进一步包括通过已知功能的多结构域蛋白,统计消歧所支持的关联。

8.一种蛋白结构域本体化知识在线分析引擎系统,其特征在于,所述分析引擎系统包括:

9.根据权利要求8所述的一种蛋白结构域本体化知识在线分析引擎系统,其特征在于,所述的蛋白结构域和本体化知识在线分析主引擎包括:

10.根据权利要求8所述的一种蛋白结构域本体化知识在线分析引擎系统,其特征在于,所述的大语言模型机器学习蛋白结构域预测主引擎中设置包括Evoformer模块和Diffusion Network扩散网络,从原始的原子坐标入手,学习训练扩散模型,模拟生物分子的相互作用,并对无序区域扩展循环,通过整合训练上述模块网络,最终实现蛋白功能预测。

...

【技术特征摘要】

1.一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述方法步骤包括:

2.根据权利要求1所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述的总体和相对统计推断,具体步骤为:

3.根据权利要求2所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述的利用本体有向无环图的真实路径规则确定最佳关联具体为:比较每个术语在两种不同背景下的重要性,一种背景包含所有可用于分析的uniprot蛋白,另一种背景则仅包含直接被父术语注解的uniprot蛋白;

4.根据权利要求3所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述衡量本体与结构域/超结构域之间关联的概率的p值计算如下:

5.根据权利要求2所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,当一个父节点有多个子节点注释信息,选择具有最小fdr和最大超几何分数的关联信息,相关联的本体术语将扩展至所有父项术语共同构成一个完整的本体注解配置文件。

6.根据权利要求5所述的一种蛋白结构域的本体化知识语义注解方法,其特征在于,所述方法步骤为进一步优化注解配置文件,根据本体术语的信息内容,即对该术语...

【专利技术属性】
技术研发人员:方海包超慧
申请(专利权)人:上海交通大学医学院附属瑞金医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1