System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于蛋白质序列的功能性Khib位点预测方法、装置及可读介质制造方法及图纸_技高网

基于蛋白质序列的功能性Khib位点预测方法、装置及可读介质制造方法及图纸

技术编号:43165261 阅读:6 留言:0更新日期:2024-11-01 19:57
本发明专利技术公开了一种基于蛋白质序列的功能性Khib位点预测方法、装置及可读介质,包括:获取待预测的2‑羟基异丁酰组数据并从中提取到待预测的HSP(10,10)数据,对待预测的HSP(10,10)数据进行特征编码,得到若干个序列特征和若干个结构特征,将待预测的HSP(10,10)数据以及若干个序列特征和若干个结构特征输入功能性Khib位点预测模型,提取到多维度特征并得到若干个序列特征、若干个结构特征和多维度特征对应的分数所构成的分数向量,将分数向量输入经训练的第一分类模块,得到最终的分数,根据最终的分数确定待预测的HSP(10,10)数据是否位于功能性Khib位点附近,从而实现更准确和高效的功能性Khib位点预测。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体涉及一种基于蛋白质序列的功能性khib位点预测方法、装置及可读介质。


技术介绍

1、khib(2-羟基异丁酰化)位点在生物过程中发挥着重要的作用,包括基因转录、染色质功能调节和代谢等。并且随着质谱技术的快速发展,鉴定khib位点的效率越来越高。然而,检测功能性khib位点的方法仍然费时和需要昂贵的技术,存在不足和局限性。此外,目前只有16个功能性khib位点已通过实验确定。因此,需要有效的方法对功能性khib位点进行预测排序,这不仅可以大大增强对这一新型蛋白质翻译后修饰(ptm)的理解,而且可以指导未来的实验研究。


技术实现思路

1、本申请的目的在于针对上述提到的技术问题提出一种基于蛋白质序列的功能性khib位点预测方法、装置及可读介质。

2、第一方面,本专利技术提供了一种基于蛋白质序列的功能性khib位点预测方法,包括以下步骤:

3、获取2-羟基异丁酰组数据并从中提取到hsp(10,10)数据,hsp(10,10)数据为上游有10个残基、下游有10个残基的khib肽数据,分别对khib位点附近的hsp(10,10)数据以及其他赖氨酸位点附近的hsp(10,10)数据进行标注,构造得到第一训练数据,分别对功能性khib位点附近的hsp(10,10)数据以及其余khib位点附近的hsp(10,10)数据进行标注,构造得到第二训练数据;

4、构建khib位点预测模型和第一分类模块,khib位点预测模型包括蛋白质序列处理模块和第二分类模块,采用第一训练数据对khib位点预测模型和第一分类模块进行训练,得到预训练的khib位点预测模型和经训练的第一分类模块,将预训练的khib位点预测模型作为源模型,基于第二训练数据采用少样本迁移学习的方式训练得到功能性khib位点预测模型;

5、获取待预测的2-羟基异丁酰组数据并从中提取到待预测的hsp(10,10)数据,对待预测的hsp(10,10)数据进行特征编码,得到若干个序列特征和若干个结构特征,将待预测的hsp(10,10)数据以及若干个序列特征和若干个结构特征输入功能性khib位点预测模型,提取到多维度特征并得到若干个序列特征、若干个结构特征和多维度特征对应的分数所构成的分数向量,将分数向量输入经训练的第一分类模块,得到最终的分数,根据最终的分数确定待预测的hsp(10,10)数据是否位于功能性khib位点附近。

6、作为优选,在khib位点预测模型和功能性khib位点预测模型中,待预测的hsp(10,10)数据输入蛋白质序列处理模块,得到多维度特征,将若干个序列特征、若干个结构特征和多维度特征分别输入第二分类模块,得到其对应的分数;khib位点预测模型输出的分数用于预测hsp(10,10)数据是否位于khib位点附近;功能性khib位点预测模型输出的分数用于预测hsp(10,10)数据是否位于功能性khib位点附近。

7、作为优选,蛋白质序列处理模块包括依次连接的一个token和位置嵌入层、一个自回归编码器层、一个池化层以及一个第一dropout层,自回归编码器层的输出特征再次循环输入到自回归编码器层中重复多次。

8、作为优选,第一分类模块和第二分类模块均为深度神经网络,包括依次连接的一个第一稠密层、一个第一relu函数层、一个第二dropout层、一个第二稠密层、一个第二relu函数层、一个第三dropout层和一个输出层,输出层为两个带有sigmoid函数的神经元,输出分数。

9、作为优选,若干个序列特征包括gps、pseaac、cksaaps、obc、aaindex、pssm和acfs;若干个结构特征包括asa、ss和btas;并与蛋白质序列处理模块输出的多维特征构成11个特征,分数向量为11维向量v=(d1,d2,d3,…,d11);其中,d1,d2,d3,…,d11分别对应11个特征经过第二分类模块所得到的分数。

10、作为优选,多维度特征为第一dropout层输出的128维的向量。

11、第二方面,本专利技术提供了一种基于蛋白质序列的功能性khib位点预测装置,包括:

12、数据获取模块,被配置为获取2-羟基异丁酰组数据并从中提取到hsp(10,10)数据,hsp(10,10)数据为上游有10个残基、下游有10个残基的khib肽数据,分别对khib位点附近的hsp(10,10)数据以及其他赖氨酸位点附近的hsp(10,10)数据进行标注,构造得到第一训练数据,分别对功能性khib位点附近的hsp(10,10)数据以及其余khib位点附近的hsp(10,10)数据进行标注,构造得到第二训练数据;

13、模型构建模块,被配置为构建khib位点预测模型和第一分类模块,khib位点预测模型包括蛋白质序列处理模块和第二分类模块,采用第一训练数据对khib位点预测模型和第一分类模块进行训练,得到预训练的khib位点预测模型和经训练的第一分类模块,将预训练的khib位点预测模型作为源模型,基于第二训练数据采用少样本迁移学习的方式训练得到功能性khib位点预测模型;

14、预测模块,被配置为获取待预测的2-羟基异丁酰组数据并从中提取到待预测的hsp(10,10)数据,对待预测的hsp(10,10)数据进行特征编码,得到若干个序列特征和若干个结构特征,将待预测的hsp(10,10)数据以及若干个序列特征和若干个结构特征输入功能性khib位点预测模型,提取到多维度特征并得到若干个序列特征、若干个结构特征和多维度特征对应的分数所构成的分数向量,将分数向量输入经训练的第一分类模块,得到最终的分数,根据最终的分数确定待预测的hsp(10,10)数据是否位于功能性khib位点附近。

15、第三方面,本专利技术提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

16、第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

17、第五方面,本专利技术提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

18、相比于现有技术,本专利技术具有以下有益效果:

19、(1)本专利技术提出的基于蛋白质序列的功能性khib位点预测方法采用机器学习的方式并结合两步训练方式,将多特征混合学习结合到基于蛋白质语言模型(plm)的框架,以提高预测精度。

20、(2)本专利技术提出的基于蛋白质序列的功能性khib位点预测方法使用少样本迁移学习策略来帮助模型在有限的标记数据下有效地泛化,并提高其预测性能

21、(3)本专利技术提出的基于蛋白质序列的功能性khib位点预测方法采用class_weight函数,它有效地解决了基准数本文档来自技高网...

【技术保护点】

1.一种基于蛋白质序列的功能性Khib位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于蛋白质序列的功能性Khib位点预测方法,其特征在于,在所述Khib位点预测模型和功能性Khib位点预测模型中,所述待预测的HSP(10,10)数据输入所述蛋白质序列处理模块,得到多维度特征,将所述若干个序列特征、若干个结构特征和多维度特征分别输入所述第二分类模块,得到其对应的分数;所述Khib位点预测模型输出的分数用于预测所述HSP(10,10)数据是否位于Khib位点附近;所述功能性Khib位点预测模型输出的分数用于预测所述HSP(10,10)数据是否位于功能性Khib位点附近。

3.根据权利要求1所述的基于蛋白质序列的功能性Khib位点预测方法,其特征在于,所述蛋白质序列处理模块包括依次连接的一个Token和位置嵌入层、一个自回归编码器层、一个池化层以及一个第一Dropout层,所述自回归编码器层的输出特征再次循环输入到所述自回归编码器层中重复多次。

4.根据权利要求1所述的基于蛋白质序列的功能性Khib位点预测方法,其特征在于,所述第一分类模块和第二分类模块均为深度神经网络,包括依次连接的一个第一稠密层、一个第一ReLU函数层、一个第二Dropout层、一个第二稠密层、一个第二ReLU函数层、一个第三Dropout层和一个输出层,所述输出层为两个带有sigmoid函数的神经元,输出分数。

5.根据权利要求4所述的基于蛋白质序列的功能性Khib位点预测方法,其特征在于,所述若干个序列特征包括GPS、PseAAC、CKSAAPs、OBC、AAindex、PSSM和ACFs;所述若干个结构特征包括ASA、SS和BTAs;并与所述蛋白质序列处理模块输出的多维特征构成11个特征,所述分数向量为11维向量V=(D1,D2,D3,…,D11);其中,D1,D2,D3,…,D11分别对应11个特征经过所述第二分类模块所得到的分数。

6.根据权利要求1所述的基于蛋白质序列的功能性Khib位点预测方法,其特征在于,所述多维度特征为所述第一Dropout层输出的128维的向量。

7.一种基于蛋白质序列的功能性Khib位点预测装置,其特征在于,包括:

8.一种电子设备,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。

...

【技术特征摘要】

1.一种基于蛋白质序列的功能性khib位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于蛋白质序列的功能性khib位点预测方法,其特征在于,在所述khib位点预测模型和功能性khib位点预测模型中,所述待预测的hsp(10,10)数据输入所述蛋白质序列处理模块,得到多维度特征,将所述若干个序列特征、若干个结构特征和多维度特征分别输入所述第二分类模块,得到其对应的分数;所述khib位点预测模型输出的分数用于预测所述hsp(10,10)数据是否位于khib位点附近;所述功能性khib位点预测模型输出的分数用于预测所述hsp(10,10)数据是否位于功能性khib位点附近。

3.根据权利要求1所述的基于蛋白质序列的功能性khib位点预测方法,其特征在于,所述蛋白质序列处理模块包括依次连接的一个token和位置嵌入层、一个自回归编码器层、一个池化层以及一个第一dropout层,所述自回归编码器层的输出特征再次循环输入到所述自回归编码器层中重复多次。

4.根据权利要求1所述的基于蛋白质序列的功能性khib位点预测方法,其特征在于,所述第一分类模块和第二分类模块均为深度神经网络,包括依次连接的一个第一稠密层、一个第一relu函数层、一个第二dropout层、一个第...

【专利技术属性】
技术研发人员:宁万山顾颖陈群刘帅黄林丹王志成许睿智马驰原
申请(专利权)人:厦门大学附属第一医院厦门市第一医院厦门市红十字会医院厦门市糖尿病研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1