一种蛋白质性能预测和筛选方法技术

技术编号：43131199 阅读：22 留言：0更新日期：2024-10-29 17:38

本发明专利技术公开了一种蛋白质性能预测和筛选方法，其性能预测方法包括步骤：获取待预测性能的目标蛋白质数据；对目标蛋白质数据按照预先设定的编译规则进行编译；对编译好的目标蛋白质数据进行归一化处理；将归一化处理后的目标蛋白质数据输入预先训练好的蛋白质性能预测神经网络模型中，预测出蛋白质性能。本发明专利技术解决了现有技术中存在的难以精准的预测出蛋白质的特性能的问题，解决了现有技术中存在的通过实验法筛选蛋白质需要花费大量的时间和成本来准备样品、进行实验、收集和分析数据，费时费力的问题，有效提升了蛋白质性能筛选效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于蛋白质筛选，具体涉及一种蛋白质性能预测和筛选方法。

技术介绍

1、蛋白质的结构主要由氨基酸的序列和空间结构组成，氨基酸的不同序列会对蛋白质的一些特性产生不同的影响。迄今为止，从各种生物体中发现的氨基酸已有180多种，但参与蛋白质组成的常见氨基酸只有20种。20种氨基酸经过不同的排列组合形成的多肽链形成了蛋白质的一级结构，多肽链经氢键作用形成规律卷曲或折叠的二级结构后，进一步通过盘曲折叠形成了有功能的蛋白质。蛋白质作为生物大分子在生命活动中扮演着重要角色，具有多种生理功能，而蛋白质本身的结构和性能决定着其功能。蛋白质的活性表明了其作为蛋白酶的催化能力，作为载体蛋白运输物质的能力，作为激素调节生命活动的能力。蛋白质与其他物质的相互作用是发挥其功能的关键，而蛋白质的选择性则反映了其与其他物质的互作程度，蛋白质的选择性越高，其效率越大。蛋白质的等电点可应用于离子交换色谱分离，准确预测等电点是蛋白纯化中的关键步骤，有助于快速地将目标蛋白和其他细胞成分及蛋白分离。此外，不同的细胞器根据蛋白质的结构和理化性质选择性的容纳蛋白，因此通过氨基酸的组成来预测蛋白的亚细胞定位，这对于疾病的诊断和治疗有重大意义。

2、传统基于实验室大量操作的蛋白质活性、选择性、亲疏水性、等电点等性能测试方法，通常需要花费大量的时间和成本来准备样品、进行实验、收集和分析数据，需要长时间的细胞培养、复杂的样品处理过程以及昂贵的设备投入；不仅成本较高，且效率低下，不仅难以进行大规模的蛋白质性能预测，而且不能精准获知何种情况下蛋白具有所需的最佳性能，

技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足，提供一种蛋白质性能预测方法，其解决了现有技术中存在的难以精准的预测出蛋白质的特性能的问题。

2、为解决上述技术问题，本专利技术采用的技术方案是：一种蛋白质性能预测方法，该方法包括以下步骤：

3、步骤s1、获取待预测性能的目标蛋白质数据，

4、步骤s2、对目标蛋白质数据按照预先设定的编译规则进行编译；

5、步骤s3、对编译好的目标蛋白质数据进行归一化处理；

6、步骤s4、将归一化处理后的目标蛋白质数据输入预先训练好的蛋白质性能预测神经网络模型中，预测出蛋白质性能。

7、上述的一种蛋白质性能预测和筛选方法，步骤s4中所述蛋白质性能预测神经网络模型的训练方法为：

8、步骤s401、获取蛋白质样本数据：获取不同氨基酸序列的蛋白质选择性和活性样本数据，并将数据进行清洗，将清洗好的数据按照预先设定的编译规则进行编译，将编译好的数据进行归一化处理，得到蛋白质样本数据并划分为训练集和验证集；

9、步骤s402、构建蛋白质性能预测神经网络模型；所述蛋白质性能预测神经网络模型包括输入层、至少1个隐含层和输出层；所述输出层的输出为蛋白质性能；

10、步骤s403、设置隐含层数量为1个；

11、步骤s404、采用训练集，通过前向传播和误差反向传播迭代交替对蛋白质性能预测神经网络模型进行训练，不断更新模型参数，得到训练好的蛋白质性能预测神经网络模型；

12、步骤s405、采用验证集对训练好的蛋白质性能预测神经网络模型进行验证，计算均方误差mse；

13、步骤s406、根据均方误差mse判断训练好的蛋白质性能预测神经网络模型的准确性，当均方误差mse小于预设的均方误差阈值时，判断为训练好的蛋白质性能预测神经网络模型已满足精度需求，结束训练；否则，执行步骤s407；

14、步骤s407、将隐含层数量加1，返回执行步骤s404～s406。

15、上述的一种蛋白质性能预测和筛选方法，步骤s2中所述对目标蛋白质数据按照预先设定的编译规则进行编译，以及步骤s401中所述将清洗好的数据按照预先设定的编译规则进行编译，采用的编译规则为：丙氨酸为1、精氨酸为2、天冬氨酸为3、天冬酰胺为4、半胱氨酸为5、谷氨酰胺为6、谷氨酸为7、组氨酸为8、异亮氨酸为9、甘氨酸为10、亮氨酸为11、赖氨酸为12、甲硫氨酸为13、苯丙氨酸为14、脯氨酸为15、丝氨酸为16、苏氨酸为17、色氨酸为18、酪氨酸为19、缬氨酸为20。

16、上述的一种蛋白质性能预测和筛选方法，步骤s3中所述对编译好的目标蛋白质数据进行归一化处理，以及步骤s401中所述将编译好的数据进行归一化处理，采用的归一化处理公式为：

17、

18、其中，x为归一化前的数据，xmin为归一化前数据的最小值，xmax为归一化前数据的最大值，x为x归一化后的数值。

19、上述的一种蛋白质性能预测和筛选方法，步骤s404中所述采用训练集，通过前向传播和反向传播迭代交替对蛋白质性能预测神经网络模型进行训练，不断更新模型参数，得到训练好的蛋白质性能预测神经网络模型时，其中，前向传播中，从输入层到隐含层的输出为：

20、

21、其中，aj为隐含层第j个神经元的输出，f为sigmoid激活函数，wij为输入层到隐含层的权值，ri为输入层到隐含层的第i个输入，i的取值为1～m1的自然数，m1为输入层神经元的总数量，bj为隐含层第j个神经元的阈值，m2为隐含层神经元的总数量；

22、从隐含层到输出层的输出为：

23、

24、其中，ak为输出层第k个神经元的输出，f为sigmoid激活函数，wjk为隐含层到输出层的权值，rj为隐含层到输出层的第j个输入，j的取值为1～m2的自然数，bk为输出层第k个神经元的阈值，m3为输出层神经元的总数量；

25、其中，反向传播中，误差计算公式为：

26、

27、其中，e为误差，ck为输出层第k个神经元的目标输出值；

28、需要修正的输出层权值偏差δwjk为：

29、

30、其中，η为学习率，sk为输出层第k个神经元的输入，表示为

31、修正后的输出层权值为：

32、wjk(t+1)＝wjk(t)+δwjk (f6)

33、其中，wjk(t)表示当前时刻隐含层到输出层的权值，wjk(t+1)表示下一时刻隐含层到输出层的权值；

34、需要修正的隐含层权值偏差δwij为：

35、

36、其中，sj为隐含层第j个神经元的输入，表示为

37、修正后的隐含层权值为：

38、wij(t+1)＝wij(t)+δwij(f6)

39、其中，wij(t)表示当前时刻输入层到隐含层的权值，wij(t+1)表示下一时刻输入层到隐含本文档来自技高网...

【技术保护点】

1.一种蛋白质性能预测方法，其特征在于，该方法包括以下步骤：

2.按照权利要求1所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤S4中所述蛋白质性能预测神经网络模型的训练方法为：

3.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤S2中所述对目标蛋白质数据按照预先设定的编译规则进行编译，以及步骤S401中所述将清洗好的数据按照预先设定的编译规则进行编译，采用的编译规则为：丙氨酸为1、精氨酸为2、天冬氨酸为3、天冬酰胺为4、半胱氨酸为5、谷氨酰胺为6、谷氨酸为7、组氨酸为8、异亮氨酸为9、甘氨酸为10、亮氨酸为11、赖氨酸为12、甲硫氨酸为13、苯丙氨酸为14、脯氨酸为15、丝氨酸为16、苏氨酸为17、色氨酸为18、酪氨酸为19、缬氨酸为20。

4.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤S3中所述对编译好的目标蛋白质数据进行归一化处理，以及步骤S401中所述将编译好的数据进行归一化处理，采用的归一化处理公式为：

5.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤S

6.一种采用如权利要求1中所述蛋白质性能预测神经网络模型进行蛋白质筛选的方法，其特征在于，该方法将蛋白质性能预测神经网络模型应用于多元宇宙优化算法中，对多元宇宙优化算法进行改进后，基于改进多元宇宙优化算法，进行蛋白质筛选；包括以下步骤：

7.按照权利要求6所述的一种蛋白质筛选方法，其特征在于：步骤A1中所述随机宇宙U的表达式为：

8.按照权利要求6所述的一种蛋白质性能筛选方法，其特征在于：步骤A3中所述宇宙选择位置移动时，数学模型为：

9.按照权利要求6所述的一种蛋白质筛选方法，其特征在于：步骤A4中所述对步骤A3生成的新宇宙空间中的每个宇宙个体进行二进制编码时，第τ个宇宙个体采用的二进制编码公式为：

10.按照权利要求9所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤A7中所述将适应度值大于适应度阈值的基因进行基因反编码，采用的基因反编码公式为：

...

【技术特征摘要】

1.一种蛋白质性能预测方法，其特征在于，该方法包括以下步骤：

2.按照权利要求1所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤s4中所述蛋白质性能预测神经网络模型的训练方法为：

3.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤s2中所述对目标蛋白质数据按照预先设定的编译规则进行编译，以及步骤s401中所述将清洗好的数据按照预先设定的编译规则进行编译，采用的编译规则为：丙氨酸为1、精氨酸为2、天冬氨酸为3、天冬酰胺为4、半胱氨酸为5、谷氨酰胺为6、谷氨酸为7、组氨酸为8、异亮氨酸为9、甘氨酸为10、亮氨酸为11、赖氨酸为12、甲硫氨酸为13、苯丙氨酸为14、脯氨酸为15、丝氨酸为16、苏氨酸为17、色氨酸为18、酪氨酸为19、缬氨酸为20。

4.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤s3中所述对编译好的目标蛋白质数据进行归一化处理，以及步骤s401中所述将编译好的数据进行归一化处理，采用的归一化处理公式为：

5.按照权利要求2所述的一种蛋白质性能预测和筛选方法，其特征在于：步骤s404中所述采...

【专利技术属性】
技术研发人员：杨静，杨郝楠，樊艳茹，范代娣，惠俊峰，马沛，米钰，朱晨辉，
申请(专利权)人：西北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人