System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及蛋白质数据分析领域,更具体地说,它涉及一种小分子肽阿胶的多肽谱匹配数据分析方法及系统。
技术介绍
1、阿胶主要成分为蛋白质(约80%),但蛋白质的消化吸收需要蛋白酶参与降解,随着现代生物工程技术的发展,目前采用生物仿生酶解法可获得阿胶酶解物,即阿胶蛋白肽,为了确保肽阿胶产品的质量和纯度,需要对阿胶蛋白肽中所含的具体蛋白质成分进行鉴定,为了准确地鉴定阿胶蛋白肽中所有的蛋白质种类,需要在进行鉴定之前,将不同类型的蛋白质分离出单个,然后对分离出的多个蛋白质单独进行鉴定。
2、目前常见的蛋白鉴定方法是,通过多肽谱数据与已知蛋白质数据库进行比对,对多肽谱数据中的肽段和蛋白质进行鉴定,但是传统的蛋白鉴定方法通常采用确定性的规则或评分函数,这种使用单一的固定规则或评分函数往往无法充分适应所有情况,难以适应复杂多变的质谱数据特征,导致对多肽谱数据对应的蛋白质进行识别的结果准确性低,并且进行蛋白鉴定的检测手段容易重复,不是最优的检测方式。
技术实现思路
1、本专利技术提供一种小分子肽阿胶的多肽谱匹配数据分析方法及系统,解决上述
技术介绍
中提出的技术问题。
2、本专利技术提供了一种小分子肽阿胶的多肽谱匹配数据分析方法,包括以下步骤:
3、步骤101,获取历史蛋白鉴定数据和理论质谱蛋白质数据库,历史蛋白鉴定数据包括多肽谱数据、酶解信息,多肽谱数据包括肽段的质荷比值、丰度和碎裂模式下的b/y离子的质荷比值、丰度,酶解信息包括使用的酶种类,每一种酶均对应有特定
4、步骤102,基于历史蛋白质数据构建策略网络模型,策略网络模型的输入是综合特征向量,输出是在当前状态下的动作;
5、步骤103,执行策略网络模型输出的动作,将动作应用到新的蛋白质,得到新的多肽谱数据,根据得到的新的多肽谱数据分析获得对应的蛋白鉴定结果。
6、在一个优选的实施方式中,在步骤101中,对历史蛋白鉴定数据进行去噪处理,去除噪声和低质量的峰值;对质荷比值和丰度进行归一化处理,以确保数据在统一的尺度上;对实验质谱数据和理论质谱数据进行峰值对齐,确保相同的肽段在不同谱图中的峰值能够匹配;提取历史多肽谱数据,将每个肽段及其碎裂产物的质荷比值、丰度和碎裂产物的类型作为特征。
7、在一个优选的实施方式中,策略网络模型包括:
8、状态空间的定义:
9、酶解信息:使用的酶的种类;
10、多肽谱数据:肽段的质荷比值、丰度、碎裂模式下的b/y离子的质荷比和丰度;
11、已鉴定肽段序列:已确认的肽段序列及其在蛋白质中的位置;
12、数据库查询状态:与已知数据库匹配的肽段数量、匹配程度、匹配上的肽段覆盖度;
13、资源消耗:已用时间、试剂消耗;
14、将酶解信息、多肽谱数据、已鉴定肽段序列、数据库查询状态和资源消耗信息编码后串联拼接成一个综合特征向量。
15、在一个优选的实施方式中,策略网络模型包括:动作空间的定义:
16、选择酶解策略:选择特定的酶;
17、质谱参数调整:调节扫描范围、分辨率、碎裂模式、碎裂能量;
18、数据库查询:选择查询的数据库、设置搜索参数;
19、实验流程控制:决定是否继续酶解、重复质谱分析、改变实验方向。
20、在一个优选的实施方式中,策略网络模型包括:建立策略网络模型输出动作的奖励函数,奖励目标是选择最优的酶解策略、质谱参数设置和数据库查询方法,最大化鉴定的准确性和效率,奖励函数如下:
21、若鉴定出的蛋白质与真实蛋白质完全匹配时给予的奖励:
22、r1=+100
23、若鉴定出的蛋白质与真实蛋白质部分匹配时给予的奖励:
24、
25、其中,coveragecurrent表示当前鉴定的肽段覆盖率,coveragemax表示最大覆盖率;
26、每增加1%的肽段覆盖率的奖励为:
27、r3=+0.5
28、资源效率奖励的计算公式:
29、
30、其中,resourcepreset表示预设资源阈值,resourceused表示实际消耗资源;
31、错误鉴定扣除的奖励为:
32、r5=-50
33、超出资源预算,每超出10%扣除的奖励为:
34、r6=-10
35、重复无效操作扣除的奖励为:
36、r7=-1
37、探索的奖励为:
38、r8=+2
39、持续学习的奖励为:
40、r9=+1
41、总奖励的计算公式为:
42、rtotal
43、=r1·i1+r2·i2+r3·i3+r4·i4-r5·i5-r6·i6-r7·i7+r8·i8+r9·i9
44、
45、其中,rtotal表示总奖励,r1表示蛋白质与真实蛋白质完全匹配时获得的奖励值,r2表示蛋白质与真实蛋白质部分匹配时获得的奖励值,r3表示每增加1%的肽段覆盖率获得的奖励值,r4表示资源低于预设阈值的一定比例完成鉴定获得的奖励值,r5表示鉴定出的蛋白质与真实不符时获得的惩罚值,r6表示超过预设资源阈值时获得的惩罚值,r7表示重复无效操作时获得的惩罚值,r8表示探索获得的奖励值,r9表示持续学习获得的奖励值,coveragecurrent表示当前鉴定的肽段覆盖率,coveragemax表示理论最大覆盖率,resourcepreset表示预设资源阈值,resourceused表示实际消耗资源,i1、i2、i3、i4、i5、i6、i7、i8、i9分别表示第1、2、3、4、5、6、7、8、9个条件系数。
46、在一个优选的实施方式中,策略网络模型:包括输入层、第一隐藏层、第二隐藏层和输出层;
47、将综合特征向量输入到输入层中,输入层将综合特征向量输出到第一隐藏层,生成第一中间特征向量,第一隐藏层输出第一中间特征向量到第二隐藏层中,生成第二中间特征向量,第二隐藏层将第二中间特征向量输出到输出层,生成动作向量,动作向量映射获得在当前状态下执行相应动作的概率。
48、在一个优选的实施方式中,第一隐藏层的计算公式为:
49、z1=w1x+b1
50、h1=f(z1)
51、其中,h1表示第一中间特征向量,f表示relu激活函数,z1表示综合特征向量经过线性变换后的结果,x表示综合特征向量,w1表示第一权重矩阵,b1表示第一偏置项;
52、第二隐藏层的计算公式为:
53、z2=w2h1+b2
54、h2=f(z2)
55、其中,h2表示第二中间特征向量,f表示relu激活函数,z2表示第一中间特征向量经过线性变换后的结果,h1第一中间特征向量,w本文档来自技高网...
【技术保护点】
1.一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,在步骤101中,对历史蛋白鉴定数据进行去噪处理,去除噪声和低质量的峰值;对质荷比值和丰度进行归一化处理,以确保数据在统一的尺度上;对实验质谱数据和理论质谱数据进行峰值对齐,确保相同的肽段在不同谱图中的峰值能够匹配;提取历史多肽谱数据,将每个肽段及其碎裂产物的质荷比值、丰度和碎裂产物的类型作为特征。
3.根据权利要求2所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:
4.根据权利要求3所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:动作空间的定义:
5.根据权利要求4所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:建立策略网络模型输出动作的奖励函数,奖励目标是选择最优的酶解策略、质谱参数设置和数据库查询方法,最大化鉴定的准确性和效率,奖励函数如下:
6.根据权利要求5所述的一种小分子肽
7.根据权利要求6所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,第一隐藏层的计算公式为:
8.根据权利要求7所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型的损失函数为PPO中的Clip Loss或A3C的策略损失函数。
9.一种小分子肽阿胶的多肽谱匹配数据分析系统,其特征在于,包括以下模块:
10.一种存储介质,其存储了非暂时性计算机可读指令,其特征在于:当非暂时性计算机可读指令由计算机执行时,能够执行如权利要求8所述的一种小分子肽阿胶的多肽谱匹配数据分析方法中的步骤。
...【技术特征摘要】
1.一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,在步骤101中,对历史蛋白鉴定数据进行去噪处理,去除噪声和低质量的峰值;对质荷比值和丰度进行归一化处理,以确保数据在统一的尺度上;对实验质谱数据和理论质谱数据进行峰值对齐,确保相同的肽段在不同谱图中的峰值能够匹配;提取历史多肽谱数据,将每个肽段及其碎裂产物的质荷比值、丰度和碎裂产物的类型作为特征。
3.根据权利要求2所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:
4.根据权利要求3所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:动作空间的定义:
5.根据权利要求4所述的一种小分子肽阿胶的多肽谱匹配数据分析方法,其特征在于,策略网络模型包括:建立策略网络模型输出动...
【专利技术属性】
技术研发人员:孙大赢,李作华,刘敏,翟迎辉,王秋兰,李尚银,秦广晓,尹宁宁,
申请(专利权)人:澳润山东药业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。