基于半胱氨酸模体自动筛选活性多肽的方法及系统、存储介质技术方案

技术编号:38328071 阅读:19 留言:0更新日期:2023-07-29 09:10
本发明专利技术公开一种基于半胱氨酸模体自动筛选活性多肽的方法及系统、存储介质,首先获取并输入待分析的序列及其子序列;然后计算输入序列的半胱氨酸模体,获取具有相同半胱氨酸模体的子序列及对应的活性肽序列;计算半胱氨酸之间的氨基酸数目差值,并根据氨基酸数目差值保留子序列,最后计算子序列与数据库中活性肽对应序列的相似性,并选取相似性满足预设条件的活性肽,得到半胱氨酸类有毒多肽的活性肽序列。本方法解决了手动识别效率低的问题,能够实现批量、自动识别半胱氨酸类有毒多肽的活性肽序列,利用半胱氨酸类有毒多肽特有的半胱氨酸模体,同时利用模糊匹配算法提升了自动识别准确率。准确率。准确率。

【技术实现步骤摘要】
基于半胱氨酸模体自动筛选活性多肽的方法及系统、存储介质


[0001]本专利技术涉及生物信息
,特别是一种基于半胱氨酸模体自动筛选活性多肽的方法及系统。

技术介绍

[0002]半胱氨酸类有毒多肽是一类含有半胱氨酸二硫键的小分子多肽,具有广泛的生物活性和毒性。这些多肽通常由8

80个氨基酸组成,可以在植物、动物和微生物中发现。半胱氨酸类有毒多肽具有多种生物活性,包括抗菌、抗病毒、抗真菌、抗肿瘤、神经毒性和心脏毒性等。其中一些多肽还具有药用价值,如葡萄球菌α

毒素可以用于治疗某些癌症和自体免疫疾病。半胱氨酸类有毒多肽一般以信号肽、前体肽、活性肽等结构组成,其中信号肽与前体肽主要是细胞在合成、组装、修饰、转运和分泌等过程时进行调节,而活性肽是前体肽或信号肽被酶切割后产生的具有生物活性的分子。它们可以通过与细胞表面的受体结合、改变细胞内信号转导通路、调节基因表达等方式发挥作用。常见的活性肽包括胰岛素、生长激素释放激素、防御素等。
[0003]半胱氨酸类有毒多肽虽然具有广泛的应用前景,但是它们在生物体内的含量十分低,因此需要进行人工合成才能进行广泛应用,为了降低合成成本、提升成功率,一般情况下只合成活性肽部分,因此在合成之前需识别出活性肽的氨基酸序列。目前,识别活性肽的氨基酸序列可以归类为人工识别和自动识别两种方法。人工识别主要是通过实验的方法将多肽进行逐一或随机降解,随后对其进行活性分析,以确定最终的活性肽部位,人工识别的优点是准确,但是效率较低;自动识别则是通过与已知的活性肽进行比对,根据序列的相似性进行确定,其优点是全自动操作,识别效率高,适用于批量识别场景,但准确度相对较差,需要更多的手段提升识别的精确度。
[0004]半胱氨酸类有毒多肽中往往含有成对的半胱氨酸,在形成高级结构时,成对的半胱氨酸之间可以形成二硫键,二硫键作为一种共价键可以使半胱氨酸类有毒多肽的三维结构更加稳定,这类多肽序列中往往存在着特定的半胱氨酸模体,以维持其特定的三维结构,因此在活性肽自动识别过程中,可以先确认半胱氨酸模体以提升识别的准确性。除此之外,还需要优化自动识别过程中的比对算法才能更准确地识别出半胱氨酸类有毒多肽的活性肽部位。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于半胱氨酸模体自动筛选活性多肽的方法及系统,该方法利用模糊匹配算法提高自动识别准确率。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]本专利技术提供的基于半胱氨酸模体自动筛选活性多肽的方法,包括以下步骤:
[0008]第1步:获取并输入待分析的序列;
[0009]第2步:获取输入序列的子序列,所述子序列为输入序列的部分数据;
[0010]第3步:计算输入序列的半胱氨酸模体,获取具有相同半胱氨酸模体的数据库匹配子序列及对应的活性肽序列;
[0011]第4步:计算半胱氨酸之间的氨基酸数目差值,并判断氨基酸数目差值是否超过预设阈值,如果是,则删除该子序列,如果否,则进入下一步;
[0012]第5步:计算子序列与数据库中活性肽对应序列的相似性,并选取相似性满足预设条件的活性肽,得到半胱氨酸类有毒多肽的活性肽序列。
[0013]进一步,还包括以下步骤:
[0014]第6步:当输入数据中包含有多条待识别的序列时,将重复进行第1步至第5步,直至完成所有序列的分析;
[0015]第7步:所有序列均完成分析后,利用序列相似度的聚类算法对所有识别得到的活性肽序列进行去冗余,即根据阈值设定删除重复性较高的序列。
[0016]进一步,所述第2步中子序列按照以下方式得到:
[0017]获取序列的长度,设置子序列的长度;
[0018]设置滑窗窗口内数据长度,设置滑窗滑动的步长,利用滑窗算法获取输入序列的子序列;直到处理完整个序列。
[0019]进一步,所述第3步中的半胱氨酸模体按照以下方式得到:
[0020]将序列中非C的氨基酸替换为预设符号,然后将“C预设符号C”替换为“CXC”,最后将连续多个“预设符号”替换为一个“预设符号”。
[0021]进一步,所述第4步中的半胱氨酸之间的氨基酸数目差值按照以下方式计算:
[0022]根据待分析序列中C的位置获取两个半胱氨酸之间的氨基酸序列,并计算分析序列中氨基酸序列长度;
[0023]根据匹配序列中C的位置获取两个半胱氨酸之间的氨基酸序列,并计算匹配序列中氨基酸序列长度;
[0024]计算两个氨基酸序列长度差值。
[0025]进一步,所述第5步中对应序列的相似性采用模糊匹配算法来实现,所述模糊匹配算法是将一个字符串转换为另一个字符串所需的最小编辑距离,将最大编辑距离减去最小编辑距离,再除以最大编辑距离,得到相似度得分。
[0026]进一步,所述第7步中的对得到的活性肽序列进行去冗余处理按照以下方式进行:
[0027]71)将第一个序列作为代表性序列,并将其添加到代表性序列集合中;
[0028]72)将第二个序列与代表性序列集合中的所有序列进行比较,计算它们之间的相似度,如果相似度高于预设阈值,则将该序列归为与第一个序列相同的簇;否则,将其作为新的代表性序列,并将其添加到代表性序列集合中;
[0029]73)依次类推,直至完成所有序列的计算;
[0030]74)根据预设阈值将多肽划分为不同的类别,选择出每个类别中的代表性序列,并删除每个类别中除代表序列之外的序列。
[0031]本专利技术提供的利用模糊匹配算法基于半胱氨酸模体自动筛选活性多肽的系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
[0032]本专利技术提供的存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法。
[0033]本专利技术的有益效果在于:
[0034]本专利技术提供的基于半胱氨酸模体自动筛选活性多肽的方法及系统、存储介质,首先获取并输入待分析的序列及其子序列;然后计算输入序列的半胱氨酸模体,获取具有相同半胱氨酸模体的子序列及对应的活性肽序列;计算半胱氨酸之间的氨基酸数目差值,并判断氨基酸数目差值是否超过预设阈值,如果是,则删除该子序列,如果否,则进入下一步;最后计算子序列与数据库中活性肽对应序列的相似性,并选取相似性满足预设条件的活性肽,得到半胱氨酸类有毒多肽的活性肽序列。
[0035]本方法解决了手动识别效率低的问题,能够实现批量、自动识别半胱氨酸类有毒多肽的活性肽序列,提高了识别效率;利用半胱氨酸类有毒多肽特有的半胱氨酸模体,同时利用模糊匹配算法、uniprot数据库中人工reviewed的多肽数据(包含信号肽、前体肽、活性肽划分)提升了自动识别准确率。
[0036]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于半胱氨酸模体自动筛选活性多肽的方法,其特征在于:包括以下步骤:第1步:获取并输入待分析的序列;第2步:获取输入序列的子序列,所述子序列为输入序列的部分数据;第3步:计算输入序列的半胱氨酸模体,获取具有相同模体的匹配子序列及对应的活性肽序列;第4步:计算半胱氨酸之间的氨基酸数目差值,并判断氨基酸数目差值是否超过预设阈值,如果是,则删除该子序列,如果否,则进入下一步;第5步:计算子序列与数据库中活性肽对应序列的相似性,并选取相似性满足预设条件的活性肽,得到半胱氨酸类有毒多肽的活性肽序列。2.如权利要求1所述的基于半胱氨酸模体自动筛选活性多肽的方法,其特征在于:还包括以下步骤:第6步:当输入数据中包含有多条待识别的序列时,将重复进行第1步至第5步,直至完成所有序列的分析;第7步:所有序列均完成分析后,利用序列相似度的聚类算法对所有识别得到的活性肽序列进行去冗余,即根据阈值设定删除重复性较高的序列。3.如权利要求1所述的基于半胱氨酸模体自动筛选活性多肽的方法,其特征在于:所述第2步中子序列按照以下方式得到:获取序列的长度,设置子序列的长度;设置滑窗窗口内数据长度,设置滑窗滑动的步长,利用滑窗算法获取输入序列的子序列;直到处理完整个序列。4.如权利要求1所述的基于半胱氨酸模体自动筛选活性多肽的方法,其特征在于:所述第3步中的半胱氨酸模体按照以下方式得到:将序列中非C的氨基酸替换为预设符号,然后将“C预设符号C”替换为“CXC”,最后将连续多个“预设符号”替换为一个“预设符号”。5.如权利要求1所述的基于半胱氨酸模体自动筛选活性多肽的方法,其特征在于:所述第4步中的半胱氨酸之间的氨基酸数目...

【专利技术属性】
技术研发人员:赖仞容明强谷陟欣黄森
申请(专利权)人:佩德生物科技南通有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1