高效构建生物多肽活性分子数据库的方法、设备及系统技术方案

技术编号:34395832 阅读:14 留言:0更新日期:2022-08-03 21:29
本申请涉及一种高效构建生物多肽活性分子数据库的方法、设备及系统,方法包括:获取碱基序列,基于预设流程根据碱基序列构建多肽活性分子数据库。由于本申请中预设流程的各流水线步骤并行执行,相较于现有技术,鉴定和翻译效率得到极大提高。本申请中的流水线并行步骤包括:对碱基序列进行格式转化得到数字化碱基序列;将数字化碱基序列进行拆分得到多个数字化碱基组并存储,还按序依次为每个数字化碱基组赋予存储地址;将构成终止组的相邻两个数字化碱基组之间的碱基序列进行翻译得到氨基酸序列。将氨基酸序列和其对应的存储地址进行输出,构建生物多肽活性分子数据库。构建生物多肽活性分子数据库。构建生物多肽活性分子数据库。

【技术实现步骤摘要】
高效构建生物多肽活性分子数据库的方法、设备及系统


[0001]本申请涉及生物学数据处理
,尤其涉及一种高效构建生物多肽活性分子数据库的方法、设备及系统。

技术介绍

[0002]蛋白质(多肽)如胰岛素,生长激素等,是执行各种生命活动的直接生物活性分子,在生物体内发挥着非常重要的作用。作为比多肽更小,更容易吸收的小肽,其关键的生物学功能也已成为学界共识。现有技术在开发和鉴定小肽的过程中,数据库建立需要通过算法对输入的碱基序列进行遍历,经过仿生学运算,输出结果。本质为在应用软件的层次对数据进行处理,但是是在面对海量数据时,其处理速度受限于软件运行平台的性能,且难以获得完整的小肽库结果。

技术实现思路

[0003]为至少在一定程度上克服相关技术中建立小肽数据库时数据处理速度慢,且难以获得完整的小肽数据库的问题,本申请提供一种高效构建生物多肽活性分子数据库的方法、设备及系统。
[0004]本申请的方案如下:
[0005]根据本申请实施例的第一方面,提供一种高效构建生物多肽活性分子数据库的方法,包括:
[0006]获取碱基序列;
[0007]基于预设流程根据所述碱基序列构建多肽活性分子数据库;所述预设流程包括多个流水线并行步骤;
[0008]所述流水线并行步骤包括:
[0009]对碱基序列进行格式转化,得到数字化碱基序列;
[0010]将所述数字化碱基序列以三位一组进行拆分,得到多个数字化碱基组,将多个所述数字化碱基组按照顺序进行存储,并按序依次为每个所述数字化碱基组赋予存储地址;
[0011]遍历存储的所述数字化碱基组,判断所述数字化碱基组是否组成氨基酸终止密码子,将组成氨基酸终止密码子的数字化碱基组作为终止组,并将所述终止组的存储地址进行记录;
[0012]将相邻两个所述终止组之间的数字化碱基组作为待翻译碱基序列读出并翻译为氨基酸序列;
[0013]将所述氨基酸序列和对应的待翻译碱基序列的地址进行输出,构建生物多肽活性分子数据库。
[0014]优选的,在本申请一种可实现的方式中,所述对输入的碱基序列进行格式转化,包括:
[0015]将所述碱基序列中的各已知碱基转换为二位二进制格式。
[0016]优选的,在本申请一种可实现的方式中,所述对输入的碱基序列进行格式转化,包括:
[0017]将所述碱基序列中的各已知碱基和未知碱基均转换为三位二进制格式。
[0018]优选的,在本申请一种可实现的方式中,所述对输入的碱基序列进行格式转化前,所述方法还包括:
[0019]在多个预选起始位置中确定所述碱基序列进行格式转化的最终起始位置;所述多个预选起始位置包括:所述碱基序列第一位碱基、所述碱基序列第二位碱基和所述碱基序列第三位碱基。
[0020]优选的,在本申请一种可实现的方式中,所述对输入的碱基序列进行格式转化前,所述方法还包括:
[0021]生成所述碱基序列的互补序列;
[0022]所述对输入的碱基序列进行格式转化,得到数字化碱基序列,包括:
[0023]基于预设需求对输入的碱基序列进行格式转化,或,对所述互补序列进行格式转化,得到数字化碱基序列。
[0024]优选的,在本申请一种可实现的方式中,所述方法还包括:
[0025]判断当前待翻译碱基序列的长度,在所述当前待翻译碱基序列的长度大于预设阈值时,跳过所述当前待翻译碱基序列的翻译流程。
[0026]优选的,在本申请一种可实现的方式中,所述方法还包括:
[0027]基于当前带宽并行执行所述预设流程中的各步骤。
[0028]根据本申请实施例的第二方面,提供一种高效构建生物多肽活性分子数据库的设备,包括:
[0029]处理器和存储器;
[0030]所述处理器与存储器通过通信总线相连接:
[0031]其中,所述处理器,用于调用并执行所述存储器中存储的程序;
[0032]所述存储器,用于存储程序,所述程序至少用于执行如以上任一项所述的一种高效构建生物多肽活性分子数据库的方法。
[0033]根据本申请实施例的第三方面,提供一种高效构建生物多肽活性分子数据库的系统,包括:
[0034]获取模块和执行模块;
[0035]所述执行模块包括:转化模块、存储模块、识别模块、翻译模块和输出模块;
[0036]所述获取模块用于获取碱基序列;
[0037]所述执行模块用于基于预设流程根据所述碱基序列构建多肽活性分子数据库;所述预设流程包括多个流水线并行步骤;
[0038]所述转化模块,用于对所述碱基序列进行格式转化,得到数字化碱基序列;
[0039]所述存储模块,用于将所述数字化碱基序列以三位一组进行拆分,得到多个数字化碱基组,将多个所述数字化碱基组按照顺序进行存储,并按序依次为每个所述数字化碱基组赋予存储地址;
[0040]所述识别模块,用于遍历存储的所述数字化碱基组,判断所述数字化碱基组是否组成氨基酸终止密码子,将组成氨基酸终止密码子的数字化碱基组作为终止组,并将所述
终止组的存储地址进行记录;
[0041]所述翻译模块,用于将相邻两个所述终止组之间的数字化碱基组作为待翻译碱基序列读出并翻译为氨基酸序列;
[0042]所述输出模块,用于将所述氨基酸序列和对应的待翻译碱基序列的地址进行输出,构建生物多肽活性分子数据库。
[0043]本申请提供的技术方案可以包括以下有益效果:本申请中的高效构建生物多肽活性分子数据库的方法,包括:获取碱基序列,基于预设流程根据碱基序列构建多肽活性分子数据库。由于本申请中预设流程的各流水线步骤并行执行,相较于现有技术,鉴定和翻译效率得到极大提高。本申请中的流水线并行步骤包括:对碱基序列进行格式转化,得到数字化碱基序列;将数字化碱基序列以三位一组进行拆分,得到多个数字化碱基组,将多个数字化碱基组按照顺序进行存储,并按序依次为每个数字化碱基组赋予存储地址;遍历存储的数字化碱基组,判断数字化碱基组是否组成氨基酸终止密码子,将组成氨基酸终止密码子的数字化碱基组作为终止组,并将终止组的存储地址进行记录;将相邻两个终止组之间的数字化碱基组作为待翻译碱基序列读出并翻译为氨基酸序列;将氨基酸序列和对应的待翻译碱基序列的地址进行输出,构建生物多肽活性分子数据库。
[0044]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0045]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0046]图1是本申请一个实施例提供的一种高效构建生物多肽活性分子数据库的方法的流程示意图;
[0047]图2是本申请一个实施例提供的一种氨基酸终止密码子识别和确定碱基序列初始位置的示意图;
[0048]图3是本申请一个实施例提供的一种高效构建生物多肽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高效构建生物多肽活性分子数据库的方法,其特征在于,包括:获取碱基序列;基于预设流程根据所述碱基序列构建多肽活性分子数据库;所述预设流程包括多个流水线并行步骤;所述流水线并行步骤包括:对所述碱基序列进行格式转化,得到数字化碱基序列;将所述数字化碱基序列以三位一组进行拆分,得到多个数字化碱基组,将多个所述数字化碱基组按照顺序进行存储,并按序依次为每个所述数字化碱基组赋予存储地址;遍历存储的所述数字化碱基组,判断所述数字化碱基组是否组成氨基酸终止密码子,将组成氨基酸终止密码子的数字化碱基组作为终止组,并将所述终止组的存储地址进行记录;将相邻两个所述终止组之间的数字化碱基组作为待翻译碱基序列读出并翻译为氨基酸序列;将所述氨基酸序列和对应的待翻译碱基序列的地址进行输出,构建生物多肽活性分子数据库。2.根据权利要求1所述的方法,其特征在于,所述对输入的碱基序列进行格式转化,包括:将所述碱基序列中的各已知碱基转换为二位二进制格式。3.根据权利要求1所述的方法,其特征在于,所述对输入的碱基序列进行格式转化,包括:将所述碱基序列中的各已知碱基和未知碱基均转换为三位二进制格式。4.根据权利要求1所述的方法,其特征在于,所述对输入的碱基序列进行格式转化前,所述方法还包括:在多个预选起始位置中确定所述碱基序列进行格式转化的最终起始位置;所述多个预选起始位置包括:所述碱基序列第一位碱基、所述碱基序列第二位碱基和所述碱基序列第三位碱基。5.根据权利要求1所述的方法,其特征在于,所述对输入的碱基序列进行格式转化前,所述方法还包括:生成所述碱基序列的互补序列;所述对输入的碱基序列进行格式转化,得到数字化碱基序列,包括:基于预设需求对输入的碱基序列进行格式转化,或,对所述互补序列进行格式转化,得到数字化碱基序列...

【专利技术属性】
技术研发人员:陈家悦贾柯
申请(专利权)人:北京未名拾光生物技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1