高效构建生物多肽活性分子数据库的方法、设备及系统技术方案

技术编号：34395832 阅读：24 留言：0更新日期：2022-08-03 21:29

本申请涉及一种高效构建生物多肽活性分子数据库的方法、设备及系统，方法包括：获取碱基序列，基于预设流程根据碱基序列构建多肽活性分子数据库。由于本申请中预设流程的各流水线步骤并行执行，相较于现有技术，鉴定和翻译效率得到极大提高。本申请中的流水线并行步骤包括：对碱基序列进行格式转化得到数字化碱基序列；将数字化碱基序列进行拆分得到多个数字化碱基组并存储，还按序依次为每个数字化碱基组赋予存储地址；将构成终止组的相邻两个数字化碱基组之间的碱基序列进行翻译得到氨基酸序列。将氨基酸序列和其对应的存储地址进行输出，构建生物多肽活性分子数据库。构建生物多肽活性分子数据库。构建生物多肽活性分子数据库。

全部详细技术资料下载

【技术实现步骤摘要】
高效构建生物多肽活性分子数据库的方法、设备及系统

[0001]本申请涉及生物学数据处理
，尤其涉及一种高效构建生物多肽活性分子数据库的方法、设备及系统。

技术介绍

[0002]蛋白质(多肽)如胰岛素，生长激素等，是执行各种生命活动的直接生物活性分子，在生物体内发挥着非常重要的作用。作为比多肽更小，更容易吸收的小肽，其关键的生物学功能也已成为学界共识。现有技术在开发和鉴定小肽的过程中，数据库建立需要通过算法对输入的碱基序列进行遍历，经过仿生学运算，输出结果。本质为在应用软件的层次对数据进行处理，但是是在面对海量数据时，其处理速度受限于软件运行平台的性能，且难以获得完整的小肽库结果。

技术实现思路

[0003]为至少在一定程度上克服相关技术中建立小肽数据库时数据处理速度慢，且难以获得完整的小肽数据库的问题，本申请提供一种高效构建生物多肽活性分子数据库的方法、设备及系统。
[0004]本申请的方案如下：
[0005]根据本申请实施例的第一方面，提供一种高效构建生物多肽活性分子数据库的方法，包括：
[0006]获取碱基序列；
[0007]基于预设流程根据所述碱基序列构建多肽活性分子数据库；所述预设流程包括多个流水线并行步骤；
[0008]所述流水线并行步骤包括：
[0009]对碱基序列进行格式转化，得到数字化碱基序列；
[0010]将所述数字化碱基序列以三位一组进行拆分，得到多个数字化碱基组，将多个所述数字化碱基组按照顺序进行存储，并按序依次为每个...

【技术保护点】

【技术特征摘要】
1.一种高效构建生物多肽活性分子数据库的方法，其特征在于，包括：获取碱基序列；基于预设流程根据所述碱基序列构建多肽活性分子数据库；所述预设流程包括多个流水线并行步骤；所述流水线并行步骤包括：对所述碱基序列进行格式转化，得到数字化碱基序列；将所述数字化碱基序列以三位一组进行拆分，得到多个数字化碱基组，将多个所述数字化碱基组按照顺序进行存储，并按序依次为每个所述数字化碱基组赋予存储地址；遍历存储的所述数字化碱基组，判断所述数字化碱基组是否组成氨基酸终止密码子，将组成氨基酸终止密码子的数字化碱基组作为终止组，并将所述终止组的存储地址进行记录；将相邻两个所述终止组之间的数字化碱基组作为待翻译碱基序列读出并翻译为氨基酸序列；将所述氨基酸序列和对应的待翻译碱基序列的地址进行输出，构建生物多肽活性分子数据库。2.根据权利要求1所述的方法，其特征在于，所述对输入的碱基序列进行格式转化，包括：将所述碱基序列中的各已知碱基转换为二位二进制格式。3.根据权利要求1所述的方法，其特征在于，所述对输入的碱基序列进行格式转化，包括：将所述碱基序列中的各已知碱基和未知碱基均转换为三位二进制格式。4.根据权利要求1所述的方法，其特征在于，所述对输入的碱基序列进行格式转化前，所述方法还包括：在多个预选起始位置中确定所述碱基序列进行格式转化的最终起始位置；所述多个预选起始位置包括：所述碱基序列第一位碱基、所述碱基序列第二位碱基和所述碱基序列第三位碱基。5.根据权利要求1所述的方法，其特征在于，所述对输入的碱基序列进行格式转化前，所述方法还包括：生成所述碱基序列的互补序列；所述对输入的碱基序列进行格式转化，得到数字化碱基序列，包括：基于预设需求对输入的碱基序列进行格式转化，或，对所述互补序列进行格式转化，得到数字化碱基序列...

【专利技术属性】
技术研发人员：陈家悦，贾柯，
申请(专利权)人：北京未名拾光生物技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人