当前位置: 首页 > 专利查询>常州大学专利>正文

基于双向长短期记忆网络与特征融合的抗癌肽预测方法技术

技术编号:34430445 阅读:14 留言:0更新日期:2022-08-06 16:07
本发明专利技术涉及抗癌肽预测技术领域,尤其涉及基于双向长短期记忆网络与特征融合的抗癌肽预测方法,包括:读取四个基准肽序列数据集,对数据集进行氨基酸组成分析;通过Bi

【技术实现步骤摘要】
基于双向长短期记忆网络与特征融合的抗癌肽预测方法


[0001]本专利技术涉及抗癌肽预测
,尤其涉及基于双向长短期记忆网络与特征融合的抗癌肽预测方法。

技术介绍

[0002]抗癌肽(ACP)的发现,拓宽了人们对抗癌道路的视野,其特异性和肿瘤无法对它产生耐药性,解决了一些传统抗癌治疗带来的副作用,有希望成为一种癌症的替代治疗方法;抗癌肽通常由5

40个氨基酸组成;为了进一步了解抗癌肽的作用机制,已有很多对抗癌肽鉴定的生物实验方法。例如,Vidal等人通过酵母双杂交系统确定了针对细胞内肿瘤蛋白的肽合剂,Peelle等人通过哺乳动物细胞筛选发现了非细胞类型特异的新型定位肽;然而这些鉴别方法耗时严重,价格昂贵,十分复杂,难以以高通量方式实现,因此快速有效的抗癌肽鉴别显得尤为重要。
[0003]Wu等人提出PTPD模型,采用k

mer和Word2vec(词向量)提取的特征向量,输入卷积神经网络(CNN)以预测肽;Rao等人则将图卷积网络(GCN)应用到抗癌肽的预测中来,提出了ACP

GCN模型;然而这些深度学习方法只考虑到了氨基酸的原始序列信息和物理化学性质,忽略了时间层次上抗癌肽的长期相关信息,无法低成本、快速高效地识别抗癌肽。

技术实现思路

[0004]针对现有算法的不足,本专利技术实现高准确率、高马修斯相关系数、高灵敏度、高特异度和高ROC曲线下面积的抗癌肽预测。
[0005]本专利技术所采用的技术方案是:基于双向长短期记忆网络与特征融合的抗癌肽预测方法包括以下步骤:
[0006]步骤1、读取四个基准肽序列数据集,对数据集进行氨基酸组成分析;
[0007]步骤2、通过双向长短期记忆网络(Bi

LSTM)对数据集进行特征提取,生成Bi

LSTM特征向量;
[0008]进一步的,步骤2包括:
[0009]步骤2.1、为了将肽序列输入Bi

LSTM,首先按照氨基酸字母表对肽的初级字母序列进行数字编码,即为20个基本氨基酸分配数字1

20,长度不够的肽序列填充0,以保证所有肽序列长度一致;
[0010]步骤2.2、通过Bi

LSTM的嵌入层(Embedding)将输入的数字编码转化为64维向量表示;
[0011]步骤2.3、Bi

LSTM对输入64维向量进行特征提取,Bi

LSTM具体组成为:t时刻的输入x
t
,细胞状态C
t
,临时细胞状态隐层状态h
t
,遗忘门f
t
,记忆门i
t
,输出门O
t

[0012]Bi

LSTM由前向和后向长短期记忆网络层组成,每层由一个记忆单元和64维隐藏单元组成;
[0013]遗忘门(选择要遗忘的信息):
[0014]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀ
(1)
[0015]记忆门(选择要记住的信息):
[0016]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀ
(2)
[0017][0018]当前时刻细胞状态:
[0019][0020]输出门和当前时刻隐藏状态:
[0021]o
t
=σ(W
o
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀ
(5)
[0022]h
t
=O
t
·
tanh(C
t
)
ꢀꢀꢀ
(6)
[0023]其中,W和b分别代表Bi

LSTM网络学习权重和偏置;
[0024]步骤3、通过全连接神经网络对五个氨基酸特征向量进行特征提取;
[0025]步骤3.1、根据五个氨基酸特征:二元(BPF)、二肽组成(DPC)、k

间隔氨基酸基团对组成(CKSAAGP)、氨基酸组成(AAC)和序列顺序耦合数(SOCNumber),对肽的初级字母序列进行特征编码,特征编码将肽序列转换成770维的特征向量;
[0026]其中,五个特征编码包括:BPF特征编码、DPC特征编码、CKSAAGP特征编码、AAC特征编码和SOCNumber特征编码;
[0027]BPF特征编码表示为:
[0028]在二元中,每个氨基酸字母都由0/1组成的20维向量表示,例如第一个氨基酸字母A表示为f(A)=(1,0,...,0),第二个氨基酸字母C表示为f(C)=(0,1,...,0),以此类推,对于一个肽序列P,其二元特征可表示为:
[0029]B(P)=[f(p1),f(p2),...,f(p
n
)]ꢀꢀꢀ
(7)
[0030]其中,其中,P为肽序列、f(p
n
)表示某个氨基酸字母;
[0031]DPC特征编码表示为:
[0032]DPC组成由400个描述符组成,其定义为:给定肽序列中二肽组合的数量,表示为:
[0033][0034]其中,N
ab
是由氨基酸类型a和b表示的二肽的数量;
[0035]CKSAAGP特征编码表示为:
[0036]在k

间隔氨基酸基团对组成中,根据物理化学性质组成的不同组别,计算被任意k个残基隔开的氨基酸对的频率,以k=0为例,会有25个零间隔的组对(g1g1,g1g2,...,g5g5),特征向量会被定义为:
[0037][0038]其中每个描述符的值表示相应残基对在肽序列中的组成,对于长度为n的肽序列,当k=0,1,2,3...时,N
all
=n

1,n

2,n

3,n

4...。
[0039]AAC特征编码表示为:
[0040]AAC组成计算肽序列中每种氨基酸类型的频率,20个氨基酸(A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y)的频率可表示为:
[0041][0042]其中,N(a)表示氨基酸出现在肽序列的次数,N表示肽序列的长度;
[0043]SOCNumber特征编码表示为:
[0044][0045]其中,d
i,i+d
描述了两个氨基酸在位置i和i+d之间的距离,nlag表示滞后的最大值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双向长短期记忆网络与特征融合的抗癌肽预测方法,其特征在于,包括以下步骤:步骤1、读取四个基准肽序列数据集,对数据集进行氨基酸组成分析;步骤2、通过Bi

LSTM对数据集进行特征提取,生成Bi

LSTM特征向量;步骤3、通过全连接神经网络对五个氨基酸特征向量进行特征提取;步骤4、将步骤2与步骤3产生的特征向量通过Concatenate算法进行特征融合,特征向量输入一个具有512单元和relu激活函数的全连接层,通过一个具有1单元和Sigmoid激活函数的全连接层,得到概率分数,通过分数区分为抗癌肽和非抗癌肽。2.根据权利要求1所述的基于双向长短期记忆网络与特征融合的抗癌肽预测方法,其特征在于,所述步骤2包括:步骤2.1、按照氨基酸字母表对肽的初级字母序列进行数字编码;步骤2.2、通过Bi

LSTM的嵌入层将输入的数字编码转化为64维向量;步骤2.3、Bi

LSTM对输入64维向量进行特征提取,Bi

LSTM包括:t时刻的输入x
t
,细胞状态C
t
,临时细胞状态隐层状态h
t
,遗忘门f
t
,记忆门i
t
,输出门O
t
;Bi

【专利技术属性】
技术研发人员:杨森叶晨阳朱轮封红旗
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1