一种基于序列使用代价敏感集成和聚类预测表位的方法技术

技术编号:13542971 阅读:110 留言:0更新日期:2016-08-18 04:25
本发明专利技术属于计算生物信息技术,具体涉及一种基于序列使用代价敏感集成和聚类预测表位的方法。主要步骤包括:(1)构建抗原蛋白残基的描述性特征,这些特征包括进化保守性特征、二级结构特征、无序区域特征、二肽构成特征、理化属性;(2)使用Fisher‑Markov和增量迭代特征选择方法选择最优特征子集;(3)使用代价敏感性集成学习处理不平衡数据集;(4)使用空间聚类算法从抗原决定残基中预测潜在的表位残基。本发明专利技术适用于已知和未知结构信息的抗原蛋白表位预测,也适合大规模推广应用。

【技术实现步骤摘要】
201610207437

【技术保护点】
一种基于序列使用代价敏感集成和聚类预测表位的方法,其特征在于包括以下步骤:(1)特征构建:对于样本数据,计算抗原蛋白描述性特征,得到样本数据的特征空间;(2)特征选择:使用Fisher‑Markov和增量迭代特征选择方法选择最优特征子集;(3)代价敏感性集成学习:使用代价敏感集成策略,对于严重不平衡的样本分别赋以不同的错误分类惩罚参数,显著提高对于少数正样本的识别率;(4)空间聚类:对于预测的抗原决定残基,使用空间聚类算法,对于在设定阈值内的抗原决定残基,认定其为表位。

【技术特征摘要】

【专利技术属性】
技术研发人员:马志强张健柴海挺高博
申请(专利权)人:东北师范大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1