一种信息处理方法、装置及计算机可读存储介质制造方法及图纸

技术编号:34758313 阅读:10 留言:0更新日期:2022-08-31 18:56
本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质,本申请实施例获取蛋白质样本信息,并将蛋白质样本信息分解为氨基酸残基图结构数据;将氨基酸残基图结构数据输入图神经网络,输出多个氨基酸残基节点向量;根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本;将氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合;将多个聚类类型作为标签信息与多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型;根据预设分类模型对待检测氨基酸残基进行分类。以此,通过对氨基酸残基进行向量表达,并基于自监督学习,得到识别氨基酸的模型,极大提升了信息处理的效率。升了信息处理的效率。升了信息处理的效率。

【技术实现步骤摘要】
一种信息处理方法、装置及计算机可读存储介质


[0001]本申请涉及计算机
,具体涉及一种信息处理方法、装置及计算机可读存储介质。

技术介绍

[0002]人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]在传统的虚拟药物筛选、蛋白质性质分析的过程需要消耗大量的资源,使得研发周期大幅度增加的同时研发费用巨大,造成资源的浪费,因此,将人工智能技术应用于药物筛选中,可以大幅度的减少相关实验所需的时间和费用。
[0004]在对现有技术的研究和实践过程中,本申请的专利技术人发现,现有技术中,经过人工标注的蛋白质信息较少,且增加新的标注数据需要依赖于领域专家的知识,信息处理的成本较高且效率较低。

技术实现思路

[0005]本申请实施例提供一种信息处理方法、装置及计算机可读存储介质,可以提升信息处理的效率。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]一种信息处理方法,包括:
[0008]获取蛋白质样本信息,并将所述蛋白质样本信息分解为氨基酸残基图结构数据;
[0009]将所述氨基酸残基图结构数据输入图神经网络,输出多个氨基酸残基节点向量;
[0010]根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本;
[0011]将所述氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合;
[0012]将所述多个聚类类型作为标签信息与所述多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型;
[0013]根据所述训练后的预设分类模型对待检测氨基酸残基进行分类。
[0014]一种信息处理装置,包括:
[0015]获取单元,用于获取蛋白质样本信息,并将所述蛋白质样本信息分解为氨基酸残基图结构数据;
[0016]第一输入单元,用于将所述氨基酸残基图结构数据输入图神经网络,输出多个氨基酸残基节点向量;
[0017]构建单元,用于根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本;
[0018]聚类单元,用于将所述氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合;
[0019]第二输入单元,用于将所述多个聚类类型作为标签信息与所述多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型;
[0020]分类单元,用于根据所述训练后的预设分类模型对待检测氨基酸残基进行分类。
[0021]在一些实施例中,所述第二输入单元,用于:
[0022]依次根据每一氨基酸残基节点向量对应的氨基酸类型从所述多个聚类类型中选取目标聚类类型进行标签标定;
[0023]将标签标定后的氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型。
[0024]在一些实施例中,所述装置,还包括:
[0025]求和单元,用于将属于同一蛋白质的氨基酸残基节点向量进行求和运算,得到蛋白质表示向量;
[0026]第三输入单元,用于将氨基酸残基节点向量和对应的蛋白质向量输入预设二分类模型进行训练,得到训练后的预设二分类模型;
[0027]判定单元,用于根据所述预设二分类模型对待检测氨基酸残基是否属于待检测蛋白质进行判定。
[0028]一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述信息处理方法中的步骤。
[0029]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述信息处理方法中的步骤。
[0030]一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机上述信息处理方法中的步骤。
[0031]本申请实施例通过获取蛋白质样本信息,并将蛋白质样本信息分解为氨基酸残基图结构数据;将氨基酸残基图结构数据输入图神经网络,输出多个氨基酸残基节点向量;根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本;将氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合;将多个聚类类型作为标签信息与多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型;根据预设分类模型对待检测氨基酸残基进行分类。以此,通过对氨基酸残基进行向量表达,并基于自监督学习,得到识别氨基酸的模型,相对于现有的对蛋白质信息进行人工标注的方案而言,本申请可以合理、有效的进行自监督学习,使用大量无标注的蛋白质样本信息进行模型训练,极大提升了信息处理的效率。
附图说明
[0032]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1是本申请实施例提供的信息处理系统的场景示意图;
[0034]图2是本申请实施例提供的信息处理方法的流程示意图;
[0035]图3是本申请实施例提供的信息处理方法的另一流程示意图;
[0036]图4a为本申请实施例提供的信息处理方法的场景示意图;
[0037]图4b为本申请实施例提供的信息处理方法的另一场景示意图;
[0038]图4c为本申请实施例提供的信息处理方法的另一场景示意图;
[0039]图5是本申请实施例提供的信息处理装置的结构示意图;
[0040]图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
[0041]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0042]本专利技术实施例提供一种信息处理方法、装置、存储介质及计算机设备。其中,该信息处理方法可以使用于信息处理装置中。该信息处理装置可以集成在计算机设备中,该计算机设备可以是具有信息处理功能的终端。其中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、可穿戴设备、车载计算机等,但并不局限于此。该计算机设备也可以是服务器,其中,服务器可以是独立的物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取蛋白质样本信息,并将所述蛋白质样本信息分解为氨基酸残基图结构数据;将所述氨基酸残基图结构数据输入图神经网络,输出多个氨基酸残基节点向量;根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本;将所述氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合;将所述多个聚类类型作为标签信息与所述多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型;根据所述训练后的预设分类模型对待检测氨基酸残基进行分类。2.根据权利要求1所述的信息处理方法,其特征在于,所述将所述蛋白质样本信息分解为氨基酸残基图结构数据的步骤,包括:根据所述蛋白质样本信息中的氨基酸残基作为节点,生成多个氨基酸残基节点;将具有关联关系的氨基酸残基节点之间进行边连接,得到氨基酸残基图结构数据。3.根据权利要求2所述的信息处理方法,其特征在于,所述将具有关联关系的氨基酸残基节点之间进行边连接的步骤,包括:计算每一氨基酸残基节点之间的空间距离信息;将所述空间距离信息小于预设阈值的氨基酸残基节点之间进行边连接。4.根据权利要求1所述的信息处理方法,其特征在于,所述根据蛋白质样本信息中的每一氨基酸残基之间的关联度关系构建多个氨基酸微环境样本的步骤,包括:获取蛋白质样本信息中的每一氨基酸残基之间的关联度;依次以每一氨基酸残基作为中心点,在以作为中心点的氨基酸残基的相对方向上,分别选取预设数量个与所述作为中心点的氨基酸残基的关联度大于预设阈值的氨基酸残基构建多个氨基酸微环境样本。5.根据权利要求4所述的信息处理方法,其特征在于,所述分别选取预设数量个与所述作为中心点的氨基酸残基的关联度大于预设阈值的氨基酸残基构建多个氨基酸微环境样本的步骤,包括:分别选取两个与所述作为中心点的氨基酸残基的关联度大于预设阈值的氨基酸残基构建多个氨基酸微环境样本。6.根据权利要求1所述的信息处理方法,其特征在于,所述将所述氨基酸微环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合的步骤,包括:对每一氨基酸微环境样本之间进行对齐操作,得到对齐后的氨基酸微环境样本;计算对齐后的氨基酸微环境样本之间的相似度,得到对齐后的氨基酸微环境样本之间的相似性矩阵;根据所述相似性矩阵对对齐后的氨基酸环境样本进行聚类,得到多个聚类类型的氨基酸微环境样本集合。7.根据权利要求1至6任一项所述的信息处理方法,其特征在于,所述将所述多个聚类类型作为标签信息与所述多个氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型的步骤,包括:依次根据每一氨基酸残基节点向量对应的氨基酸类型从所述多个聚类类型中选取目
标聚类类型进行标签标定;将标签标定后的氨基酸残基节点向量输入预设分类模型进行训练,得到训练后的预设分类模型。8.根据权利要求1至6任...

【专利技术属性】
技术研发人员:陈煜钊卞亚涛荣钰徐挺洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1