序列位点重要度的确定方法、装置、设备及存储介质制造方法及图纸

技术编号:16886018 阅读:30 留言:0更新日期:2017-12-27 03:49
本发明专利技术公开了序列位点重要度的确定方法、装置、设备及存储介质。该方法包括确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。利用该方法,能够准确快速的确定序列特征串中各序列位点的重要度,为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。

Method, device, equipment and storage medium for determining the importance of sequence loci

The invention discloses a method for determining the importance of a sequence site, a device, a device and a storage medium. The method includes determining a fixed length sequence set sequence character string sequence number is generated, a set number of dimensions for the sequence number of weight vector initialization for each of the sites; site weight vector, the set number of initial component values of initial site weight vector; selected optimal search the initial iterative processing algorithm based on the site of the weight vector, to obtain the target site weight vector; the target component of the target weight vector value corresponding to each site identified as the sequence of character string in importance. Using this method can quickly and accurately determine the site of each sequence of character string in importance, provides effective information for the subsequent prediction of sequence feature string transcription factor binding site prediction, so as to ensure the accuracy of the prediction of transcription factor binding sites.

【技术实现步骤摘要】
序列位点重要度的确定方法、装置、设备及存储介质
本专利技术涉及计算机设备
,尤其涉及序列位点重要度的确定方法、装置、设备及存储介质。
技术介绍
转录是生物体中基因表达的第一个阶段,DNA的转录需要转录因子的调控,其中,转录必须要结合到DNA上才能进行转录过程的调控,DNA上与转录因子结合的部位叫做转录因子结合位点,一般地,转录因子结合位点为一个序列特征串,相当于多个序列位点组成。对转录因子中序列特征串是否为转录因子结合位点的预测判定,有助于理解转录调控机制及细胞的生长过程,对确定药物靶点有非常重要的意义,因此科研人员通常采用生物实验方法或通过计算方法查找转录因子结合位点。然而生物实验方法不仅耗时长而且代价也很昂贵,单纯依靠这类技术来对几百条或者上千条潜在的结合位点进行预测,科研人员需要付出极大的代价。因此,通过计算方法对转录因子结合位点进行预测成为科研人员常用手段,常见的计算方法如隐马氏模型方法以及位点特异性打分矩阵方法等。然而,采用现有的计算方法对给定的序列特征串进行转录因子结合位点预测时,通常在默认序列特征串中每个序列位点的重要性相同的前提下进行,很大程度影响了对转录因子结合位点预测的准确性。
技术实现思路
本专利技术实施例提供了序列位点重要度的确定方法、装置、设备及存储介质,以实现转录因子序列特征串中序列位点重要度的确定。第一方面,本专利技术实施例提供了一种序列位点重要度的确定方法,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。第二方面,本专利技术实施例提供了一种序列位点重要度的确定装置,包括:向量生成模块,用于确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;向量初始模块,用于初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;向量处理模块,用于基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;重要度确定模块,用于将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。第三方面,本专利技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例提供的序列位点重要度的确定方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例提供的序列位点重要度的确定方法。在上述序列位点重要度的确定方法、装置、设备及存储介质中,所提方法首先确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为序列位点数的位点权重向量;然后初始化上述位点权重向量,获得设定数量的具有初始分量值的初始位点权重向量;之后基于选定的最优解搜索算法迭代处理各初始位点权重向量,获得目标位点权重向量,最终将目标位点权重向量中个目标分量值对应确定为序列特征串中各序列位点的重要度。上述技术方案,能够准确快速的确定序列特征串中各序列位点的重要度,为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。附图说明图1为本专利技术实施例一提供的一种序列位点重要度的确定方法的流程示意图;图2为本专利技术实施例二提供的一种序列位点重要度的确定方法的流程示意图;图3为本专利技术实施例三提供的一种序列位点重要度的确定装置的结构框图;图4为本专利技术实施例四提供的一种计算机设备的硬件结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种序列位点重要度的确定方法的流程示意图,该方法适用于对转录因子序列特征串中序列位点重要度进行确定的情况,该方法可以由序列位点重要度的确定装置执行,其中该装置可由软件和/或硬件实现,并一般集成计算机设备上。如图1所示,本专利技术实施例一提供的一种序列位点重要度的确定方法,包括如下操作:需要说明的是,基于现有预测方法对转录因子中的序列特征串进行转录因子结合位点预测时,因不考虑序列特征串各序列位点的不同重要度,所以技术人员缺乏对序列位点重要度方面的研究。本实施提供了序列位点重要度的确定方法,并在转录因子结合位点预测时将序列位点重要度考虑其中,从而增加了预测结果的准确性。S101、确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量。本实施例中的序列特征串可以理解为用来进行转录因子结合位点预测的一段转录因子数据。一般地,每一种转录因子数据的长度是给定的,其给定的长度相当于本实施例待确定的序列位点数,例如Ebox转录因子数据的长度为10,MYc转录因子数据的长度为7,即,Ebox转录因子数据对应的序列为点数为10,MYc转录因子数据对应的序列为点数为7。需要说明的是,在进行本实施例的操作之前,首先通过特定的数据处理方法获得包含多个长度相同的序列特征串的定长序列串集合。具体地,为保证后续所确定重要度结果的准确性,本实施例选取了学术界常用和一些较为重要的转录因子数据作为序列特征串,如,本实施例可以从TRANSFAC数据库下载多套转录因子数据,并分别从多套转录因子数据中选取部分转录因子数据作为符合本实施例要求的序列特征串的选取对象,其中,TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的描述信息的数据库。本实施例在TRANSFAC数据库中选取任一套转录因子数据,处理获得定长序列串集合过程可描述为:1)从一套转录因子数据中提取多条数据长度相同的序列特征串;2)从Ensembl数据库中得到每条序列特征串对应的目标基因序列和启动子区域信息,以判断相应的序列特征串是否为已确定为转录因子结合位点,其中,Ensembl数据库具体存储了目前已通过生物实验确定出的转录因子结合位点信息;3)将基于2)确定为转录因子结合位点的序列特征串记作正序列特征串,并将基于2)确定不是转录因子结合位点的序列特征串记作负序列特征串;4)选取为正序列特征串10倍数量的负序列特征串,同时保证正序列特征串和负序列特征串中各序列位点的数据不同,即,保证正序列特征串和负序列特征串之间没有任何重叠;5)基于确定的正序列特征串和选取的负序列特征串组成定长序列串集合。可以理解的是,一个定长序列串集合对应所选取的一套转录因子数据。本实施例优选地对TRANSFAC数据库中的13套转录因子数据进行了上述的数据处理操作,由此各套转录因子数据所对应的定长序列串集合中,其正序列特征串的数量以及负序列特征串的数量可以如下表1表示:表1不同定长序列串集合中所包含序列特征串的数量序列串集合Q6MAZQ601_MAZ本文档来自技高网...
序列位点重要度的确定方法、装置、设备及存储介质

【技术保护点】
一种序列位点重要度的确定方法,其特征在于,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。

【技术特征摘要】
1.一种序列位点重要度的确定方法,其特征在于,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。2.根据权利要求1所述的方法,其特征在于,所述初始化各所述位点权重向量,包括:在设定取值范围内随机选定各所述位点权重向量中分量的初始分量值,其中,所述设定取值范围为(0,1)。3.根据权利要求1所述的方法,其特征在于,所述基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量,包括:将各所述初始位点权重向量作为所选定遗传算法中当前种群的个体;确定所述当前种群中各个体相对于所述等长序列串集合的适应值;如果当前符合迭代终止条件,则确定符合目标选取条件的目标适应值,将所述目标适应值对应的个体作为目标位点权重向量;否则,根据所述适应值确定下一代种群,并将所述下一代种群作为新的当前种群返回执行适应值的确定操作。4.根据权利要求3所述的方法,其特征在于,所述根据所述适应值确定下一代种群,包括:根据所述适应值从所述当前种群中选取符合设定选择条件的个体作为下一代候选种群;根据设定的交叉算子及变异算子处理所述下一代候选种群中的个体,生成下一代种群。5.根据权利要求1所述的方法,其特征在于,在将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度之后,还包括:根据所述各序列位点的重要度及设定的相似性打分公式,采用设定的预测策略对所述定长序列串集合中的序列特征串进行转录因子...

【专利技术属性】
技术研发人员:赵苗苗陈世雄林闯李光林
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1