The invention discloses a method for determining the importance of a sequence site, a device, a device and a storage medium. The method includes determining a fixed length sequence set sequence character string sequence number is generated, a set number of dimensions for the sequence number of weight vector initialization for each of the sites; site weight vector, the set number of initial component values of initial site weight vector; selected optimal search the initial iterative processing algorithm based on the site of the weight vector, to obtain the target site weight vector; the target component of the target weight vector value corresponding to each site identified as the sequence of character string in importance. Using this method can quickly and accurately determine the site of each sequence of character string in importance, provides effective information for the subsequent prediction of sequence feature string transcription factor binding site prediction, so as to ensure the accuracy of the prediction of transcription factor binding sites.
【技术实现步骤摘要】
序列位点重要度的确定方法、装置、设备及存储介质
本专利技术涉及计算机设备
,尤其涉及序列位点重要度的确定方法、装置、设备及存储介质。
技术介绍
转录是生物体中基因表达的第一个阶段,DNA的转录需要转录因子的调控,其中,转录必须要结合到DNA上才能进行转录过程的调控,DNA上与转录因子结合的部位叫做转录因子结合位点,一般地,转录因子结合位点为一个序列特征串,相当于多个序列位点组成。对转录因子中序列特征串是否为转录因子结合位点的预测判定,有助于理解转录调控机制及细胞的生长过程,对确定药物靶点有非常重要的意义,因此科研人员通常采用生物实验方法或通过计算方法查找转录因子结合位点。然而生物实验方法不仅耗时长而且代价也很昂贵,单纯依靠这类技术来对几百条或者上千条潜在的结合位点进行预测,科研人员需要付出极大的代价。因此,通过计算方法对转录因子结合位点进行预测成为科研人员常用手段,常见的计算方法如隐马氏模型方法以及位点特异性打分矩阵方法等。然而,采用现有的计算方法对给定的序列特征串进行转录因子结合位点预测时,通常在默认序列特征串中每个序列位点的重要性相同的前提下进行,很大程度影响了对转录因子结合位点预测的准确性。
技术实现思路
本专利技术实施例提供了序列位点重要度的确定方法、装置、设备及存储介质,以实现转录因子序列特征串中序列位点重要度的确定。第一方面,本专利技术实施例提供了一种序列位点重要度的确定方法,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始 ...
【技术保护点】
一种序列位点重要度的确定方法,其特征在于,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。
【技术特征摘要】
1.一种序列位点重要度的确定方法,其特征在于,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。2.根据权利要求1所述的方法,其特征在于,所述初始化各所述位点权重向量,包括:在设定取值范围内随机选定各所述位点权重向量中分量的初始分量值,其中,所述设定取值范围为(0,1)。3.根据权利要求1所述的方法,其特征在于,所述基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量,包括:将各所述初始位点权重向量作为所选定遗传算法中当前种群的个体;确定所述当前种群中各个体相对于所述等长序列串集合的适应值;如果当前符合迭代终止条件,则确定符合目标选取条件的目标适应值,将所述目标适应值对应的个体作为目标位点权重向量;否则,根据所述适应值确定下一代种群,并将所述下一代种群作为新的当前种群返回执行适应值的确定操作。4.根据权利要求3所述的方法,其特征在于,所述根据所述适应值确定下一代种群,包括:根据所述适应值从所述当前种群中选取符合设定选择条件的个体作为下一代候选种群;根据设定的交叉算子及变异算子处理所述下一代候选种群中的个体,生成下一代种群。5.根据权利要求1所述的方法,其特征在于,在将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度之后,还包括:根据所述各序列位点的重要度及设定的相似性打分公式,采用设定的预测策略对所述定长序列串集合中的序列特征串进行转录因子...
【专利技术属性】
技术研发人员:赵苗苗,陈世雄,林闯,李光林,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。