System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质技术方案_技高网
当前位置: 首页 > 专利查询>大连大学专利>正文

一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质技术方案

技术编号:42721839 阅读:1 留言:0更新日期:2024-09-13 12:09
本发明专利技术公开了一种基于局部敏感哈希函数的DNA序列聚类方法、系统、电子设备及可读存储介质,涉及DNA存储数据重建技术领域;首先在DNA存储数据重建阶段使更接近原始参考序列的测序数据作为聚类时的初始簇中心,降低聚类过程中的计算误差。其次通过划分索引集和哈希映射方式对需要聚类的DNA测序数据进行降维,有效简化数据的表示形式和计算复杂性。然后通过在哈希误差列表上进行相似性检索能够容忍更多的序列错误,提高聚类的鲁棒性。最后更新每个簇的中心序列,并将莱文斯坦距离相近的两个聚类中心代表的簇进行合并。本发明专利技术能够在保证不增加编码密度的基础上,提高了聚类精度,保证了数据重建效率,从而实现更为高效和可靠的DNA数据存储。

【技术实现步骤摘要】

本专利技术涉及dna存储数据重建,具体涉及一种基于局部敏感哈希函数的dna序列聚类方法、系统、电子设备及可读存储介质。


技术介绍

1、随着大数据和人工智能技术的飞速进步,全球数据量以惊人的速度增长。dna,作为生命遗传信息的核心载体,如今已转变为一种稳定且可持续的数据存储媒介。2012年,church率先提出了通过随机映射二进制数据到碱基的方法,首次验证了dna作为大规模数据存储介质的可行性。随后,goldman进一步推进了这一领域,他基于霍夫曼编码的三进制信息转换模式,成功地在dna中存储了包括文本、pdf、照片、mp3文件以及霍夫曼编码在内的总计739kb的数据。这两项里程碑式的研究不仅实现了dna存储的高容量,还极大地推动了dna存储技术的发展,引发了该领域的研究热潮。

2、一个完整的dna存储系统涵盖了编码、合成、扩增、测序和解码等多个关键步骤。然而,在这个过程中,合成和测序技术的不完善常常导致dna序列出现各种错误。此外,测序后的序列往往存在重复性和无序性,这无疑增加了数据重建的复杂性。因此,对大量测序的dna序列进行高效且准确的聚类,对于提高数据重建的效率和准确性至关重要。

3、然而,当前dna存储中的序列聚类方法在面对高错误率的三代测序数据时显得力不从心,存在聚类耗时长、精度不足等问题。为了克服这些挑战,有必要探索新的聚类方法,以更好地适应dna存储技术的发展需求。


技术实现思路

1、本专利技术的目的在于,提出一种基于局部敏感哈希函数的dna序列聚类方法、系统、电子设备及可读存储介质,通过结合序列的重复次数、长度偏差和局部敏感哈希技术,实现dna序列的高效聚类,提高数据重建的效率和准确率。

2、根据本公开实施例的第一个方面,提供了一种基于局部敏感哈希函数的dna序列聚类方法,包括以下步骤:

3、将测序后的dna序列按照重复出现的次数从高到低进行排序;对排序后的dna序列按照序列长度差进行二次排序;

4、使用特定大小的滑动窗口,将每一条dna序列切割成长度为k的dna片段,即k-mer;挑选若干个位置的k-mer以及该位置向左和向右偏移固定位置的k-mer,组成多个k-mer集合;

5、获取每个k-mer集合中元素的局部敏感哈希值;

6、将所有哈希值组合在一起,构成该序列的哈希草图;

7、根据k值的大小自动获取一个哈希误差列表;

8、挑选最前面的序列作为初始聚类中心;将该序列的哈希草图添加到核心索引集中;

9、将其余所有序列的哈希草图与核心索引集中的元素进行相似性检索:如果两条序列哈希草图的差值在哈希误差列表中,则认为检索成功,这两条序列是相似的归为一类;

10、当所有序列检索完毕后,得到每一个簇中各个元素的邻域样本数;将具有最多邻域样本数的序列作为该簇新的聚类中心;

11、得到所有聚类中心之间的莱文斯坦距离;将小于设定阈值的簇合并成一个更大的簇,得到最终的聚类结果。

12、进一步地,所述局部敏感哈希值的计算方式为:

13、

14、其中,k为k-mer的长度,xi为相应碱基映射成的哈希值。

15、进一步地,哈希误差列表如下所示:

16、{yi×4i|yi∈[-3,3],i∈[1,k]}

17、其中,yi是碱基发生替换错误时,对应的哈希差值。

18、进一步地,进行相似性检索时,若检索失败,则将该序列作为一个新的簇,并将其哈希草图添加到核心索引集中。

19、进一步地,将测序后的dna序列按照重复出现的次数从高到低进行排序,具体为:通过统计每条dna序列在数据集中的重复计数,将其按照从高到低的顺序进行重新排序。

20、进一步地,对排序后的dna序列按照序列长度差进行二次排序,具体为:计算每条序列与原始编码序列之间的长度差,将其按照从大到小的顺序进行二次排序。

21、根据本公开实施例的第二个方面,提供了一种基于局部敏感哈希函数的dna序列聚类系统,包括:

22、排序处理模块:将测序后的dna序列按照重复出现的次数从高到低进行排序;对排序后的dna序列按照序列长度差进行二次排序;

23、k-mer提取模块:使用特定大小的滑动窗口,将每一条dna序列切割成长度为k的dna片段,即k-mer;挑选若干个位置的k-mer以及该位置向左和向右偏移固定位置的k-mer,组成多个k-mer集合;

24、哈希草图构建模块:获取每个k-mer集合中元素的局部敏感哈希值;将所有哈希值组合在一起,构成该序列的哈希草图;

25、哈希误差列表计算模块:根据k值的大小自动获取一个哈希误差列表;

26、初始聚类中心选择模块:挑选最前面的序列作为初始聚类中心;将该序列的哈希草图添加到核心索引集中;

27、相似性检索与聚类模块:将其余所有序列的哈希草图与核心索引集中的元素进行相似性检索:如果两条序列哈希草图的差值在哈希误差列表中,则认为检索成功,这两条序列是相似的归为一类;

28、聚类中心修正模块:当所有序列检索完毕后,得到每一个簇中各个元素的邻域样本数;将具有最多邻域样本数的序列作为该簇新的聚类中心;

29、簇合并模块:得到所有聚类中心之间的莱文斯坦距离;将小于设定阈值的簇合并成一个更大的簇,得到最终的聚类结果。

30、根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于局部敏感哈希函数的dna序列聚类方法。

31、根据本公开实施例的第四个方面,提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于局部敏感哈希函数的dna序列聚类方法。

32、本专利技术采用的以上技术方案,与现有技术相比,具有的优点是:

33、1.双重排序策略提升聚类精度:在进行序列聚类之前,本专利技术引入了一种双重排序策略。该策略首先根据序列的重复次数进行排序,随后结合序列长度的偏差进行二次排序。这种排序方法能够优先处理错误率较低的序列,有效减少了聚类过程中因序列错误导致的分流问题,从而显著提升了聚类的精度。

34、2.局部敏感哈希技术增强聚类鲁棒性:为了降低聚类的时间复杂度并提升对序列错误的容忍度,本专利技术采用了基于局部敏感哈希技术的序列表示方法。该方法不仅能够显著降低聚类过程中的计算成本,还能通过设置合理的偏移范围来适应更多的序列变异,从而极大地增强了聚类的鲁棒性。

35、3.聚类中心修正与簇合并策略优化dna序列聚类:针对dna序列聚类中初始聚类中心不准确和计算误差导致的结果碎片化问题,本专利技术提出了一种创新的解决方案。通过计算邻域并修正聚类中心的方式,有效提高了聚类中心的精确度。同时,利用中心莱文斯坦距离的计算方法,能够将相似的簇进行合本文档来自技高网...

【技术保护点】

1.一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,所述局部敏感哈希值的计算方式为:

3.根据权利要求1所述一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,哈希误差列表如下所示:

4.根据权利要求1所述一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,进行相似性检索时,若检索失败,则将该序列作为一个新的簇,并将其哈希草图添加到核心索引集中。

5.根据权利要求1所述一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,将测序后的DNA序列按照重复出现的次数从高到低进行排序,具体为:通过统计每条DNA序列在数据集中的重复计数,将其按照从高到低的顺序进行重新排序。

6.根据权利要求1所述一种基于局部敏感哈希函数的DNA序列聚类方法,其特征在于,对排序后的DNA序列按照序列长度差进行二次排序,具体为:计算每条序列与原始编码序列之间的长度差,将其按照从大到小的顺序进行二次排序。

7.一种基于局部敏感哈希函数的DNA序列聚类系统,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述的一种基于局部敏感哈希函数的DNA序列聚类方法。

9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述的一种基于局部敏感哈希函数的DNA序列聚类方法。

...

【技术特征摘要】

1.一种基于局部敏感哈希函数的dna序列聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于局部敏感哈希函数的dna序列聚类方法,其特征在于,所述局部敏感哈希值的计算方式为:

3.根据权利要求1所述一种基于局部敏感哈希函数的dna序列聚类方法,其特征在于,哈希误差列表如下所示:

4.根据权利要求1所述一种基于局部敏感哈希函数的dna序列聚类方法,其特征在于,进行相似性检索时,若检索失败,则将该序列作为一个新的簇,并将其哈希草图添加到核心索引集中。

5.根据权利要求1所述一种基于局部敏感哈希函数的dna序列聚类方法,其特征在于,将测序后的dna序列按照重复出现的次数从高到低进行排序,具体为:通过统计每条dna序列在数...

【专利技术属性】
技术研发人员:王宾邵奇满惠子蒋伟吕卉周士华张强魏小鹏
申请(专利权)人:大连大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1