一种基于纳米孔测序芯片的DNA数据存储方法技术

技术编号：42039309 阅读：25 留言：0更新日期：2024-07-16 23:24

本发明专利技术提供了一种基于纳米孔测序芯片的DNA数据存储方法，涉及DNA数据存储技术领域，包括有效载荷、引物序列、条形码序列和若干个均匀分布于有效载荷上的锚定序列；引物序列用于启动复合核酸分子的复制或扩增；条形码序列用于识别和追踪不同的DNA特异性序列；有效载荷用于承载拟存储数据的DNA序列；锚定序列用于过滤数据、重定位和扩充条形码序列空间大小。能够精准过滤纳米孔测序得到的长度>200bp的测序读段中的高插入和删除错误，提高准确性，解决了现有技术中方法无法对应用于高纳米孔测序的长度>200bp的测序读段中的高插入和删除错误进行有效处理的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及dna数据存储，尤其是涉及一种基于纳米孔测序芯片的dna数据存储方法。

技术介绍

1、dna数据存储技术凭借其高密度、长寿命和低能耗等优势，成为未来解决数据存储问题的有力候选。如今，从这种高密度但轻质的介质中读取数字信息依赖于传统的第二代测序技术，需要几天的时间才能得出结果。同时，高昂的成本也在很大程度上阻碍dna数据存储技术走向实用。

2、作为一种新兴的测序手段，其便携性极高的minion测序仪可以类似语音信号读取单个dna的信息。不同于传统通信信道，当前纳米孔测序的一个主要问题是存在相对较高的错误率，特别是插入和删除错误占据了绝大部分，这与目前被广泛使用的第二代测序中几乎全部为替换错误的现状不同。主流的序列对齐组装算法基于第二代测序技术，主要针对短序列片段向长序列组装，不适合纳米孔测序的超长读段长度。另外，目前大部分工作停留在四种基础碱基（a、c、g、t）上，然而额外使用简并碱基（m、k、r、y）可以进一步提高信息存储密度。这些错误需要通过复杂的算法和数据处理进行校正。生成的大量数据需要强大的计算资源和精密的分析工具来处理。

3、对于传统序列方法处理高纳米孔测序读段插入和删除错误率的问题，尝试使用广度优先搜索进行序列进行纠错，但由于纳米孔测序读段长度带来的巨大搜索空间，该方法的效果有限。而且，由于碱基序列之间自身结构差异，不同的纳米孔测序读段数量不一，这对使用简并碱基存储的dna序列恢复带来困难。对于高错误率的纳米孔测序读段，现有方式虽能够解决较短的序列（几十bp）的序列组装，但对长序列

4、有鉴于此，特提出本专利技术。

技术实现思路

1、本专利技术的目的之一在于提供一种用于dna数据存储的复合核酸分子，以解决现有技术中方法无法对应用于高纳米孔测序的长度>200bp的测序读段中的高插入和删除错误进行有效处理的技术问题。

2、本专利技术的目的之二在于提供一种基于纳米孔测序芯片的dna数据存储方法。

3、本专利技术的目的之三在于提供上述的复合核酸分子或上述的dna数据存储方法在制备用于体外数据存储的dna分子或用于存储数据的dna分子的纳米孔测序读段的对齐、过滤和组装中的应用。

4、为了实现本专利技术的上述目的，特采用以下技术方案：

5、第一方面，本专利技术提供了一种用于dna数据存储的复合核酸分子，其特征在于，包括有效载荷、引物序列、条形码序列和若干个均匀分布于有效载荷上的锚定序列；

6、所述引物序列用于启动复合核酸分子的复制或扩增；

7、所述条形码序列用于识别和追踪不同的dna特异性序列；

8、所述有效载荷用于承载拟存储数据的dna序列；

9、所述锚定序列用于过滤数据、重定位和扩充条形码序列空间大小；

10、所述锚定序列包括错误发生概率最小的寡聚体。

11、进一步的，所述引物序列根据拟存储数据的dna序列设计，所述引物序列包括上游引物序列和下游引物序列；

12、所述条形码序列和锚定序列均选自核酸寡聚物、核酸均聚物、单核酸或人工合成的非自然核酸；和/或，

13、所述条形码序列由使用基于bhattacharyya距离的动态时间规整算法获得，并使用增量聚类算法选择出的代表性序列拼接而成；和/或，

14、所述代表性序列包括若干个由8个核苷酸组成的寡聚核苷酸序列和若干个由9个核苷酸组成的寡聚核苷酸序列；和/或，

15、所述锚定序列为长度为5-mers的高保真的寡聚体；和/或，

16、所述锚定序列的数量≥3个。

17、第二方面，本专利技术提供了一种基于纳米孔测序芯片的dna数据存储方法，包括以下步骤：

18、a、对拟存储数据进行复合字母编码生成有效载荷；

19、b、将条形码和锚定序列分别整合至步骤a生成的有效载荷得到上述的复合核酸分子；

20、c、通过纳米孔测序芯片对复合核酸分子进行测序，得到纳米孔测序数据，将纳米孔测序数据与复合核酸分子的碱基序列进行比对、过滤、对齐组装得到共识序列；

21、d、对共识序列进行解码得到拟存储数据。

22、进一步的，所述a包括以下步骤：

23、a-1、将拟存储数据以n字节为单位进行分段处理，不满足n的字节进行补零处理；

24、a-2、采用rs码对每个字节段进行编码，并添加冗余得到由复合碱基组成的有效载荷。

25、进一步的，所述a-2包括：

26、a-2-1、对于拟编码信息，确认当前信息位、索引位和当前的前54位二进制数，将索引位与索引位前面的54位相加，将总和与当前消息位连接起来，形成总共56位，作为哈希函数的输入；

27、a-2-2、将哈希函数的输出对可用字母表的大小求模，得到当前消息比特的最终编码结果；

28、a-2-3、将最终编码结果对应至碱基序列得到有效载荷；

29、所述碱基序列中的gc含量为40~60%；

30、所述碱基序列中碱基均聚物长度＜5。

31、进一步的，所述c包括：

32、c-1、将纳米孔测序数据分别与若干个复合核酸分子的碱基序列中的条形码序列进行比对，得到若干个条形码组；

33、c-2、根据上游引物和下游引物在各纳米孔测序数据中位置之间的核苷酸序列长度及锚定序列在各纳米孔测序数据中的位置对各条形码组的纳米孔测序数据进行过滤处理；

34、c-3、对步骤c-2过滤处理后的条形码组进行聚类，并按照类内序列量进行排序，选择位于前m个的类进行多序列对齐，组装得到共识序列；

35、所述m≥映射为基础碱基序列数量；

36、所述纳米孔测序数据包括测序质量得分≥k的测序读段，其中k为根据q-score的计算方法、序列数量和序列内错误或噪声数量设置；

37、所述测序质量得分q-score由以下公式计算：

38、；

39、其中，所述n为测序读段的核苷酸长度，qi为测序读段中每个碱基的质量得分。

40、进一步的，所述c-2包括：

41、c-2-1、计算各纳米孔测序数据中上游引物的前5位碱基和下游引物的后6位碱基之间的核苷酸序列长度l测，当l测-l设＞20nt时，过滤掉对应的纳米孔测序数据，其中，l设为复合核酸分子的碱基序列中上游引物和下游引物之间的核苷酸序列长度；

42、c-2-2、在各纳米测序数据中的参考位置内检索锚定序列位置，若未检索到锚定序列，则过滤掉对应的纳米测序数据；

43、所述参考位置包括锚定序列在复合核酸分子的碱基序列中位置的前10个核苷酸和后10个核苷酸的长度位置；

44、所述聚类采用自适应聚类方法；

45、所述聚类的参数包括min-seqs-id、c和cov-mode；

46本文档来自技高网...

【技术保护点】

1.一种用于DNA数据存储的复合核酸分子，其特征在于，包括有效载荷、引物序列、条形码序列和若干个均匀分布于有效载荷上的锚定序列；

2.根据权利要求1所述的复合核酸分子，其特征在于，所述引物序列根据拟存储数据的DNA序列设计，所述引物序列包括上游引物序列和下游引物序列；

3.一种基于纳米孔测序芯片的DNA数据存储方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的DNA数据存储方法，其特征在于，所述A包括以下步骤：

5.根据权利要求4所述的DNA数据存储方法，其特征在于，所述A-2包括：

6.根据权利要求3所述的DNA数据存储方法，其特征在于，所述C包括：

7.根据权利要求6所述的DNA数据存储方法，其特征在于，所述C-2包括：

8.根据权利要求3所述的DNA数据存储方法，其特征在于，所述D包括：

9.根据权利要求3~8任一项所述的DNA数据存储方法，其特征在于，在合成复合核酸分子之前还包括：将复合核酸分子中的复合碱基映射为常规碱基序列；

10.权利要求1或2所述的复合

...

【技术特征摘要】

1.一种用于dna数据存储的复合核酸分子，其特征在于，包括有效载荷、引物序列、条形码序列和若干个均匀分布于有效载荷上的锚定序列；

2.根据权利要求1所述的复合核酸分子，其特征在于，所述引物序列根据拟存储数据的dna序列设计，所述引物序列包括上游引物序列和下游引物序列；

3.一种基于纳米孔测序芯片的dna数据存储方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的dna数据存储方法，其特征在于，所述a包括以下步骤：

5.根据权利要求4所述的dna数据存储方法，其特征在于，所述...

【专利技术属性】
技术研发人员：李毅，赵旭阳，李骏垚，樊青远，戴菁，刘荣辉，
申请(专利权)人：南方科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人