一种基于生成式对抗网络的DNA存储纠错方法及系统技术方案

技术编号：41626004 阅读：24 留言：0更新日期：2024-06-13 02:25

本说明书实施例提供了一种基于生成式对抗网络的DNA存储纠错方法及系统，其中，方法包括：基于A、T、C、G分布均匀的DNA模板链生成DNA序列数据集，分为训练集和测试集；构建生成式对抗网络模型GAN，基于训练集对生成式对抗网络模型GAN进行训练，并通过测试集进行测试后得到训练好的GAN模型；对存储的DNA分子序列进行测序，根据测序结果进行聚类筛选，得到DNA簇；根据预设规则选取合适的DNA簇，对测序得到序列信息按照预设的规则进行图像转换，生成对应的序列图片；将生成的序列图片经GAN模型的生成器得到纠错后的图片信息，再按照规则还原成编码序列，完成纠错。本发明专利技术能够获得到准确和可信的DNA序列，复现率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本文件涉及dna存储，尤其涉及一种基于生成式对抗网络的dna存储纠错方法及系统。

技术介绍

1、随着分布式、云计算和物联网技术的不断发展，全球每天产生的数据总量呈指数级增长。据国际数据公司(idc)预测，到2025年，全球的数据信息总量将达到175zb。然而，传统的磁、光、电等存储技术已无法满足未来持续增长的数据存储需求。相比之下，脱氧核糖核酸(dna)分子作为生命信息存储介质，具有存储容量、稳定性和能耗方面的巨大优势。预计，dna分子的存储密度可达到约107gb/mm3，比传统存储介质提高了6个数量级。因此，dna分子有望成为一种极具潜力的存储介质，解决海量大数据存储的难题。

2、但是，现在的dna存储技术存在着一些问题。dna存储由五个阶段组成：dna合成、聚合酶链反应(pcr)、序列衰变、取样和测序。由于目前合成生物技术的限制，这些阶段最终输出一组无序的噪声序列(reads)，这些序列可能会出现序列损失和插入-删除-替换(ids)错误。通常对测序文件进行聚类，将来自同一编码序列的噪声读取分组成簇。之后，进行纠错重构，这也是本专利的主题，旨在从一组噪声的读取中推断出编码序列。

3、在过去的十年中，dna存储中的测序重建问题引起了相当大的关注。现有的研究可以大致分为两组：纠错码(ecc)方法、多序列比对的方法。早期的研究工作主要采用ecc，如reed-solomon码、bch码、hamming码和ldpc码。这些方法通常包括逻辑冗余，并采用序列选择方法，首先选择正确长度的序列，并对错误进行校正。然而，当

技术实现思路

1、本说明书一个或多个实施例提供了一种基于生成式对抗网络的dna存储纠错方法，包括：

2、s1.基于a、t、c、g分布均匀的dna模板链生成dna序列数据集，将生成的数据集分为训练集和测试集；

3、s2.构建生成式对抗网络模型gan，基于所述训练集对生成式对抗网络模型gan进行训练，并通过所述测试集进行测试后得到训练好的gan模型；

4、s3.对存储的dna分子序列进行测序，根据测序结果进行聚类筛选，得到dna簇；

5、s4.根据预设规则选取合适的dna簇，对测序得到序列信息按照预设的规则进行图像转换，生成当前dna簇对应的序列图片；

6、s5.将生成的序列图片输入gan模型的生成器，得到纠错后的图片信息，再按照规则还原成编码序列，完成对dna序列的纠错。

7、进一步地，所述基于a、t、c、g分布均匀的dna模板链生成dna序列数据集具体方法为：

8、生成11000个dna模板链，每个所述dna模板链中碱基a、t、c、g含量相等且分布均匀；

9、对于每个所述dna模板链，生成50个测序序列；每个所述测序序列中的每个碱基发生各种错误的概率相等，所述错误包括碱基插入、删除和替换；

10、把50个测序序列按照预设规则进行图像转换，生成当前50个测序序列对应的序列图片；

11、将模板链复制50次，也通过按照预设规则转为序列图片，得到11000个样本，所述样本为一条dna模板链生成的50条测序dna。

12、进一步地，所述替换错误中，当前碱基替换成其他三种碱基的概率也是相等的。

13、进一步地，所述构建生成式对抗网络模型gan，基于所述训练集对生成式对抗网络模型gan进行训练，并通过所述测试集进行测试后得到训练好的gan模型具体方法为：

14、根据预设规则对训练集样本进行图像转换，将所得到的两个不同方向的图片，进行通道叠加，得到一个6通道的张量x；

15、将x放入生成器模型，通过生成器模型产生纠错后的结果图片g(x)；

16、将g(x)和x的其中一张图片进行通道叠加后，放入判别器，或将正确的编码序列图片y和x的其中一张图片进行通道叠加后，放入判别器；

17、将判别器得到的结果分别与0，1计算均方差损失mse，记为如下所示：

18、

19、将g(x)与y计算平均绝对误差mae，记为如下所示：

20、

21、基于所述均方差损失mse和平均绝对误差mae权重计算总损失，如下所示：

22、

23、其中λ为超参数；

24、通过总损失进行后向传播，重新调整模型参数，重复以上步骤n个轮次，得到训练好的gan模型。

25、进一步地，所述对存储的dna分子序列进行测序，根据测序结果进行聚类筛选，得到dna簇具体方法为：

26、用测序仪测序dna分子序列，读取后记为测序序列；

27、对所述测序序列进行聚类处理，具体的：

28、选择初始化的k个样本作为初始聚类中心；

29、针对数据集中每个样本计算它到k个聚类中心的编辑距离并将其分到距离最小的聚类中心所对应的类中；

30、针对每个类别，重新计算它的聚类中心，新的聚类中心为该类的所有样本的质心；

31、重复以上两步操作，直到达到预设的中止条件，得到多个dna簇。

32、进一步地，所述根据预设规则选取合适的dna簇，对测序得到序列信息按照预设的规则进行图像转换，生成当前dna簇对应的序列图片具体方法为：

33、选取合适的dna簇，选取的dna簇中，测序序列数量不少于50个；

34、将剩余的dna簇，每个簇分别按照左右两个方向进行对齐，并按照dna模板链的长度用无碱基n进行填充补齐，剪掉大于模板链长度的部分；

35、将每个簇按照一一对应的规则进行转换，一个碱基对应一种颜色，无碱基n的地方对应白色，一个簇得到2张图片。

36、进一步地，所述将生成的序列图片输入gan模型的生成器，得到纠错后的图片信息，再按照规则还原成编码序列，完成对dna序列的纠错具体方法为：

37、将测序序列的序列图片放入训练好的gan模型的生成器中；

38、对得到的纠错后序列，替换原本测序序列类中质量较差的测序序列，按照预设规则再次生成序列图片，再次放入训练好的gan模型中；

39、重复n次以上步骤；

40、将得到的最后一次的图片信息为纠错后的信息，按照预设规则还原成碱基序列，找到测序序列对应的dna模板链，完成纠错。

41、本说明书一个或多个实施例提供了一种基于生成式对抗网络的dna存储纠错系统，包括：

42、数据生成模块：用于基于a、t、c、g分布均匀的dna模板链生成dna序列数据集，将生成的数据集分为训练集和测本文档来自技高网...

【技术保护点】

1.一种基于生成式对抗网络的DNA存储纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于A、T、C、G分布均匀的DNA模板链生成DNA序列数据集具体方法为：

3.根据权利要求2所述的方法，其特征在于，替换错误中，当前碱基替换成其他三种碱基的概率也是相等的。

4.根据权利要求1所述的方法，其特征在于，所述构建生成式对抗网络模型GAN，基于所述训练集对生成式对抗网络模型GAN进行训练，并通过所述测试集进行测试后得到训练好的GAN模型具体方法为：

5.根据权利要求1所述的方法，其特征在于，所述对存储的DNA分子序列进行测序，根据测序结果进行聚类筛选，得到DNA簇具体方法为：

6.根据权利要求1所述的方法，其特征在于，所述根据预设规则选取合适的DNA簇，对测序得到序列信息按照预设的规则进行图像转换，生成当前DNA簇对应的序列图片具体方法为：

7.根据权利要求1所述的方法，其特征在于，所述将生成的序列图片输入GAN模型的生成器，得到纠错后的图片信息，再按照规则还原成编码序列，完成对DNA序列的纠错具体方法为：

8.一种基于生成式对抗网络的DNA存储纠错系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种存储介质，其特征在于，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现如权利要求1至7任一所述的基于生成式对抗网络的DNA存储纠错方法的步骤。

...

【技术特征摘要】

1.一种基于生成式对抗网络的dna存储纠错方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于a、t、c、g分布均匀的dna模板链生成dna序列数据集具体方法为：

3.根据权利要求2所述的方法，其特征在于，替换错误中，当前碱基替换成其他三种碱基的概率也是相等的。

4.根据权利要求1所述的方法，其特征在于，所述构建生成式对抗网络模型gan，基于所述训练集对生成式对抗网络模型gan进行训练，并通过所述测试集进行测试后得到训练好的gan模型具体方法为：

5.根据权利要求1所述的方法，其特征在于，所述对存储的dna分子序列进行测序，根据测序结果进行聚类筛选，得到dna簇具体方法为：

<...

【专利技术属性】
技术研发人员：刘文斌，郑晓东，昝乡镇，许鹏，陈智华，石晓龙，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人