System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本发申请涉及dna数据存储,尤其涉及一种基于混合编码策略的高效dna存储方法、系统。
技术介绍
1、随着信息技术的快速发展,数据的指数级增长与当前主流存储介质的有限容量之间的差距越来越明显。面对数据存储的压力,亟需开发更高效的存储介质,dna存储被视为一种具有巨大潜力的新型数据存储介质。dna数据存储通过合成技术将数据信息写入到dna中,并通过测序技术将数据信息从dna中读出,常规的dna数据存储主要流程包括:编码、合成、存储、检索、测序和解码。
2、现有的dna数据存储在合成、dna储存、检索和测序过程中都可能会出现缺失、插入和替换等碱基错误,因而存在低效和不稳定的问题。当前dna数据存储为了提高存储性能,往往针对某一特定目的进行设计,尽管在一定环境下实现了较高的性能,但在处理多类型复杂数据时限制了整体的性能。因此,如何将数据稳定、高效地存储到dna序列中,是亟待解决的技术问题。
技术实现思路
1、鉴于上述问题,本申请实施例提供了一种基于混合编码策略的高效dna存储方法、系统,以便克服上述问题或者至少部分地解决上述问题。
2、本申请实施例的第一方面,公开了基于混合编码策略的高效dna存储方法,所述方法包括:
3、对待存储的原始数据进行统计分析,得到数据属性,所述数据属性包括:数据类型、数据量大小、数据分布;
4、根据所述数据属性和编码需求,确定混合编码器的编码算法和参数设置,所述编码算法为低密度奇偶校验编码或极化编码;
6、根据二进制数据到四位碱基的映射关系,将所述带有冗余的码字序列进行转换,得到数据存储dna序列;
7、根据所述原始数据和所述混合编码器,为所述数据存储dna序列添加引物和标记位,得到最终的数据存储dna序列,所述引物用于记录存储所述原始数据的dna序列的信息,所述标记位至少用于记录所述混合编码器的参数设置。
8、可选地,根据二进制数据到四位碱基的映射关系,将所述带有冗余的码字序列进行转换,得到数据存储dna序列,包括:
9、根据所述二进制数据到四位碱基的映射关系,将所述带有冗余的码字序列进行转换为初始dna序列;
10、判断所述初始dna序列是否满足约束条件,所述约束条件包括:所述初始dna序列中胞嘧啶碱基和鸟嘌呤碱基总含量是否在预设范围内,以及所述初始dna序列中的长均聚物的长度是否小于长度阈值;
11、在不满足约束条件的情况下,对所述初始dna序列进行伪随机化构造,得到满足约束的数据存储dna序列,所述伪随机化构造是指:递归调用伪随机库与所述初始dna序列进行和积运算。
12、可选地,根据所述原始数据和所述混合编码器,为所述数据存储dna序列添加引物和标记位,得到最终的数据存储dna序列,包括:
13、根据所述原始数据为所述数据存储dna序列添加引物,以及,根据所述伪随机化构造和所述混合编码器为所述数据存储dna序列添加标记位,得到最终的数据存储dna序列。
14、可选地,根据预设dna序列长度、所述混合编码器的编码算法和参数设置,对所述二进制数据进行划分和分块编码,得到带有冗余的码字序列,包括:
15、根据所述混合编码器输入字符的第一数量,对所述二进制数据进行划分,得到长度为第一数量的多个二进制序列;
16、根据所述编码算法对所述多个二进制序列进行编码,得到长度为第二数量的编码序列,所述第二数量为所述混合编码器输出字符的数量;
17、按照所述预设dna序列长度,对所述编码序列进行划分,得到带有冗余的码字序列。
18、可选地,根据所述编码算法对所述多个二进制序列进行编码,得到长度为第二数量的编码序列,包括:
19、在所述编码算法为低密度奇偶校验编码的情况下,依次将所述多个二进制序列与所述低密度奇偶校验编码的生成矩阵相乘,得到产生冗余比特,根据所述产生冗余比特,得到长度为第二数量的编码序列;
20、在所述编码算法为极化编码的情况下,根据所述极化编码的生成矩阵,将所述多个二进制序列通过递归极化生成一系列合成信道,选择最可靠的信道根据所述极化编码的冻结比特填充冗余比特,得到长度为第二数量的编码序列。
21、可选地,所述方法还包括:
22、根据原始数据的引物对数据存储dna序列进行测序,得到目标数据存储dna序列;
23、根据所述目标数据存储dna序列中的标记位,得到混合编码器的编码算法和参数设置;
24、根据所述四位碱基到二进制数据的映射关系,对所述目标数据存储dna序列进行转换,得到多个二进制码字序列;
25、根据所述混合编码器的编码算法和参数设置,对所述多个二进制码字序列进行解码,去除码字中冗余字符,得到二进制数据;
26、将所述二进制数据转换为原始数据。
27、可选地,获取多个数据存储dna序列,以及,获取混合编码器的编码算法和参数设置,包括:
28、根据原始数据的引物对数据存储dna序列进行测序,得到目标数据存储dna序列;
29、根据所述目标数据存储dna序列中的标记位,得到混合编码器的编码算法和参数设置。
30、可选地,在目标数据存储dna序列是经过伪随机化构造处理的情况下,根据所述四位碱基到二进制数据的映射关系,对所述目标数据存储dna序列进行转换,得到多个二进制码字序列,包括:
31、根据所述四位碱基到二进制数据的映射关系,将所述目标数据存储dna序列中码字区域转换为多个伪随机的二进制序列;
32、根据所述伪随机化构造,将所述多个伪随机的二进制序列转换为多个二进制码字序列。
33、可选地,根据所述混合编码器的编码算法和参数设置,对所述多个二进制码字序列进行解码,去除码字中冗余字符,得到二进制数据,包括:
34、在所述编码算法为低密度奇偶校验编码的情况下,根据所述低密度奇偶校验编码的输出字符的数量,将所述多个二进制码字序列转换为第一码字序列,并根据所述第一码字序列和所述低密度奇偶校验编码的校验矩阵进行迭代解码,得到二进制序列;
35、在所述编码算法为极化编码的情况下,根据所述极化编码的输出字符的数量,将所述多个二进制码字序列转换为第二码字序列,并根据所述极化编码的生成矩阵和冻结比特对所述第二码字序列进行顺序解码,得到多个二进制序列。
36、本申请实施例的第二方面,公开了一种基于混合编码策略的高效dna存储系统,所述系统包括:
37、编码模块,用于对待存储的原始数据进行统计分析,得到数据属性,所述数据属性包括:数据类型、数据量大小、数据分布;根据所述数据属性和编码需求,确定混合编码器的编本文档来自技高网...
【技术保护点】
1.一种基于混合编码策略的高效DNA存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据二进制数据到四位碱基的映射关系,将所述带有冗余的码字序列进行转换,得到数据存储DNA序列,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述原始数据和所述混合编码器,为所述数据存储DNA序列添加引物和标记位,得到最终的数据存储DNA序列,包括:
4.根据权利要求1-3任一所述的方法,其特征在于,根据预设DNA序列长度、所述混合编码器的编码算法和参数设置,对所述二进制数据进行划分和分块编码,得到带有冗余的码字序列,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述编码算法对所述多个二进制序列进行编码,得到长度为第二数量的编码序列,包括:
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,在目标数据存储DNA序列是经过伪随机化构造处理的情况下,根据所述四位碱基到二进制数据的映射关系,对所述目标数据存储DNA序列进行转换,得到多个
8.根据权利要求6或7所述的方法,其特征在于,根据所述混合编码器的编码算法和参数设置,对所述多个二进制码字序列进行解码,去除码字中冗余字符,得到二进制数据,包括:
9.一种基于混合编码策略的高效DNA存储系统,其特征在于,所述系统包括:
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一项所述的基于混合编码策略的高效DNA存储方法的步骤。
...【技术特征摘要】
1.一种基于混合编码策略的高效dna存储方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据二进制数据到四位碱基的映射关系,将所述带有冗余的码字序列进行转换,得到数据存储dna序列,包括:
3.根据权利要求2所述的方法,其特征在于,根据所述原始数据和所述混合编码器,为所述数据存储dna序列添加引物和标记位,得到最终的数据存储dna序列,包括:
4.根据权利要求1-3任一所述的方法,其特征在于,根据预设dna序列长度、所述混合编码器的编码算法和参数设置,对所述二进制数据进行划分和分块编码,得到带有冗余的码字序列,包括:
5.根据权利要求4所述的方法,其特征在于,根据所述编码算法对所述多个二进制序列进行编码,得到长度为第二数量的编码序列,包括:
6.根据权...
【专利技术属性】
技术研发人员:潘林强,张子潇,徐飞,刘祖奇,陈奎廷,黄思健,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。