一种DNA存储方法、系统及电子设备技术方案

技术编号:24013023 阅读:80 留言:0更新日期:2020-05-02 02:23
本申请涉及一种DNA存储方法、系统及电子设备。包括:将存储文件传入编码模块中,编码模块通过编码算法将所述存储文件转换成二进制,并划分成固定大小的DNA存储单元;对每一段DNA存储单元进行排序和编号,并使用IndexDNA序列编码算法生成每段DNA存储单元的IndexDNA序列;使用DateDNA算法将每段DNA存储单元转换为DateDNA序列;将每段DNA存储单元对应的IndexDNA序列与DateDNA序列相加,得到每段DNA存储单元对应的DNA序列文件,并将每一段DNA序列文件合成到一个DNA文件中,生成完整的DNA存储文件。本申请可以最大化降低成本,提升DNA存储密度。

A DNA storage method, system and electronic equipment

【技术实现步骤摘要】
一种DNA存储方法、系统及电子设备
本申请属于DNA存储
,特别涉及一种DNA存储方法、系统及电子设备。
技术介绍
随着大数据科学的迅猛发展,传统存储介质,如磁带、光盘、硬盘等已逐渐不能满足现有的数据存储的迫切需要。作为智能分子,DNA已经被用作“建筑材料”构建纳米结构(DNAorigami)、微电路(DNAelectricalcircuit)等。同时,作为一种完全不同的全新应用领域,DNA分子作为一种“信息材料”成为新型的存储介质DNAInformationStorage,由于具有存储密度高,保存时间长,维护成本低等优势,近年来受到了极大关注。DNA存储作为新兴的概念,是由DNA高通量合成与测序技术催生的信息与生物相融合的新领域,通过DNA分子的碱基序列直接编码数字信息,由高通量合成技术合成序列存储进行信息写入,并利用高通量测序技术实现信息的读取。相比国外,尽管我国在DNA合成与测序方面已经取得了丰硕的成果,但在DNA数字存储领域的研究仍然处于起步阶段,目前尚无可与世界先进技术相媲美的DNA存储编码方法以及DNA存储系统。进行DNA存储相关的研究有助于我国在数据存储、大数据应用、合成生物学等方面实现技术突破,并在存储资源的国际争夺战中占领制高点;同时,DNA存储在各方面的应用,如军事文化信息、银行信息、数据归档等方面具有极大的战略意义。近年来,世界上各大科研机构、公司都在DNA数字存储领域的研究均投入了大量的人力物力。当前的研究重点主要集中在编码系统的设计与改进、可靠性与存储密度的提高、以及随机存取与深度复制功能的实现等相关方面。自G.Church研究团队于2012年提出DNA数字存储的概念和第一代通用DNA数字存储的编码方法以来,多个研究团队,包括美国国立卫生研究院(NIH),微软(Microsoft),苏黎世联邦理工学院(ETH)等均发表了多项研究成果。而2017年,美国哥伦比亚大学Y.Erlich研究团队发表的DNA喷泉码(DNAFountain)更是实现了接近于理论极限的DNA存储编码方式。编码方法的研究对实现高效稳定的DNA存储,并对接上下游支撑使能技术起到至关重要的作用。近年来也出现了基于DNA折纸等自组装技术,通过构建多样可控的微纳米结构体,利用其控制的金属物质空间排布以及生物分子自身的导电性构建DNA电路,然而这种技术本质上不能在DNA碱基序列上直接存储信息,其读取信息技术门槛高,依赖于超分辨率显微镜等精密设备,与已经可以形成百万bit信息量存储的主流技术相比,DNA电路技术还处于不成熟阶段缺乏技术普及与广泛应用的基础。另外,近年来也有研究团队提出利用DNA分子的电性质存储信息,然而由于其主要利用DNA的加工技术形成DNA电路,领域内一般认为该研究方向并非是真正意义上的DNA存储。因此,在高通量DNA合成和测序技术支撑下的DNA碱基序列存储数字信息技术必将是这一领域的主流。综上所述,目前的研究方法与技术还存在着一些问题:(1)、针对DNA存储的系统技术,目前还没有相对成熟的DNA存储系统;(2)、现有研究方法没有对不同格式文件,特定约束下的文件大小的理论极限值进行计算。
技术实现思路
本申请提供了一种DNA存储方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。为了解决上述问题,本申请提供了如下技术方案:一种DNA存储方法,包括以下步骤:步骤a:将存储文件传入编码模块中,编码模块通过编码算法将所述存储文件转换成二进制,并划分成固定大小的DNA存储单元;步骤b:对每一段DNA存储单元进行排序和编号,并使用IndexDNA序列编码算法生成每段DNA存储单元的IndexDNA序列;步骤c:使用DateDNA算法将每段DNA存储单元转换为DateDNA序列;步骤d:将每段DNA存储单元对应的IndexDNA序列与DateDNA序列相加,得到每段DNA存储单元对应的DNA序列文件,并将每一段DNA序列文件合成到一个DNA文件中,生成完整的DNA存储文件。本申请实施例采取的技术方案还包括:所述步骤a还包括:对不同格式的存储文件进行预处理,导入到DNA存储系统中;所述预处理包括文件格式定义、数据压缩及删冗;对于常见的文件格式,根据不同的系统下打开不同的文件导入窗口,选择需要导入的存储文件,根据所述存储文件的后缀名选择读取的格式;对于不常用的文件格式,提供压缩算法,导入存储文件前对所述存储文件进行压缩后再导入到系统中。本申请实施例采取的技术方案还包括:在所述步骤a中,所述编码模块通过编码算法将存储文件转换成二进制,并划分成固定大小的DNA存储单元具体包括:将所述存储文件转换为以字节为单位的二进制序列,一个字节对应固定位数的二进制序列;再将二进制数序列划分为固定长度的二进制DNA存储单元。本申请实施例采取的技术方案还包括:所述步骤b还包括:将所述DNA存储单元的IndexDNA序列转换为固定位数的三进制的ATCG序列,再使用IndexDNA序列转换规则将生成的三进制序列转换为碱基序列。本申请实施例采取的技术方案还包括:在所述步骤c中,所述使用DateDNA算法将每段DNA存储单元转换为DateDNA序列具体包括:首先将整个存储文件转换成为二进制序列,再根据二进制数与DateDNA序列的转换要求,选择转化规则将二进制数转换为DateDNA序列,并根据设定的类四进制编码转换算法将整个存储文件完全转换成DateDNA碱基序列。本申请实施例采取的技术方案还包括:所述步骤c之后还包括:IndexDNA序列还原;将需要还原的DNA存储文件导入到系统中,系统读取该存储文件时,确定每一段DNA存储单元的序列的序号,固定每一段DNA存储单元前面的设定长度的序列为该段DNA存储单元的IndexDNA序列,使用IndexDNA序列对应的解码算法,将IndexDNA序列还原成该段DNA存储单元的序号。本申请实施例采取的技术方案还包括:所述步骤c之后还包括:DateDNA序列的信息提取;当固定每一段DNA存储单元的序号时,使用DateDNA序列解码算法,生成对应的二进制文件,再依次按照DNA存储单元的序号,将每一段DNA存储单元生成的二进制文件整合为完整的计算机存储的二进制文件,再进行ASCII码转换,生成对应的原存储文件。本申请实施例采取的技术方案还包括:所述步骤c之后还包括:评测系统性能,度量指标体系。本申请实施例采取的另一技术方案为:一种DNA存储系统,包括:数据划分模块:用于将存储文件传入编码模块中,编码模块通过编码算法将所述存储文件转换成二进制,并划分成固定大小的DNA存储单元;IndexDNA序列转换模块:用于对每一段DNA存储单元进行排序和编号,并使用IndexDNA序列编码算法生成每段DNA存储单元的IndexDNA序列;DateDNA序列转换模块:用于使用DateDNA算法将每段DNA存储单元转换为DateDNA序列;本文档来自技高网
...

【技术保护点】
1.一种DNA存储方法,其特征在于,包括以下步骤:/n步骤a:将存储文件传入编码模块中,编码模块通过编码算法将所述存储文件转换成二进制,并划分成固定大小的DNA存储单元;/n步骤b:对每一段DNA存储单元进行排序和编号,并使用IndexDNA序列编码算法生成每段DNA存储单元的IndexDNA序列;/n步骤c:使用DateDNA算法将每段DNA存储单元转换为DateDNA序列;/n步骤d:将每段DNA存储单元对应的IndexDNA序列与DateDNA序列相加,得到每段DNA存储单元对应的DNA序列文件,并将每一段DNA序列文件合成到一个DNA文件中,生成完整的DNA存储文件。/n

【技术特征摘要】
1.一种DNA存储方法,其特征在于,包括以下步骤:
步骤a:将存储文件传入编码模块中,编码模块通过编码算法将所述存储文件转换成二进制,并划分成固定大小的DNA存储单元;
步骤b:对每一段DNA存储单元进行排序和编号,并使用IndexDNA序列编码算法生成每段DNA存储单元的IndexDNA序列;
步骤c:使用DateDNA算法将每段DNA存储单元转换为DateDNA序列;
步骤d:将每段DNA存储单元对应的IndexDNA序列与DateDNA序列相加,得到每段DNA存储单元对应的DNA序列文件,并将每一段DNA序列文件合成到一个DNA文件中,生成完整的DNA存储文件。


2.根据权利要求1所述的DNA存储方法,其特征在于,所述步骤a还包括:对不同格式的存储文件进行预处理,导入到DNA存储系统中;所述预处理包括文件格式定义、数据压缩及删冗;对于常见的文件格式,根据不同的系统下打开不同的文件导入窗口,选择需要导入的存储文件,根据所述存储文件的后缀名选择读取的格式;对于不常用的文件格式,提供压缩算法,导入存储文件前对所述存储文件进行压缩后再导入到系统中。


3.根据权利要求2所述的DNA存储方法,其特征在于,在所述步骤a中,所述编码模块通过编码算法将存储文件转换成二进制,并划分成固定大小的DNA存储单元具体包括:将所述存储文件转换为以字节为单位的二进制序列,一个字节对应固定位数的二进制序列;再将二进制数序列划分为固定长度的二进制DNA存储单元。


4.根据权利要求1所述的DNA存储方法,其特征在于,所述步骤b还包括:将所述DNA存储单元的IndexDNA序列转换为固定位数的三进制的ATCG序列,再使用IndexDNA序列转换规则将生成的三进制序列转换为碱基序列。


5.根据权利要求4所述的DNA存储方法,其特征在于,在所述步骤c中,所述使用DateDNA算法将每段DNA存储单元转换为DateDNA序列具体包括:首先将整个存储文件转换成为二进制序列,再根据二进制数与DateDNA序列的转换要求,选择转化规则将二进制数转换为DateDNA序列,并根据设定的类四进制编码转换算法将整个存储文件完全转换成DateDNA碱基序列。


6.根据权利要求1至5任一项所述的DNA存储方法,其特征在于,所述步骤c之后还包括:IndexDNA序列还原;将需要还原的DNA存储文件导入到系统中,系统读取该存储文件时,确定每一段DNA存储单元的序列的序号,固定每一段DN...

【专利技术属性】
技术研发人员:肖焯姜青山陈会车丹丹李正强
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1