一种DNA存储的码字设计方法技术

技术编号：32226493 阅读：12 留言：0更新日期：2022-02-09 17:31

本发明专利技术公开了一种DNA存储的码字设计方法，其具体为：将存储信息转换为DNA序列，首先要将信息转换为二进制数据。其次，构建最小方差霍夫曼树，利用它对二进制数据进行压缩。然后，将压缩后的二进制数据以4位为一组进行不重叠分块，得到至多16种组合，根据组合的概率依次从字典中选择码字进行映射，得到DNA序列。最后，求得DNA序列的GC含量，如果GC含量高于60％或者低于40％，会对映射关系进行调整，使得它在40％到60％之间；再进一步检查DNA序列中是否含有均聚物超过3的情况，如果存在就进行替换修改。本发明专利技术不仅具有高的编码率和结构简单的特点，而且编码完成的DNA序列还满足GC含量在40％到60％之间和均聚物运行长度不超过3的约束条件。过3的约束条件。过3的约束条件。

全部详细技术资料下载

【技术实现步骤摘要】
一种DNA存储的码字设计方法

[0001]本专利技术涉及编码设计
，具体涉及一种DNA存储的码字设计方法。

技术介绍

[0002]目前，全球对数据存储的需求超过了全球存储能力的增长速度。DNA作为自然遗传信息的载体，提供了一种稳定、资源高效、可持续的数据存储解决方案。直到21世纪的头十年，Church和Goldman的开创性工作才使DNA存储成为主流。Church等人成功地在DNA分子中存储了高达659KB的数据，而在这项工作之前，最大的存储数据量小于1KB。Goldman等人存储的数据更多，达到了739KB。值得注意的是，这两项研究中存储的数据不仅包含文本，还包含图像、声音、pdf等，这证实了DNA可以存储多种数据类型。
[0003]具体来说，DNA数据存储是一项新兴的研究，即将二进制数字信息转化为DNA序列，以合成DNA的形式进行密集而持久的数据存储。但是目前DNA编码方法仅仅简单地将二进制数据映射成DNA序列，存在编码率低、合成成本高的缺点。

技术实现思路

[0004]针对现有技术存在上述问题，本申请提出了一种结构简单和高编码率的码字设计方法，其编码得到的序列还满足GC含量在40％
–
60％之间和均聚物运行长度不超过3的约束条件。
[0005]为实现上述目的，本申请的技术方案为：一种DNA存储的码字设计方法，包括：
[0006]步骤1：获取输入数据并转换为二进制数据；
[0007]步骤2：将所述二进制数据进行压缩；
[0008]步骤...

【技术保护点】

【技术特征摘要】
1.一种DNA存储的码字设计方法，其特征在于，包括：步骤1：获取输入数据并转换为二进制数据；步骤2：将所述二进制数据进行压缩；步骤3：压缩后的所述二进制数据分成长度为4的不重叠块，所述不重叠块至多有16种组合；步骤4：获取不重叠块出现的概率；步骤5：根据字典中的码字对所述不重叠块进行编码：步骤6：获取编码后DNA序列的GC含量，如果GC含量低于40％或者高于60％，则进行步骤5，改变映射关系继续编码，反之则进行步骤7；步骤7：寻找均聚物运行长度不小于3的情况，如果有，则进行替换修改，如果没有执行步骤8；步骤8：获取编码率，并且将DNA序列输出。2.根据权利要求1所述一种DNA存储的码字设计方法，其特征在于，如果输入数据为文本数据，则将每个字符转换为ACSII码；如果输入数据为图像数据，则将图像转换为像素值；然后再将所述ACSII码、像素值转换为8位的二进制数据。3.根据权利要求1所述一种DNA存储的码字设计方法，其特征在于，使用最小方差霍夫曼树进行二进制数据压缩。4.根据权利要求3所述一种DNA存储的码字设计方法，其特征在于，所述霍夫曼树包含n个叶节点,对应n个源符号，其出现的概率是p
i
，n个叶节点到根节点的距离l
i
...

【专利技术属性】
技术研发人员：王宾，郑燕芬，胡轶男，张强，
申请(专利权)人：大连大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人