编码方法、解码方法、装置、终端设备及可读存储介质制造方法及图纸

技术编号：30431724 阅读：25 留言：0更新日期：2021-10-24 17:25

本申请适用于存储技术领域，尤其涉及编码方法、解码方法、装置、终端设备及可读存储介质。该编码方法可以获取待编码数据的初始碱基序列；然后可以对初始碱基序列进行分组，得到初始碱基序列对应的至少一组中间碱基序列，并利用G与C的占比满足预设条件的第一预设碱基序列对中间碱基序列进行替换，得到待编码数据对应的编码文件。即本申请实施例提供的编码方法可以使得编码文件中的GC占比符合要求，降低DNA序列合成和测序的成本以及出错的概率，降低DNA存储的成本，扩大DNA存储的应用规模。扩大DNA存储的应用规模。扩大DNA存储的应用规模。

全部详细技术资料下载

【技术实现步骤摘要】
编码方法、解码方法、装置、终端设备及可读存储介质

[0001]本申请属于存储
，尤其涉及编码方法、解码方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]脱氧核糖核酸(deoxyribonucleic acid，DNA)作为信息存储介质具有存储密度高、存储时间长以及损耗率低等特点，可以用于信息的大量存储。在DNA存储技术中，需要将待存储数据编码成DNA的碱基序列，然后可以根据碱基序列合成DNA，以将待存储数据存储至DNA中。其中，DNA编码技术是DNA存储中的关键技术。而现有的DNA编码技术会增加DNA合成及测序过程中出错的概率，不利于DNA存储技术的广泛应用。

技术实现思路

[0003]本申请实施例提供了一种编码方法、解码方法、装置、终端设备及计算机可读存储介质，可以解决现有的DNA编码技术会增加DNA合成及测序过程中出错的概率的问题，扩大DNA存储技术的应用范围。
[0004]第一方面，本申请实施例提供了一种编码方法，包括：
[0005]获取待编码数据的初始碱基序列；
[0006]对所述初始碱基序列进行分组，得到所述初始碱基序列对应的至少一组中间碱基序列；
[0007]利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，所述第一预设碱基序列中包含的G与C的占比满足预设条件。
[0008]通过上述的编码方法，可以获取待编码数据的初始碱基序列，并对初始碱基序列进行分组，得到

【技术保护点】

【技术特征摘要】
1.一种编码方法，其特征在于，包括：获取待编码数据的初始碱基序列；对所述初始碱基序列进行分组，得到所述初始碱基序列对应的至少一组中间碱基序列；利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，所述第一预设碱基序列中包含的G与C的占比满足预设条件。2.如权利要求1所述的方法，其特征在于，所述待编码数据为文本，所述获取所述待编码数据的初始碱基序列，包括：统计所述文本中各字符的出现频率；以各所述字符为叶子节点、以各所述字符的出现频率为该叶子节点的权值构建所述文本对应的四叉哈夫曼树；将所述四叉哈夫曼树的每一条边用碱基表示，得到所述文本对应的编码表；根据所述编码表确定所述文本的初始碱基序列。3.如权利要求1所述的方法，其特征在于，所述利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，包括：利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到目标碱基序列；获取所述目标碱基序列中连续出现次数等于预设次数的重复碱基；利用与所述重复碱基对应的第二预设碱基序列将所述重复碱基替换，得到所述待编码数据对应的编码文件。4.如权利要求1所述的方法，其特征在于，所述对所述初始碱基序列进行分组，得到所述初始碱基序列对应的至少一组中间碱基序列，包括：按照第一碱基数量对所述初始碱基序列进行分组，得到至少一组所述中间碱基序列，各所述中间碱基序列包括的碱基数量为所述第一碱基数量。5.如权利要求4所述的方法，其特征在于，所述方法还包括：获取所述初始碱基序列中的单独碱基序列，其中，所述单独碱基序列为对所述初始碱基序列进行分组后，得到的碱基数量小于所述第一碱基数量的碱基序列；根据所述第一碱基数量和所述单独碱基序列对应的第二碱基数量确定需添加的第三碱基数量，并在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基。6.如权利要求5所述的方法，其特征在于，所述在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基，包括：根据GCAT的顺序在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基。7.如权利要求5所述的方法，其特征在于，所述单独碱基序列为所述初始碱基序列头部的碱基序列或者为所述初始碱基序列尾部的碱基序列。8.如权利要求5所述的方法，其特征在于，所述预设位置为所述单独碱基序列的头部或者末尾。9.如权利要求5至8中任一项所述的方法，其特征在于，所述利用与至少一组所述中间
碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，包括：利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，并将替换后的中间碱基序列与单独碱基序列进行合并，得到目标碱基序列；获取所述目标碱基序列中连续出现次数等于预设次数的重复碱基；利用与所述重复碱基对应的第二预设碱基序列将所述重复碱基替换，得到所述待...

【专利技术属性】
技术研发人员：戴俊彪，卢明伟，黄小罗，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人