一种新型的DNA存储编码方法技术

技术编号:36463455 阅读:16 留言:0更新日期:2023-01-25 23:03
本发明专利技术公开一种新型的DNA存储编码方法,涉及信道编码技术领域。包括:步骤一、定义GC

【技术实现步骤摘要】
一种新型的DNA存储编码方法


[0001]本专利技术涉及信道编码
,具体涉及一种新型的DNA存储编码方法。

技术介绍

[0002]随着分布式、云计算和物联网技术的发展,人类每天产生的数据总量呈现出指数增长的趋势,DNA分子基于其存储密度大,保存时间长的优点成为解决海量大数据存储困境的一种极具潜力的存储介质。DNA存储系统通常遵循合成、存储和测序的流程来处理DNA序列。基于现代生物化学和生物技术机器的工作表明,DNA合成和测序中存在过多的插入、删除和替换错误,尤其是,有两个特征显著增加了发生错误的概率,一种是过高或过低的GC含量,另一种是DNA序列中存在过长的游程,例如:AAAAAAAA。具体来说GC含量指的是DNA序列中G和C的数量,而游程指的是相同核苷酸的重复。研究表明,GC含量稳定在50%且DNA序列中游程的长度不超过6时,能最大程度的降低DNA合成和测序时发生错误的概率。
[0003]现有DNA编码技术大多只能满足GC

全局平衡加游程限制、GC

分段平衡加游程限制和GC

全局平衡、游程限制且纠正一位编辑错误,而对于满足GC

局部平衡、游程限制且可以纠正一位编辑错误的DNA存储编码方案尚未得到解决。

技术实现思路

[0004]本专利技术旨在提供一种新型的DNA存储编码方法,通过构造内码C
in
,使编码后DNA序列的GC含量稳定在50%,并且游程l≤6;然后通过内码C
in
>与汉明码外码C
out
级联得到的C
conc
可以纠正一个替换错误;再通过建立GC

全局平衡、GC

分段平衡和GC

局部平衡之间的转化关系,找出GC

全局平衡的码到GC

局部平衡的码的转化方法,并生成DNA存储编码的相关参数,构造出满足GC

局部平衡、6

游程限制且能纠正一位替换错误的码C
L
;然后结合四元Varshamov

Tenengolts码,引入纠正插入、删除错误的性质,最后设计出满足GC

局部平衡、游程约束且纠正一位编辑错误的DNA存储编码C
TV

[0005]为达到上述目的,本专利技术提供的上述一种新型的DNA存储编码方法,包括:
[0006]步骤一、定义GC

全局平衡并构造四元(n1,M1,d1)内码C
in

[0007]步骤二、计算四元(n1,M1,d1)内码C
in
的M1大小;
[0008]步骤三、构造q元(n2,M2,d2)汉明码作为外码C
out

[0009]步骤四、对内码C
in
和外码C
out
进行级联,构造满足GC

全局平衡、l

游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码C
conc

[0010]步骤五、计算步骤四中级联码C
conc
的参数;
[0011]步骤六、定义GC

分段平衡和GC

局部平衡并分析GC

全局平衡到GC

分段平衡、GC

分段平衡到GC

局部平衡的转换关系;
[0012]步骤七、首先从GC

全局平衡到GC

分段平衡,然后从GC

分段平衡到GC

局部平衡的转换关系,将步骤五中满足GC

全局平衡和游程约束的级联码C
conc
转换为满足GC

局部平衡和游程约束的(N,M,d)码C
L

[0013]步骤八、基于步骤七中的码C
L
,利用四元码Varshamov

Tenengolts,构造GC

(l

,δ)局部平衡、6

游程限制且纠正一个编辑错误的四元码C
VT

[0014]步骤九、计算C
VT
的参数以及冗余度并分析C
VT
的译码复杂度。
[0015]优选的,所述步骤一中定义GC

全局平衡并构造四元(n1,M1,d1)内码C
in
的过程为:
[0016]首先定义四元有限域其中,α满足α2+α+1=0;
[0017]然后构造DNA字母集并建立到DNA字母集的双射τ:τ(0)=C,τ(1)=G,τ(α)=A,τ(1+α)=T;
[0018]针对GC

全局平衡首先定义,对任意四元序列令c的GC

重量为其中GC

全局平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…
s
n
,如果对该DNA序列S,满足0.5

∈≤Ψ(S)≤0.5+∈,则称S满足GC

全局平衡,特别的当∈=0时,称c是GC全局平衡的,选取上所有长度为6的向量其中满足c的GC

重量Ψ(c)=3的向量来构造C
in
,则,则
[0019]优选的,所述步骤二中计算四元(n1,M1,d1)内码C
in
的M1大小的过程为:
[0020]首先定义{a}
t
是长度为t的字符串,其中所以对于四元向量所以对于四元向量可以写为:
[0021][0022]其中||为两个字符的串联。b
i
≠b
i+1
,i∈[1,k],并定义为一个游程,即有当t
i
∈[1,l]时,称v为l

游程限制的,则针对步骤一中的C
in
满足GC

全局平衡且3

游程限制;内码C
in
的码字个数的码字个数
[0023]优选的,所述步骤三中构造q元(n2,M2,d2)汉明码作为外码C
out
的过程为:
[0024]选取q为不超过M1的素数幂,在有限域上构造q元(n2,M2,d2)汉明码其中码长维数为n2‑
r,r>1且为整数,最小汉明距离d2=3,则C
out
的码字个数
[0025]优选的,所述步骤四中对内码C
in
和外码C
out
进行级联,构造满足GC

全局平衡、l
...

【技术保护点】

【技术特征摘要】
1.一种新型的DNA存储编码方法,其特征在于,包括:步骤一、定义GC

全局平衡并构造四元(n1,M1,d1)内码C
in
;步骤二、计算四元(n1,M1,d1)内码C
in
的M1大小;步骤三、构造q元(n2,M2,d2)汉明码作为外码C
out
;步骤四、对内码C
in
和外码C
out
进行级联,构造满足GC

全局平衡、l

游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码C
conc
;步骤五、计算步骤四中级联码C
conc
的参数;步骤六、定义GC

分段平衡和GC

局部平衡并分析GC

全局平衡到GC

分段平衡、GC

分段平衡到GC

局部平衡的转换关系;步骤七、首先从GC

全局平衡到GC

分段平衡,然后从GC

分段平衡到GC

局部平衡的转换关系,将步骤五中满足GC

全局平衡和游程约束的级联码C
conc
转换为满足GC

局部平衡和游程约束的(N,M,d)码C
L
;步骤八、基于步骤七中的码C
L
,利用四元码Varshamov

Tenengolts,构造GC

(l

,δ)局部平衡、6

游程限制且纠正一个编辑错误的四元码C
VT
;步骤九、计算C
VT
的参数以及冗余度并分析C
VT
的译码复杂度。2.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤一中定义GC

全局平衡并构造四元(n1,M1,d1)内码C
in
的过程为:首先定义四元有限域其中,α满足α2+α+1=0;然后构造DNA字母集并建立到DNA字母集的双射τ:τ(0)=C,τ(1)=G,τ(α)=A,τ(1+α)=T;针对GC

全局平衡首先定义,对任意四元序列令c的GC

重量为其中GC

全局平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…
s
n
,如果对该DNA序列S,满足0.5

∈≤Ψ(S)≤0.5+∈,则称S满足GC

全局平衡,特别的当∈=0时,称c是GC全局平衡的,选取上所有长度为6的向量其中满足c的GC

重量Ψ(c)=3的向量来构造C
in
,则,则3.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤二中计算四元(n1,M1,d1)内码C
in
的M1大小的过程为:首先定义{a}
t
是长度为t的字符串,其中所以对于四元向量所以对于四元向量可以写为:其中||为两个字符的串联。b
i
≠b
i+1
,i∈[1,k],并定义为一个游程,即有当t
i
∈[1,l]时,称v为l

游程限制的,则针对步骤一中
的C
in
满足GC

全局平衡且3

游程限制;内码C
in
的码字个数的码字个数4.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤三中构造q元(n2,M2,d2)汉明码作为外码C
out
的过程为:选取q为不超过M1的素数幂,在有限域上构造q元(n2,M2,d2)汉明码其中码长维数为n2‑
r,r>1且为整数,最小汉明距离d2=3,则C
out
的码字个数5.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤四中对内码C
in
和外码C
out
进行级联,构造满足GC

全局平衡、l

游程限制且纠正一位替换错误的四元(N1,M3,d3)级联码C
conc
的过程为:构造单射π:对任意向量利用单射π做级联,得到构造构造6.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤五中计算步骤四中级联码C
conc
的参数过程为:其中码长N1=6n2,码字个数最小汉明距离d≥d1d2=3,所以C
conc
可以纠正一个替换错误;由步骤四可以得出π(c
i
),i∈[1,n2]是GC

全局平衡、3

游程限制的,所以可以得出级联码C
conc
满足GC

全局平衡、6

游程限制且可以纠正一位替换错误。7.根据权利要求1所述的一种新型的DNA存储编码方法,其特征在于:所述步骤六中定义GC

分段平衡和GC

局部平衡并分析GC

全局平衡到GC

分段平衡、GC

分段平衡到GC

局部平衡的转换关系的过程为:GC

分段平衡指的是,对任意小的实数∈≥0,DNA序列S=s1s2…
s
n
,n=ml,将DNA序列S分成m个DNA序列片段:S=S
(1)
S
(2)

S
(m)
,其中,S
(i)
=s
(i

1)l+1
s
(i

1)l+2

s
il<...

【专利技术属性】
技术研发人员:刘姝史祥瑞
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1