System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于DNA数据存储IDS信道多条输出的有效纠错方法及系统技术方案_技高网

基于DNA数据存储IDS信道多条输出的有效纠错方法及系统技术方案

技术编号:44697003 阅读:2 留言:0更新日期:2025-03-19 20:46
本发明专利技术涉及信息存储领域,更具体地,涉及基于DNA数据存储IDS信道多条输出的有效纠错方法及系统。其中方法包括:对输入信息比特序列进行内部编码然后进行外部编码生成外部编码比特序列;进行映射得到DNA碱基序列,并分割成M段短序列;通过N个并行的IDS信道得到M*N条短输出序列;通过SPM算法处理进行拼接得到共识序列;将共识序列先通过同步译码进行译码,再通过ENMS算法进行译码;并通过联合迭代算法对同步译码和ENMS算法进行迭代。本发明专利技术通过并列的IDS信道得到多条输出,使用分段累进比对算法结合多条输出的同源信息获得共识序列,可以有效避免在DNA合成和测序过程中的错误,然后使用同步译码和ENMS算法进行译码并进行联合迭代,进一步提高了纠错性能。

【技术实现步骤摘要】

本专利技术涉及信息存储领域,更具体地,涉及基于dna数据存储ids信道多条输出的有效纠错方法及系统。


技术介绍

1、随着信息技术的飞速发展,全球数据量呈爆发式增长。目前主要使用的存储媒介包括机械硬盘、固态硬盘、蓝光存储器和闪存等,但它们都存在存储密度有限、保存年限短、对环境造成污染等问题。然而,随着基因组合成与组装技术的进步,以dna分子作为存储介质的研究日益受到学术界的关注。dna作为编码生物信息的分子,具有存储周期长、存储密度大、能耗低等优点,被认为是一种具有前景的存储介质。dna通信与二进制通信不同,dna数据存储包括编码、合成、纳米孔测序和译码四大过程。其中dna合成和测序过程中可能引入插入、删除和替换形式的错误。从而导致存储效果较差。

2、现有技术公开一种基于生成式对抗网络的dna存储纠错方法及系统,其中,方法包括:基于a、t、c、g分布均匀的dna模板链生成dna序列数据集,分为训练集和测试集;构建生成式对抗网络模型gan,基于训练集对生成式对抗网络模型gan进行训练,并通过测试集进行测试后得到训练好的gan模型;对存储的dna分子序列进行测序,根据测序结果进行聚类筛选,得到dna簇;根据预设规则选取合适的dna簇,对测序得到序列信息按照预设的规则进行图像转换,生成对应的序列图片;将生成的序列图片经gan模型的生成器得到纠错后的图片信息,再按照规则还原成编码序列,完成纠错。然而该方法依旧不能很好的解决dna合成和测序过程中可能引入插入、删除和替换形式的错误。从而导致存储效果较差。


<b>技术实现思路

1、本专利技术的目的在于公开存储效果更好的基于dna数据存储ids信道多条输出的有效纠错方法及系统。

2、为了实现上述目的,本专利技术提供基于dna数据存储ids信道多条输出的有效纠错方法,包括:

3、s1:对输入信息比特序列进行内部编码得到内部编码比特序列,然后对内部编码比特序列进行外部编码生成外部编码比特序列;

4、s2:将外部编码比特序列进行映射得到dna碱基序列,并将dna碱基序列分割成m段短序列;

5、s3:将m段短序列中的每一条短序列都通过n个并行的ids信道得到m*n条短输出序列;

6、s4:通过spm算法处理m*n条短输出序列得到m条短共识序列;将m条短共识序列进行拼接得到共识序列;

7、s5:将共识序列先通过同步译码进行译码,再通过enms算法进行译码,得到信息;先通过同步译码进行译码,再通过enms算法进行译码包括:通过联合迭代算法对同步译码和enms算法进行迭代。

8、进一步地,在步骤s1中,对输入信息比特序列进行内部编码得到内部编码比特序列包括:使用(de,ds)的嵌入式标记码对输入信息比特序列进行内部编码得到内部编码比特序列c′=(c1,c2,...,ck),de表示两个标记比特序列的间隔,ds表示标记码的长度。

9、进一步地,在步骤s1中,对内部编码比特序列进行外部编码生成外部编码比特序列包括:使用码型为[n,k]的qcldpc码作为外码进行外部编码生成外部编码比特序列u=(u1,u2,...,un),其中(n-k)为校验比特的长度。

10、进一步地,在步骤s2中,将外部编码比特序列进行映射得到dna碱基序列包括:将外部编码比特序列按照00-a、01-c、10-t、11-g的映射方案映射为dna碱基序列,dna碱基序列中包含atcg四种碱基符号。

11、进一步地,在步骤s3中,:将m段短序列中的一条短序列通过n个并行的ids信道得到n条短输出序列包括:

12、其中一条短序列通过一个ids信道得到一条输出序列如下所示:

13、设w=(w1,w2,...,wn)为要通过信道传输的一条短序列,短序列中包括多个碱基符号wi,y=(y1,y2,...,yn′)为输出序列;碱基符号wi在进入信道时,接收序列的碱基可能出现四种情况:

14、碱基符号wi以pi的概率发生插入错误,其中均匀随机的符号a∈{a,t,c,g}被插入到输出序列的碱基yi′上,则碱基符号wi保持在输入通道中,并对应于接收到的符号yi′+1;

15、碱基符号wi以pd的概率发送被删除,则不接收任何符号,随后发送碱基符号wi+1;

16、碱基符号wi传输的概率为pt=1-pi-pd,然而,在传输过程中也有ps的概率发生替换误差,因此,输入碱基符号成功传输并正确接收的概率为pt(1-ps),此时接收碱基符号yi′=wi;

17、碱基符号以ptps的概率发生替换错误,则接收到统一随机符号a,其中a≠wi;

18、当通道接收到最后一个符号wn时,一条短序列的传输结束,得到一条输出序列。

19、进一步地,在步骤s4中,包括:

20、将多条输出序列中任意两条序列快速比对,使用levenshtein距离计算评分矩阵,其中匹配,不匹配和空位分别为1分,-1分,0分;由此得到任意两条序列比对的距离总分,以获得大小为m×(m-1)/2的距离矩阵,其中m为输出序列数量;建立指导树并计算每个分支的权重,指导树中的每个节点对应于多条序列比较的顺序,最后按照序列比对顺序逐个两两比较,得到每条序列的碱基符号权重,根据碱基权重推算出碱基符号,进而得到共识序列。

21、进一步地,在步骤s5中,同步译码算法包括:

22、引入偏移变量{ok}作为hmm模型的隐状态变量,信道输入序列中第k个碱基符号经过信道输出时位置发生了偏移,在输出序列中的偏移到了(k+d)的位置,偏移量为d,记为ok=d,假设输入序列为w=(w1,w2,...,wt),输出序列为y=(y1,y2,...,yq),t和q分别表示输入序列和输出序列的长度,只有当插入的碱基符号与删除的基符号匹配时,t和q相等,因此,第一碱基符号w1和最后一个碱基符号wt的偏移量为o1=0和ot=q-t,第k个碱基符号的偏移量对应的输出碱基符号是k+ok+ok-1;

23、在输入碱基符号wi的传输过程中,插入、删除、替换和传输四种状态的概率分别用pi、pd、ps和pt表示;最大插入长度为i,最大插入长度定义了相邻位置步骤之间的偏移限制,若位置k+1(tk+1)处的输入符号偏移为d,位置k(tk)处的输入符号偏移为b,则两个相邻隐藏状态之间的概率转移函数pdb=p(ok+1=d|ok=b)为

24、

25、其中λi=1/4i(1-(pi)i),pdb代表两种情况,当ti+1的碱基符号删除时,在ti和ti+1之间插入b-d+1个碱基符号,而ti+1的碱基符号不删除时,在ti和ti+1之间插入b-d个碱基符号;

26、在hmm模型中,输出序列y=(y1,y2,...,yq)为hmm模型中的观测序列,序列传输过程中,四个碱基符号之间发生替换错误转移的概率矩阵f(wk,yk+d),概率矩阵f(wk,yk+d)适用于碱基符号wk-1和本文档来自技高网...

【技术保护点】

1.基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,包括:

2.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S1中,对输入信息比特序列进行内部编码得到内部编码比特序列包括:使用(DE,DS)的嵌入式标记码对输入信息比特序列进行内部编码得到内部编码比特序列c′=(c1,c2,…,ck),DE表示两个标记比特序列的间隔,DS表示标记码的长度。

3.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S1中,对内部编码比特序列进行外部编码生成外部编码比特序列包括:使用码型为[n,k]的QCLDPC码作为外码进行外部编码生成外部编码比特序列u=(u1,u2,…,un),其中(n-k)为校验比特的长度。

4.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S2中,将外部编码比特序列进行映射得到DNA碱基序列包括:将外部编码比特序列按照00-A、01-C、10-T、11-G的映射方案映射为DNA碱基序列,DNA碱基序列中包含ATCG四种碱基符号。

5.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S3中,:将M段短序列中的一条短序列通过N个并行的IDS信道得到N条短输出序列包括:

6.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S4中,包括:

7.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S5中,同步译码算法包括:

8.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S5中,ENMS算法包括:设置信息位长度为k,码长为n,校正因子为σ;itermax表示LDPC译码的最大迭代次数,Dm表示标记比特的集合,Lj表示第j个比特的初始LLR值,表示总的LLR,为从校验节点i传递到变量节点j的信息,定义为从变量节点j传递给第i个校验节点的信息,C(j)表示与第j比特连接的所有校验节点的集合,V(i)表示与第i个校验节点连接的所有变量节点的集合,C(j)/i表示除第i个校验节点之外的C(j),V(i)/j表示除第j个变量节点之外的V(i);

9.根据权利要求1所述的基于DNA数据存储IDS信道多条输出的有效纠错方法,其特征在于,在步骤S5中,通过联合迭代算法对同步译码和ENMS算法进行迭代包括:

10.基于DNA数据存储IDS信道多条输出的有效纠错系统,其特征在于,包括:

...

【技术特征摘要】

1.基于dna数据存储ids信道多条输出的有效纠错方法,其特征在于,包括:

2.根据权利要求1所述的基于dna数据存储ids信道多条输出的有效纠错方法,其特征在于,在步骤s1中,对输入信息比特序列进行内部编码得到内部编码比特序列包括:使用(de,ds)的嵌入式标记码对输入信息比特序列进行内部编码得到内部编码比特序列c′=(c1,c2,…,ck),de表示两个标记比特序列的间隔,ds表示标记码的长度。

3.根据权利要求1所述的基于dna数据存储ids信道多条输出的有效纠错方法,其特征在于,在步骤s1中,对内部编码比特序列进行外部编码生成外部编码比特序列包括:使用码型为[n,k]的qcldpc码作为外码进行外部编码生成外部编码比特序列u=(u1,u2,…,un),其中(n-k)为校验比特的长度。

4.根据权利要求1所述的基于dna数据存储ids信道多条输出的有效纠错方法,其特征在于,在步骤s2中,将外部编码比特序列进行映射得到dna碱基序列包括:将外部编码比特序列按照00-a、01-c、10-t、11-g的映射方案映射为dna碱基序列,dna碱基序列中包含atcg四种碱基符号。

5.根据权利要求1所述的基于dna数据存储ids信道多条输出的有效纠错方法,其特征在于,在步骤s3中,:将m段短序列中...

【专利技术属性】
技术研发人员:韩国军邓彩云汉鹏超
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1