文本编码与解码方法、装置、设备和介质制造方法及图纸

技术编号:34644329 阅读:7 留言:0更新日期:2022-08-24 15:20
本公开涉及一种文本编码与解码方法、装置、设备和介质。其中,文本编码方法包括:获取待编码文本和多个预设映射表;其中,预设映射表基于参考映射表生成,参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,预设映射表用于记录参考映射表中的信息与第二编码标识之间的一一对应关系;基于待编码文本中的目标字符在待编码文本中的第一排列位置和映射表引用序列,从各预设映射表中确定目标字符对应的第一目标映射表,并基于目标字符查询第一目标映射表,确定目标字符对应的目标编码标识;基于待编码文本中各目标字符对应的目标编码标识,生成目标编码文本。根据本公开实施例,提高了文本编码准确性和安全性。提高了文本编码准确性和安全性。提高了文本编码准确性和安全性。

【技术实现步骤摘要】
文本编码与解码方法、装置、设备和介质


[0001]本公开涉及计算机
,尤其涉及一种文本编码与解码方法、装置、设备和介质。

技术介绍

[0002]文本数字化或文本编码在数据安全领域中是一种基础的文本加密方法。
[0003]现有技术中,文本编码主要是通过“分词+词表”的方式实现的。该方法在编码阶段,先对一段文本经过分词后得到以空格分隔的多个词汇,然后根据预先建立的词表将每个词汇转换为对应的编码标识(如数字或字符等),未记录在词表中的词汇统一转换为“未知词语(UNK)”的编码标识,便可得到编码后的文本。在解码阶段,会按照上述词表,将编码后的文本中的编码标识再转换为对应的词汇,并按照语法规则将得到的词汇序列拼接在一起,便可得到解码后的文本。
[0004]但是,上述方法至少存在以下问题:一方面,因为分词方法不同,所需的词表不同,适配的语种可能不同,适配的终端设备可能不同,使得上述文本编码方法过于依赖分词方法。另一方面,因为分词后的词汇间会插入空格,导致文本中原有的空格信息丢失,或者不在词表中的词汇被统一转换成“未知词语(UNK)”的编码标识等原因,都会导致编码文本失真。

技术实现思路

[0005]为了解决上述文本编码过程过于依赖分词方法以及编码文本失真的技术问题,本公开提供了一种文本编码与解码方法、装置、设备和介质。
[0006]第一方面,本公开提供了一种文本编码方法,该方法包括:
[0007]获取待编码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;
[0008]基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识;
[0009]基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本。
[0010]第二方面,本公开还提供了一种文本解码方法,该方法包括:
[0011]获取待解码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;
[0012]基于所述待解码文本中的所述目标编码标识在所述待解码文本中的第三排列位置和映射表引用序列,从各所述预设映射表中确定出所述目标编码标识对应的第二目标映
射表,并基于所述目标编码标识查询所述第二目标映射表,确定所述目标编码标识对应的解码字符;
[0013]基于所述待解码文本中各所述目标编码标识对应的所述解码字符,生成目标解码文本。
[0014]第三方面,本公开还提供了一种文本编码装置,该装置包括:
[0015]第一信息获取模块,用于获取待编码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;
[0016]目标编码标识确定模块,用于基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识;
[0017]目标编码文本生成模块,用于基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本。
[0018]第四方面,本公开还提供了一种文本解码装置,该装置包括:
[0019]第二信息获取模块,用于获取待解码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;
[0020]解码字符确定模块,用于基于所述待解码文本中的目标编码标识在所述待解码文本中的第三排列位置和映射表引用序列,从各所述预设映射表中确定出所述目标编码标识对应的第二目标映射表,并基于所述目标编码标识查询所述第二目标映射表,确定所述目标编码标识对应的解码字符;
[0021]目标解码文本生成模块,用于基于所述待解码文本中各所述目标编码标识对应的所述解码字符,生成目标解码文本。
[0022]第五方面,本公开提供了一种电子设备,该电子设备包括:
[0023]处理器;
[0024]存储器,用于存储可执行指令;
[0025]其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现本公开任意实施例所说明的文本编码方法或文本解码方法。
[0026]第六方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开任意实施例所说明的文本编码方法或文本解码方法。
[0027]本公开实施例提供的文本编码与解码方法、装置、设备和介质,能够根据相关技术中的参考映射表,获取多个用于记录构成文本的字符和编码标识之间的一一映射关系的预设映射表,并按照映射表引用序列,从多个预设映射表中选择待编码文本(待解码文本)中的待编码字符(待解码字符)适配采用的预设映射表,且将相应待编码字符(待解码字符)映射为对应的目标编码标识(解码字符),得到目标编码文本(解码文本);实现了以字符为单
位进行文本编码和解码,节省了分词以及构建与分词方法适配的词表的流程,避免了文本编码依赖分词方法和文本失真的问题,提高了文本编码效率和文本编码准确性;另外,每个字符所采用的预设映射表由映射表引用序列来确定,一定程度上增加了破解文本编码的难度,从而提高了文本编码的安全性。
附图说明
[0028]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0029]图1为本公开实施例提供的一种文本编码方法的流程示意图;
[0030]图2为本公开实施例提供的一种文本解码方法的流程示意图;
[0031]图3为本公开实施例提供的一种文本编码装置的结构示意图;
[0032]图4为本公开实施例提供的一种文本解码装置的结构示意图;
[0033]图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0034]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:获取待编码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识;基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本。2.根据权利要求1所述的方法,其特征在于,所述预设映射表的数量大于或等于所述映射表引用序列的计数进制的基数。3.根据权利要求1所述的方法,其特征在于,获取所述预设映射表包括:对所述参考映射表中包含的各所述第一编码标识进行随机排序或随机数运算,得到各第二编码标识;基于所述参考映射表中包含的所述信息和各所述第二编码标识,生成所述预设映射表;其中,所述信息包括各所述字符和/或各所述第一编码标识。4.根据权利要求1所述的方法,其特征在于,在所述基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识之前,所述方法还包括:基于所述待编码文本,确定所述映射表引用序列;或者,基于所述待编码文本和编码校验值,确定所述映射表引用序列。5.根据权利要求4所述的方法,其特征在于,所述基于所述待编码文本和编码校验值,确定所述映射表引用序列包括:对所述待编码文本、或所述待编码文本和所述编码校验值的组合进行哈希运算,生成第一文本哈希值;基于所述第一文本哈希值和所述编码校验,生成所述映射表引用序列。6.根据权利要求4所述的方法,其特征在于,所述编码校验值包括用户标识。7.根据权利要求5所述的方法,其特征在于,所述基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本包括:基于所述待编码文本中各所述目标字符对应的所述目标编码标识和所述第一文本哈希值,生成所述目标编码文本;或者,基于所述待编码文本中各所述目标字符对应的所述目标编码标识、第一校验哈希值和所述第一文本哈希值,生成所述目标编码文本;其中,所述第一校验哈希值为所述编码校验值的哈希值。8.根据权利要求1所述的方法,其特征在于,所述基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表包括:基于所述第一排列位置和所述映射表引用序列的序列长度,确定第二排列位置;
从所述映射表引用序列中确定所述第二排列位置处的第一映射表标识,并将所述第一映射表标识对应的所述预设映射表确定为所述第一目标映射表。9.一种文本解码方法,其特征在于,包括:获取待解码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;基于所述待解码文本中的目标编码标识在所述待解码文本中的第三排列位置和映射表引用序列,从各所述预设映射表中确定出所述目标编码标识对应的第二目标映射表,并基于所述目标编码标识查询所述第二目标映射表,确定所述目标编码标识对应的解码字符;基于所述待解码文本中各所述目标编码标识对应的所述解码字符,生成目标解码文本。10.根据权利要求9所述的方法,其特征在于,所述待解码文本中还包括第一校验哈希值和/或第一文本哈希值;其中,所述第一校验哈希值为编码校验值的哈希值,所述第一文本哈希值为待编码文本的哈希值、或所述待编码文本和所述编码校验值的组合的哈希值。11.根据权利要求10所述的方法,其特征在于,在所述待解码文本中包括所述第一校验哈希值的情况下,在所述获取待解码文本和多个预设映射表之后,所述方...

【专利技术属性】
技术研发人员:边超龚笠杨晶生
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1