【技术实现步骤摘要】
文本编码与解码方法、装置、设备和介质
[0001]本公开涉及计算机
,尤其涉及一种文本编码与解码方法、装置、设备和介质。
技术介绍
[0002]文本数字化或文本编码在数据安全领域中是一种基础的文本加密方法。
[0003]现有技术中,文本编码主要是通过“分词+词表”的方式实现的。该方法在编码阶段,先对一段文本经过分词后得到以空格分隔的多个词汇,然后根据预先建立的词表将每个词汇转换为对应的编码标识(如数字或字符等),未记录在词表中的词汇统一转换为“未知词语(UNK)”的编码标识,便可得到编码后的文本。在解码阶段,会按照上述词表,将编码后的文本中的编码标识再转换为对应的词汇,并按照语法规则将得到的词汇序列拼接在一起,便可得到解码后的文本。
[0004]但是,上述方法至少存在以下问题:一方面,因为分词方法不同,所需的词表不同,适配的语种可能不同,适配的终端设备可能不同,使得上述文本编码方法过于依赖分词方法。另一方面,因为分词后的词汇间会插入空格,导致文本中原有的空格信息丢失,或者不在词表中的词汇被统一转换成“未知词语(UNK)”的编码标识等原因,都会导致编码文本失真。
技术实现思路
[0005]为了解决上述文本编码过程过于依赖分词方法以及编码文本失真的技术问题,本公开提供了一种文本编码与解码方法、装置、设备和介质。
[0006]第一方面,本公开提供了一种文本编码方法,该方法包括:
[0007]获取待编码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考 ...
【技术保护点】
【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:获取待编码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识;基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本。2.根据权利要求1所述的方法,其特征在于,所述预设映射表的数量大于或等于所述映射表引用序列的计数进制的基数。3.根据权利要求1所述的方法,其特征在于,获取所述预设映射表包括:对所述参考映射表中包含的各所述第一编码标识进行随机排序或随机数运算,得到各第二编码标识;基于所述参考映射表中包含的所述信息和各所述第二编码标识,生成所述预设映射表;其中,所述信息包括各所述字符和/或各所述第一编码标识。4.根据权利要求1所述的方法,其特征在于,在所述基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表,并基于所述目标字符查询所述第一目标映射表,确定所述目标字符对应的目标编码标识之前,所述方法还包括:基于所述待编码文本,确定所述映射表引用序列;或者,基于所述待编码文本和编码校验值,确定所述映射表引用序列。5.根据权利要求4所述的方法,其特征在于,所述基于所述待编码文本和编码校验值,确定所述映射表引用序列包括:对所述待编码文本、或所述待编码文本和所述编码校验值的组合进行哈希运算,生成第一文本哈希值;基于所述第一文本哈希值和所述编码校验,生成所述映射表引用序列。6.根据权利要求4所述的方法,其特征在于,所述编码校验值包括用户标识。7.根据权利要求5所述的方法,其特征在于,所述基于所述待编码文本中各所述目标字符对应的所述目标编码标识,生成目标编码文本包括:基于所述待编码文本中各所述目标字符对应的所述目标编码标识和所述第一文本哈希值,生成所述目标编码文本;或者,基于所述待编码文本中各所述目标字符对应的所述目标编码标识、第一校验哈希值和所述第一文本哈希值,生成所述目标编码文本;其中,所述第一校验哈希值为所述编码校验值的哈希值。8.根据权利要求1所述的方法,其特征在于,所述基于所述待编码文本中的目标字符在所述待编码文本中的第一排列位置和映射表引用序列,从各所述预设映射表中确定所述目标字符对应的第一目标映射表包括:基于所述第一排列位置和所述映射表引用序列的序列长度,确定第二排列位置;
从所述映射表引用序列中确定所述第二排列位置处的第一映射表标识,并将所述第一映射表标识对应的所述预设映射表确定为所述第一目标映射表。9.一种文本解码方法,其特征在于,包括:获取待解码文本和多个预设映射表;其中,所述预设映射表基于参考映射表生成,所述参考映射表用于记录构成文本的字符和第一编码标识之间的一一对应关系,所述预设映射表用于记录所述参考映射表中的信息与第二编码标识之间的一一对应关系;基于所述待解码文本中的目标编码标识在所述待解码文本中的第三排列位置和映射表引用序列,从各所述预设映射表中确定出所述目标编码标识对应的第二目标映射表,并基于所述目标编码标识查询所述第二目标映射表,确定所述目标编码标识对应的解码字符;基于所述待解码文本中各所述目标编码标识对应的所述解码字符,生成目标解码文本。10.根据权利要求9所述的方法,其特征在于,所述待解码文本中还包括第一校验哈希值和/或第一文本哈希值;其中,所述第一校验哈希值为编码校验值的哈希值,所述第一文本哈希值为待编码文本的哈希值、或所述待编码文本和所述编码校验值的组合的哈希值。11.根据权利要求10所述的方法,其特征在于,在所述待解码文本中包括所述第一校验哈希值的情况下,在所述获取待解码文本和多个预设映射表之后,所述方...
【专利技术属性】
技术研发人员:边超,龚笠,杨晶生,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。