分词方法、系统及装置制造方法及图纸

技术编号:34635409 阅读:8 留言:0更新日期:2022-08-24 15:08
本发明专利技术公开了一种分词方法、系统及装置,涉及文本处理领域,在获取到包含有多个文本内容的数据集后,利用预设词汇库对数据集中的每个文本内容进行基于预设级别的分词,得到X个分词成功的字符的分词结果和Y个分词失败的字符;对于分词失败的字符,将各个分词失败的字符的唯一标识编码作为对应的分词失败的字符的分词结果,唯一标识编码是一个能够准确表示该分词失败的字符的元素,算法模型根据该唯一标识编码能够识别出该分词失败的字符,基于此,通过确定各个分词失败的字符的唯一标识编码,能够对数据集中的所有不存在于预设词汇库中的字符进行分词,使得数据集中的每个字符都有其对应的分词结果,使得算法模型能够识别数据集中的每个字符。据集中的每个字符。据集中的每个字符。

【技术实现步骤摘要】
分词方法、系统及装置


[0001]本专利技术涉及文本处理领域,特别是涉及一种分词方法、系统及装置。

技术介绍

[0002]分词表示将字符与字符连在一起的词语或者语句拆分成多个相互独立和完整的分词结果,对文本进行处理的相关算法模型在进行训练时,通常需要使用大量的文本进行分词后得到的分词结果作为其输入特征进行训练。在对文本进行分词时,现有技术在进行分词时,首先在预设词汇库中存放多个常用字符如常用汉字和英文字母等,当获取到一个包含有多个文本内容的数据集时,现有技术利用预设词汇库来对该数据集中的各个文本内容进行分词。例如,当数据集中的一个文本内容为“现在是白天”时,若这5个汉字以及“现在”这个词均存在于预设词汇库中,则该文本内容的分词结果为

现在







,其能够得到这5个汉字的正确分词结果,但是若“天”字不存在于预设词汇库中,则该文本内容的分词结果可能是

现在







。可见,该分词方法能够对每个存在于预设词汇库中的字符都进行正确分词,但是,随着人们使用到的字符的类型增加,会出现越来越多预设词汇库中不存在的字符,当数据集的文本内容中包含有预设词汇库中不存在的字符时,该方法则无法对该字符进行正确分词,进而导致相关算法模型无法识别该字符。

技术实现思路

[0003]本专利技术的目的是提供一种分词方法、系统及装置,能够对数据集中的所有不存在于预设词汇库中的字符也进行分词,使得数据集中的每个字符都有其对应的分词结果,使得算法模型能够识别出数据集中的每个字符。
[0004]为解决上述技术问题,本专利技术提供了一种分词方法,包括:
[0005]获取包含多个文本内容的数据集;
[0006]利用预设词汇库对所述数据集中的各个文本内容进行基于预设级别的分词,得到X个分词成功的字符的分词结果和Y个分词失败的字符,X和Y均为整数且X与Y的数量和为所述数据集的所有文本内容中字符的总数量;
[0007]确定各个分词失败的所述字符对应的唯一标识编码;
[0008]将所述唯一标识编码作为对应的分词失败的所述字符的分词结果;
[0009]其中,所述预设词汇库中存储有N个字符和M个第一字符组合,N和M为不同时为零的整数。
[0010]优选的,当所述分词失败的所述字符包括汉字字符和/或非汉字字符时,确定各个分词失败的所述字符对应的唯一标识编码,包括:
[0011]确定各个分词失败的所述汉字字符对应的UTF

8编码;
[0012]确定各个所述UTF

8编码对应的ASCII码;
[0013]确定所述ASCII码作为对应的分词失败的所述汉字字符的唯一标识编码;
[0014]和/或,
[0015]确定各个分词失败的所述非汉字字符对应的ASCII码作为对应的分词失败的所述非汉字字符的唯一标识编码;
[0016]其中,所述预设词汇库中还存储有ASCII码表。
[0017]优选的,在获取包含多个文本内容的数据集之后,还包括:
[0018]S21:在所有所述文本内容的所有字符中确定由多个所述字符组成的第二字符组合以及各个所述第二字符组合重复的个数;
[0019]S22:判断所述预设词汇库中存储的第一字符组合的总数量是否小于预设数量,若小于预设数量,则进入S23;若不小于预设数量,则进入S26;
[0020]S23:判断重复个数最多的所述第二字符组合是否存在于所述预设词汇库中,若不存在于所述预设词汇库中,则进入S24;若存在于所述预设词汇库中,则进入S25;
[0021]S24:将重复个数最多的所述第二字符组合存储到所述预设词汇库中,并将重复个数仅小于重复个数最多的所述第二字符组合的第二字符组合作为新的重复个数最多的所述第二字符组合,返回S22;
[0022]S25:将重复个数仅小于重复个数最多的所述第二字符组合的第二字符组合作为新的重复个数最多的所述第二字符组合,返回S22;
[0023]S26:确定对所述预设词汇库的第一字符组合的数量更新完成。
[0024]优选的,在所有所述文本内容的所有字符中确定由多个所述字符组成的第二字符组合以及各个所述第二字符组合重复的个数,包括:
[0025]确定所有所述文本内容的所有字符中,各个所述字符对应的唯一标识编码;
[0026]确定由多个所述唯一标识编码组成的编码组合以及各个所述编码组合重复的个数。
[0027]优选的,确定由多个所述唯一标识编码组成的编码组合以及各个所述编码组合重复的个数,包括:
[0028]利用BPE算法确定由多个所述唯一标识编码组成的编码组合以及各个所述编码组合重复的个数。
[0029]优选的,在获取包含多个文本内容的数据集之后,还包括:
[0030]确定所述数据集的所有所述文本内容中的各个字符重复的个数;
[0031]将所述字符的重复个数大于预设次数的所有所述字符均存储到所述预设词汇库中。
[0032]优选的,所述利用预设词汇库对所述数据集中的各个文本内容进行基于预设级别的分词,包括:
[0033]利用预设词汇表基于最大匹配算法对所述数据集中的各个文本内容进行基于预设级别的分词。
[0034]优选的,在将所述数据集发送给算法模型之前,还包括:
[0035]判断所述数据集的各个所述文本内容的字符长度是否存在大于预设长度的文本内容;
[0036]若是,则将大于预设长度的文本内容中的所有分词失败的所述字符的分词结果均替换成同一预设特殊字符。
[0037]本申请还提供一种分词系统,包括:
[0038]获取单元,用于获取包含多个文本内容的数据集;
[0039]第一分词单元,用于利用预设词汇库对所述数据集中的各个文本内容进行基于预设级别的分词,得到X个分词成功的字符的分词结果和Y个分词失败的字符,X和Y均为整数且X与Y的数量和为所述数据集的所有文本内容中字符的总数量;
[0040]编码确定单元,用于确定各个分词失败的所述字符对应的唯一标识编码;
[0041]第二分词单元,用于将所述唯一标识编码作为对应的分词失败的所述字符的分词结果;
[0042]其中,所述预设词汇库中存储有N个字符和M个第一字符组合,N和M为不同时为零的整数。
[0043]本申请还提供一种分词装置,包括:
[0044]存储器,用于存储计算机程序;
[0045]处理器,用于执行所述计算机程序时实现如上述的分词方法的步骤。
[0046]本专利技术提供了一种分词方法、系统及装置,在获取到包含有多个文本内容的数据集后,利用预设词汇库对数据集中的每个文本内容进行基于预设级别的分词,得到X个分词成功的字符的分词结果和Y个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,包括:获取包含多个文本内容的数据集;利用预设词汇库对所述数据集中的各个文本内容进行基于预设级别的分词,得到X个分词成功的字符的分词结果和Y个分词失败的字符,X和Y均为整数且X与Y的数量和为所述数据集的所有文本内容中字符的总数量;确定各个分词失败的所述字符对应的唯一标识编码;将所述唯一标识编码作为对应的分词失败的所述字符的分词结果;其中,所述预设词汇库中存储有N个字符和M个第一字符组合,N和M为不同时为零的整数。2.如权利要求1所述的分词方法,其特征在于,当所述分词失败的所述字符包括汉字字符和/或非汉字字符时,确定各个分词失败的所述字符对应的唯一标识编码,包括:确定各个分词失败的所述汉字字符对应的UTF

8编码;确定各个所述UTF

8编码对应的ASCII码;确定所述ASCII码作为对应的分词失败的所述汉字字符的唯一标识编码;和/或,确定各个分词失败的所述非汉字字符对应的ASCII码作为对应的分词失败的所述非汉字字符的唯一标识编码;其中,所述预设词汇库中还存储有ASCII码表。3.如权利要求1所述的分词方法,其特征在于,在获取包含多个文本内容的数据集之后,还包括:S21:在所有所述文本内容的所有字符中确定由多个所述字符组成的第二字符组合以及各个所述第二字符组合重复的个数;S22:判断所述预设词汇库中存储的第一字符组合的总数量是否小于预设数量,若小于预设数量,则进入S23;若不小于预设数量,则进入S26;S23:判断重复个数最多的所述第二字符组合是否存在于所述预设词汇库中,若不存在于所述预设词汇库中,则进入S24;若存在于所述预设词汇库中,则进入S25;S24:将重复个数最多的所述第二字符组合存储到所述预设词汇库中,并将重复个数仅小于重复个数最多的所述第二字符组合的第二字符组合作为新的重复个数最多的所述第二字符组合,返回S22;S25:将重复个数仅小于重复个数最多的所述第二字符组合的第二字符组合作为新的重复个数最多的所述第二字符组合,返回S22;S26:确定对所述预设词汇库的第一字符组合的数量更新完成。4.如权利要求3所述的分词...

【专利技术属性】
技术研发人员:戴作新李波
申请(专利权)人:深圳市普渡科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1