分词处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:37104974 阅读:17 留言:0更新日期:2023-04-01 05:04
本申请公开了一种分词处理方法、装置、服务器及存储介质。分词处理方法包括:对待分词的原始文本进行分词处理,得到第一分词结果,第一分词结果中包括M个词;按照第一切分规则对M个词进行切分处理以得到第一切分结果,第一切分规则包括:将第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分;按照第二切分规则对M个词进行切分处理以得到第二切分结果,第二切分规则包括将第i个词中相邻的同类型字符切分成单个字符串,并且对切分出的汉字字符串不进行单字切分;对第i个词进行滑窗处理,得到第i个词的第一分词集合;使用第i个词的第一分词集合更新第一分词结果。本申请公开的方法能够降低分词成本。成本。成本。

【技术实现步骤摘要】
分词处理方法、装置、服务器及存储介质


[0001]本申请属于计算机
,尤其涉及一种分词处理方法、装置、服务器及存储介质。

技术介绍

[0002]在中文自然语言处理的各种各样的场景中,通常需要对文本进行分词。比如,为了根据用户输入的搜索文本从商品库中召回相匹配的商品,需要对用户输入的搜索文本以及商品库中商品的文本进行分词,以进行文本匹配来召回商品。
[0003]而在相关技术中的文本分词方案中,工业中通常是使用机器从预先标注好的语料库中学习,然后根据学习到的内容对需要分词的原始文本进行分词。但是,由于语料库中的语料通常是由人工对文本进行标注得到,因此,需要占用较多的人力资源进行标注,导致获取分词训练语料的成本较高,进而导致分词成本较高。

技术实现思路

[0004]本申请实施例提供一种分词处理方法、装置、服务器及存储介质,能够解决由于需要占用较多的人力资源进行标注以得到分词训练语料,使得获取分词训练语料的成本较高,进而导致分词成本较高的问题。
[0005]一方面,本申请实施例提供一种分词处理方法,包括:
[0006]对待分词的原始文本进行分词处理,得到第一分词结果,所述第一分词结果中包括M个词,所述M个词中第i个词包括汉字文本和/或非汉字文本,M为正整数;
[0007]按照第一切分规则对所述M个词进行切分处理以得到第一切分结果,所述第一切分规则包括:将所述第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分,非汉字字符串不进行单字切分,i∈[1,M],且i为整数;
[0008]按照第二切分规则对所述M个词进行切分处理以得到第二切分结果,所述第二切分规则包括将所述第i个词中相邻的同类型字符切分成单个字符串,并且对切分出的汉字字符串和非汉字字符串均不进行单字切分;
[0009]在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,得到所述第i个词的第一分词集合;
[0010]使用所述第i个词的第一分词集合更新所述第一分词结果。
[0011]另一方面,本申请实施例提供了一种分词处理装置,包括:
[0012]第一分词模块,用于对待分词的原始文本进行分词处理,得到第一分词结果,所述第一分词结果中包括M个词,所述M个词中第i个词包括汉字文本和/或非汉字文本,M为正整数;
[0013]第一切分模块,用于按照第一切分规则对所述M个词进行切分处理以得到第一切分结果,所述第一切分规则包括:将所述第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分,非汉字字符串不进行单字切分,i∈[1,M],且i为
整数;
[0014]第二切分模块,用于按照第二切分规则对所述M个词进行切分处理以得到第二切分结果,所述第二切分规则包括将所述第i个词中相邻的同类型字符切分成单个字符串,并且对切分出的汉字字符串和非汉字字符串均不进行单字切分;
[0015]滑窗模块,用于在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,得到所述第i个词的第一分词集合;
[0016]第一更新模块,用于使用所述第i个词的第一分词集合更新所述第一分词结果。
[0017]再一方面,本申请实施例提供了一种服务器,所述服务器包括:处理器以及存储有计算机程序指令的存储器;
[0018]所述处理器执行所述计算机程序指令时实现第一方面提供的分词处理方法。
[0019]再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现第一方面提供的分词处理方法。
[0020]本申请实施例的分词处理方法、装置、服务器及存储介质,先对待分词的原始文本进行分词处理,得到第一分词结果,并对第一分词结果中的词再分别进行两种切分处理,得到第一切分结果和第二切分结果。然后,在第一切分结果和第二切分结果符合预设条件的情况下,对该词进行滑窗处理,得到分词集合。使用分词集合更新第一分词结果,更新后的分词结果质量较高,能够满足应用需求。利用本申请的实施例,可以实现对原始文本的自动多粒度分词,分词处理不再依赖于语料库,从而避免占用较多的人力资源来获取不同粒度的分词训练语料,降低文本的分词成本。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请提供的分词处理方法的一个实施例的流程示意图。
[0023]图2是本申请提供的分词处理方法的另一个实施例的流程示意图。
[0024]图3是本申请提供的分词处理方法的又一个实施例的流程示意图。
[0025]图4是使用多种分词处理方法对一个示例的原始文本进行分词得到的分词结果的示意图。
[0026]图5是使用多种分词处理方法对另一个示例的原始文本进行分词得到的分词结果的示意图。
[0027]图6是本申请提供的一种分词处理装置的一个实施例的结构示意图。
[0028]图7是本申请提供的服务器的一个实施例的硬件结构示意图。
具体实施方式
[0029]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细
描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0030]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0031]为了解决现有技术问题,本申请实施例提供了一种分词处理方法、装置、服务器及存储介质。下面首先对本申请实施例所提供的分词处理方法进行介绍。
[0032]图1是本申请提供的分词处理方法的一个实施例的流程示意图。如图1所示,分词处理方法包括:
[0033]S102,对待分词的原始文本进行分词处理,得到第一分词结果,第一分词结果中包括M个词,M个词中第i个词包括汉字文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词处理方法,其特征在于,包括:对待分词的原始文本进行分词处理,得到第一分词结果,所述第一分词结果中包括M个词,所述M个词中第i个词包括汉字文本和/或非汉字文本,M为正整数;按照第一切分规则对所述M个词进行切分处理以得到第一切分结果,所述第一切分规则包括:将所述第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分,非汉字字符串不进行单字切分,i∈[1,M],且i为整数;按照第二切分规则对所述M个词进行切分处理以得到第二切分结果,所述第二切分规则包括将所述第i个词中相邻的同类型字符切分成单个字符串,并且对切分出的汉字字符串和非汉字字符串均不进行单字切分;在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,得到所述第i个词的第一分词集合;使用所述第i个词的第一分词集合更新所述第一分词结果。2.根据权利要求1所述的文本分词方法,其特征在于,在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,包括:如果所述第一切分结果中的字符串个数大于第一预设值,并且所述第一切分结果中的字符串个数和所述第二切分结果中的字符串个数之间的差值大于第二预设值,并且所述第i个词的长度大于第三预设值,则对所述第i个词进行滑窗处理;其中,所述第三预设值大于所述第一预设值。3.根据权利要求2所述的文本分词方法,其特征在于,所述滑窗处理包括以单个字符串为步长分别进行的正向滑窗处理和反向滑窗处理;对所述第i个词进行滑窗处理,包括:从所述第i个词的第二个字符串至最后一个字符串进行滑窗处理;以及从所述第i个词的最后一个字符串至所述第i个词的第一个字符串进行滑窗处理。4.根据权利要求1所述的文本分词方法,其特征在于,如果所述第一切分结果中的字符串个数和所述第二切分结果中的字符串个数之间的差值小于或等于第二预设值,或者,所述第i个词的长度小于或等于第三预设值,所述方法还包括:确定所述第i个词中的单字物品词;将所述第i个词中的与所述单字物品词相邻的字与所述单字物品词切分开,得到所述第i个词的第一分词集合;使用所述第i个词的第一分词集合更新所述第一分词结果。5.根据权利要求1

4中任一项所述的文本分词方法,其特征在于,所述原始文本为用于在商品库中搜索商品的文本。6.根据权利要求5所述的文本分词方法,其特征在于,所述使用所述第i个词的第一分词集合更新所述第一分词结果,包括:将所述第一分词结果中的所述第i个词替换为所述第i个词的第一分词集合。7.根据权利要求5所述的文本分词方法,其特征在于,还包括:将所述第一分词结果中的所述第i个词替换为所述第二切分结果中的词。8.根据权利要求1

4中任一项所述的文本分词方法,其特征在于,所述原始文本为用于描述商品库中商品的文本。9.根据权利要求8所述...

【专利技术属性】
技术研发人员:冉静
申请(专利权)人:北京转转精神科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1