【技术实现步骤摘要】
分词处理方法、装置、服务器及存储介质
[0001]本申请属于计算机
,尤其涉及一种分词处理方法、装置、服务器及存储介质。
技术介绍
[0002]在中文自然语言处理的各种各样的场景中,通常需要对文本进行分词。比如,为了根据用户输入的搜索文本从商品库中召回相匹配的商品,需要对用户输入的搜索文本以及商品库中商品的文本进行分词,以进行文本匹配来召回商品。
[0003]而在相关技术中的文本分词方案中,工业中通常是使用机器从预先标注好的语料库中学习,然后根据学习到的内容对需要分词的原始文本进行分词。但是,由于语料库中的语料通常是由人工对文本进行标注得到,因此,需要占用较多的人力资源进行标注,导致获取分词训练语料的成本较高,进而导致分词成本较高。
技术实现思路
[0004]本申请实施例提供一种分词处理方法、装置、服务器及存储介质,能够解决由于需要占用较多的人力资源进行标注以得到分词训练语料,使得获取分词训练语料的成本较高,进而导致分词成本较高的问题。
[0005]一方面,本申请实施例提供一种分词处理方法,包括:
[0006]对待分词的原始文本进行分词处理,得到第一分词结果,所述第一分词结果中包括M个词,所述M个词中第i个词包括汉字文本和/或非汉字文本,M为正整数;
[0007]按照第一切分规则对所述M个词进行切分处理以得到第一切分结果,所述第一切分规则包括:将所述第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分,非汉字字符串不进行单字切分,i∈[1 ...
【技术保护点】
【技术特征摘要】
1.一种分词处理方法,其特征在于,包括:对待分词的原始文本进行分词处理,得到第一分词结果,所述第一分词结果中包括M个词,所述M个词中第i个词包括汉字文本和/或非汉字文本,M为正整数;按照第一切分规则对所述M个词进行切分处理以得到第一切分结果,所述第一切分规则包括:将所述第i个词中相邻的同类型字符切分成单个字符串,并对切分出的汉字字符串进行单字切分,非汉字字符串不进行单字切分,i∈[1,M],且i为整数;按照第二切分规则对所述M个词进行切分处理以得到第二切分结果,所述第二切分规则包括将所述第i个词中相邻的同类型字符切分成单个字符串,并且对切分出的汉字字符串和非汉字字符串均不进行单字切分;在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,得到所述第i个词的第一分词集合;使用所述第i个词的第一分词集合更新所述第一分词结果。2.根据权利要求1所述的文本分词方法,其特征在于,在所述第一切分结果和所述第二切分结果符合预设条件的情况下,对所述第i个词进行滑窗处理,包括:如果所述第一切分结果中的字符串个数大于第一预设值,并且所述第一切分结果中的字符串个数和所述第二切分结果中的字符串个数之间的差值大于第二预设值,并且所述第i个词的长度大于第三预设值,则对所述第i个词进行滑窗处理;其中,所述第三预设值大于所述第一预设值。3.根据权利要求2所述的文本分词方法,其特征在于,所述滑窗处理包括以单个字符串为步长分别进行的正向滑窗处理和反向滑窗处理;对所述第i个词进行滑窗处理,包括:从所述第i个词的第二个字符串至最后一个字符串进行滑窗处理;以及从所述第i个词的最后一个字符串至所述第i个词的第一个字符串进行滑窗处理。4.根据权利要求1所述的文本分词方法,其特征在于,如果所述第一切分结果中的字符串个数和所述第二切分结果中的字符串个数之间的差值小于或等于第二预设值,或者,所述第i个词的长度小于或等于第三预设值,所述方法还包括:确定所述第i个词中的单字物品词;将所述第i个词中的与所述单字物品词相邻的字与所述单字物品词切分开,得到所述第i个词的第一分词集合;使用所述第i个词的第一分词集合更新所述第一分词结果。5.根据权利要求1
‑
4中任一项所述的文本分词方法,其特征在于,所述原始文本为用于在商品库中搜索商品的文本。6.根据权利要求5所述的文本分词方法,其特征在于,所述使用所述第i个词的第一分词集合更新所述第一分词结果,包括:将所述第一分词结果中的所述第i个词替换为所述第i个词的第一分词集合。7.根据权利要求5所述的文本分词方法,其特征在于,还包括:将所述第一分词结果中的所述第i个词替换为所述第二切分结果中的词。8.根据权利要求1
‑
4中任一项所述的文本分词方法,其特征在于,所述原始文本为用于描述商品库中商品的文本。9.根据权利要求8所述...
【专利技术属性】
技术研发人员:冉静,
申请(专利权)人:北京转转精神科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。