一种字符串切分方法及装置制造方法及图纸

技术编号:15437218 阅读:62 留言:0更新日期:2017-05-25 19:23
本申请公开了一种字符串切分方法及装置,在本申请所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。

String segmentation method and device

The invention discloses a device and a string segmentation method in this application, the scheme, according to the number of English word strings in the corpus the number of English string frequency, a string segmentation model for any language, to be cut fraction English string, string segmentation language model with the English scores to be cut the string belongs to the category based on the dynamic programming algorithm, the optimal path to determine the fraction of English string to be cut, in order to get the cut fraction English string segmentation results, so as to solve for the number of English string matching with dictionary + mode segmentation, can not login the segmentation of string and postprocessing rules for segmentation correction, limited coverage problems, improve the accuracy of the number of English string segmentation.

【技术实现步骤摘要】
一种字符串切分方法及装置
本申请涉及互联网搜索
,尤其涉及一种字符串切分方法及装置。
技术介绍
中文分词技术是指按照一定的规范将一个汉字序列切分成一个一个单独的词的技术,其是搜索引擎的一项很重要的基础技术,其结果的好坏将直接影响到搜索引擎的搜索性能。具体地,由于词典+匹配(如正向最大匹配、逆向最大匹配、或双向最大匹配法等)的技术具备较高的准确性和良好的性能,因而,其逐渐成为搜索引擎常用的一种分词技术,对于纯中文的字符串能较好地解决分词问题。但是,由于对于适用于物品搜索领域的物品搜索引擎来说,其接收到的物品标题和/或查询词常常为夹杂大量的数字及英文字符串的字符串,以表示物品的货号、型号、容量规格、或尺寸大小等,例如,查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。且,这类字符串中的数英字符串的输入通常具备较高的灵活性,即,针对表示同一含义的数英字符串,不同的用户所输入的格式却大不相同,具备较多的未登录词。因而,若仍沿用中文分词的方法,采用词典+匹配的方式对该类字符串进行切分,则由于词典+匹配的方式通常无法识别未登录词,因而,会存在很难得到正确的切分结果的问题,降低分词的准确性,另外,还会极大地降低物品搜索引擎的搜索性能。例如,对于查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”,按照词典+匹配的方式很难将其正确地切分成“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。为了解决该问题,业界给出了一种采用设定的模式匹配规则,对词典+匹配的初步分词结果进行修正,以识别出一些特定模式的数英串的方案。例如,可以将日期或者首字母是大写的单词切分、无法判断的串将数字和英文切分等。但是,由于这些后处理规则覆盖范围有限,且规则之间还可能会有冲突,因而,使得切分结果的准确性也并不高。也就是说,现有的词典+匹配的方式存在无法识别和切分未登录词,使得将其适用于数英串的分词时,分词准确性较低的问题。同时,后处理修正方案也存在后处理规则覆盖范围有限、规则之间存在冲突等使得将其适用于数英串的分词时,分词准确性较低的问题。因此,亟需提供一种新的可适用于数英串的分词方法,以解决上述问题。
技术实现思路
本申请实施例提供了一种字符串切分方法及装置,用以解决现有的数英串分词方法的分词准确性较低的问题。本申请实施例提供了一种字符串切分方法,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。本申请实施例还提供了一种字符串切分装置,包括:模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;字符串确定模块,用于确定待切分数英字符串;模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。本申请有益效果如下:本申请实施例提供了一种字符串切分方法及装置,在本申请实施例所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1所示为本申请实施例一中所述字符串切分方法的流程示意图;图2所示为本申请实施例二中所述字符串切分装置的结构示意图。具体实施方式由于通过观察用户输入的查询词和物品标题发现,大部分用户的输入相对比较规范,即,用户输入“1tssd”的情况远小于输入“1tssd”的情况。因此,本申请实施例提出了一种以用户输入的查询词和物品标题中的数英串(即数英字符串语料)作为语料,建立字符串切分语言模型,对于任意的待切分数英字符串,基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果的方案,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。实施例一:本申请实施例一提供了一种字符串切分方法,所述字符串切分方法可适用于主要由数字字符以及英文字符组成的数英字符串(可简称为数英串)的切分,本申请实施例对此不作赘述。具体地,如图1所示,其为本申请实施例一中所述字符串切分方法的流程示意图,所述字符串切分方法可包括以下步骤:步骤101:确定待切分数英字符串;步骤102:确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;步骤103:基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。由于针对任意的待切分数英字符串,是基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分的,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。下面,将以具体实例为例,对本申请实施例中所述的字符串切分方法的流程进行进一步说明。可选地,在进行数英字符串的切分之前,可首先根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型。具体地,以数英字符串为查询词字符串以及物品标题字符串为例,由于查询词和物品标题在语料的分布上存在差异,因而,为了提高语言模型建立的准确性,在本申请所述实施例中,可对查询词语料和物品标题语料单独建立语言模型,得到相应的查询词语言模型以及本文档来自技高网
...
一种字符串切分方法及装置

【技术保护点】
一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

【技术特征摘要】
1.一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),ifcount(Wi-1Wi)!=0;P(Wi|Wi-1)=α*count(Wi-1)/C,ifcount(Wi-1Wi)=0;其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),ifc(Wi-1Wi)!=0;Pc(Wi|Wi-1)=α*c(Wi-1)/C,ifc(Wi-1Wi)=0;其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。5.如权利要求1所述的方法,其特征在于,基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,包括:确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。6.如权利要求5所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切...

【专利技术属性】
技术研发人员:肖荣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1