The invention discloses a device and a string segmentation method in this application, the scheme, according to the number of English word strings in the corpus the number of English string frequency, a string segmentation model for any language, to be cut fraction English string, string segmentation language model with the English scores to be cut the string belongs to the category based on the dynamic programming algorithm, the optimal path to determine the fraction of English string to be cut, in order to get the cut fraction English string segmentation results, so as to solve for the number of English string matching with dictionary + mode segmentation, can not login the segmentation of string and postprocessing rules for segmentation correction, limited coverage problems, improve the accuracy of the number of English string segmentation.
【技术实现步骤摘要】
一种字符串切分方法及装置
本申请涉及互联网搜索
,尤其涉及一种字符串切分方法及装置。
技术介绍
中文分词技术是指按照一定的规范将一个汉字序列切分成一个一个单独的词的技术,其是搜索引擎的一项很重要的基础技术,其结果的好坏将直接影响到搜索引擎的搜索性能。具体地,由于词典+匹配(如正向最大匹配、逆向最大匹配、或双向最大匹配法等)的技术具备较高的准确性和良好的性能,因而,其逐渐成为搜索引擎常用的一种分词技术,对于纯中文的字符串能较好地解决分词问题。但是,由于对于适用于物品搜索领域的物品搜索引擎来说,其接收到的物品标题和/或查询词常常为夹杂大量的数字及英文字符串的字符串,以表示物品的货号、型号、容量规格、或尺寸大小等,例如,查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。且,这类字符串中的数英字符串的输入通常具备较高的灵活性,即,针对表示同一含义的数英字符串,不同的用户所输入的格式却大不相同,具备较多的未登录词。因而,若仍沿用中文分词的方法,采用词典+匹配的方式对该类字符串进行切分,则由于词典+匹配的方式通常无法识别未登录词,因而,会存在很难得到正确的切分结果的问题,降低分词的准确性,另外,还会极大地降低物品搜索引擎的搜索性能。例如,对于查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”,按照词典+匹配的方式很难将其正确地切分成“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。为了解决该问题,业界给出了一种采用设定的模式匹配规则,对词典+匹配的初步分词结果进行修正,以 ...
【技术保护点】
一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
【技术特征摘要】
1.一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),ifcount(Wi-1Wi)!=0;P(Wi|Wi-1)=α*count(Wi-1)/C,ifcount(Wi-1Wi)=0;其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),ifc(Wi-1Wi)!=0;Pc(Wi|Wi-1)=α*c(Wi-1)/C,ifc(Wi-1Wi)=0;其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。5.如权利要求1所述的方法,其特征在于,基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,包括:确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。6.如权利要求5所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切...
【专利技术属性】
技术研发人员:肖荣,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。