一种基于搜索语句切词结果的搜索方法及系统技术方案

技术编号:17912347 阅读:26 留言:0更新日期:2018-05-10 18:14
本发明专利技术公开了一种基于搜索语句切词结果的搜索方法及系统,该方法包括:接收搜索框内输入的搜索语句;查找所述搜素语句中的停用词;对停用词之前的语句利用Trie树字典进行正向切分和逆向切分;判断正向切分和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,否则对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;采用该最终切分结果作为搜索语句的关键词进行搜索。通过本发明专利技术的技术方案,可以提高切词的准确性,使得搜索结果更为准确。

【技术实现步骤摘要】
一种基于搜索语句切词结果的搜索方法及系统
本专利技术涉及数据搜索领域,具体涉及一种基于搜索语句切词结果的搜索方法及系统。
技术介绍
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。中文分词是指将中文文档里的汉字序列切分为一个个单独的词。停止词(stopword)是指在自然语言环境中出现频率很高,但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等,中文中的“这”、“的”、“了”、“至于”等。字典树,又称单词查找树,Trie树,是一种树形结构,哈希表的一个变种。用于统计,排序和保存大量的字符串。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子:比如说我们想储存3个单词,中国、中国人,中国人民。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了,例如中作为父节点,国作为中的子节点,人作为国的子节点,民作为人的子节点,每个节点有个标志可以表明是否构成词语。词性包括产品词、品牌词、地区词、分类词等。词库是指将词和词性的组合存储到文件中。倒排索引是实现“单词-文档矩阵”的一种具体存储形式即某个词在哪些文档中存在。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。为了识别用户搜索词中的产品词,快速准确获取该产品词最相关的文档集合,通过中文切词实现。现有技术中,MMSEG和结巴分词主要针对utf-8编码切词的,且词性方面不受控制。针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求,为了实现用户快速准确高效的搜索体验。迫切需要从词库来源、切词方法两个方面的技术问题着手生成解决方案。
技术实现思路
为解决上述技术问题,本专利技术提供了一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:1)接收搜索框内输入的搜索语句;2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;6)采用该最终切分结果作为搜索语句的关键词进行搜索。根据本专利技术的实施例,优选的,所述步骤1)之前,包括以下步骤:根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。根据本专利技术的实施例,优选的,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。根据本专利技术的实施例,优选的,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。根据本专利技术的实施例,优选的,所述词性值包括:产品词,品牌词,地区词。根据本专利技术的实施例,优选的,所述交叉歧义选择包括至少以下选择标准之一:长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。为解决上述技术问题,本专利技术提供了一种基于搜索语句切词结果的搜索系统,其特征在于,该系统包括:搜索语句接收模块,接收搜索框内输入的搜索语句;停用词查找模块,查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;语句切分模块,利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;切分结果判断模块,判断所述正向切分结果和逆向切分结果是否相同;切分结果确定模块,如果正向切分和逆向切分结果,则将所述正向切分结果或逆向切分结果作为最终切分结果,对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;搜索结果输出模块,采用该最终切分结果作为搜索语句的关键词进行搜索,输出搜索结果。根据本专利技术的实施例,优选的,该系统还包括:字典构建模块,根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。根据本专利技术的实施例,优选的,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。根据本专利技术的实施例,优选的,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。根据本专利技术的实施例,优选的,所述词性值包括:产品词,品牌词,地区词。根据本专利技术的实施例,优选的,所述交叉歧义选择包括至少以下选择标准之一:长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。为解决上述技术问题,本专利技术提供了一种计算机可读存储介质,该介质存储有计算机程序指令,通过执行该计算机程序指令,实现上述之一所述的方法。通过本专利技术的技术方案取得了以下技术效果:能够识别用户搜索词中的产品词、地区词等词性,快速准确获取该产品词最相关的文档集合。附图说明图1是本专利技术的切词处理方法流程图;图2是本专利技术Trie树节点示意图;图3是本专利技术的切词处理系统构成图。具体实施方式本专利技术提出的基于GB2312中文切词算法获取词性的方法,针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求,实现了用户快速准确高效的搜索体验。本方法从词库来源、切词方法两个方面的技术问题着手生成解决方案。首先,词库构成,来自搜狗词库,中华词典,以及通过爬虫技术在淘宝、京东搜索获取的推荐词。词库校验,通过爬虫技术在百度百科中校验是否构成词。其次,词库词性,首先的地区词可以直接使用搜狗提供的地区词库,其次是产品词通过爬虫技术在淘宝搜索看是否有推荐词。最后,切词算法实现是建立在我们词库基础上的。首先利用词库生成Trie树结构存储到文件中。其次加载Trie树文件到内存中实现对用户输入文档进行切词标记词性。<切词处理方法>本专利技术提出的中文切词算法获取词性处理过程如图1所示,其中包括了词库构建Trie树,正向逆向切词,交叉歧义选择。下面对这3个处理步骤逐一进行介绍:(1)词库构建Trie树《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB2312—1980。GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个本文档来自技高网
...
一种基于搜索语句切词结果的搜索方法及系统

【技术保护点】
一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:1)接收搜索框内输入的搜索语句;2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;6)采用该最终切分结果作为搜索语句的关键词进行搜索。

【技术特征摘要】
1.一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:1)接收搜索框内输入的搜索语句;2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;6)采用该最终切分结果作为搜索语句的关键词进行搜索。2.根据权利要求1所述的方法,所述步骤1)之前,包括以下步骤:根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。3.根据权利要求2所述的方法,每个Trie树节点包括以下成员:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。4.根据权利要求2所述的方法,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。5.根据权利要求3所述的方法,所述词性值包括:产品词,品牌词,地区词。6.根据权利要求1-5之一所述的方法,所述交叉歧义选择包括至少以下选择标准之一:长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。7.一种基于搜索语句切词结果的搜索系统,其特征在于,该系统包括:搜索语句接收模块,接收搜索...

【专利技术属性】
技术研发人员:王兵权喻波王志海魏效征牛立伟曹石勇
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1