一种基于搜索语句切词结果的搜索方法及系统技术方案

技术编号：17912347 阅读：26 留言：0更新日期：2018-05-10 18:14

本发明专利技术公开了一种基于搜索语句切词结果的搜索方法及系统，该方法包括：接收搜索框内输入的搜索语句；查找所述搜素语句中的停用词；对停用词之前的语句利用Trie树字典进行正向切分和逆向切分；判断正向切分和逆向切分结果是否相同，如果是，则将所述正向切分结果或逆向切分结果作为最终切分结果，否则对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；采用该最终切分结果作为搜索语句的关键词进行搜索。通过本发明专利技术的技术方案，可以提高切词的准确性，使得搜索结果更为准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于搜索语句切词结果的搜索方法及系统
本专利技术涉及数据搜索领域，具体涉及一种基于搜索语句切词结果的搜索方法及系统。
技术介绍
GB2312编码是第一个汉字编码国家标准，由中国国家标准总局1980年发布，1981年5月1日开始使用。GB2312编码共收录汉字6763个，其中一级汉字3755个，二级汉字3008个。中文分词是指将中文文档里的汉字序列切分为一个个单独的词。停止词(stopword)是指在自然语言环境中出现频率很高，但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等，中文中的“这”、“的”、“了”、“至于”等。字典树，又称单词查找树，Trie树，是一种树形结构，哈希表的一个变种。用于统计，排序和保存大量的字符串。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子：比如说我们想储存3个单词，中国、中国人，中国人民。如果只是单纯的按照以前的字符数组存储的思路来存储的话，那么我们需要定义三个字符串数组。但是如果我们用字典树的话，只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了，例如中作为父节点，国作为中的子节点，人作为国的子节点，民作为人的子节点，每个节点有个标志可以表明是否构成词语。词性包括产品词、品牌词、地区词、分类词等。词库是指将词和词性的组合存储到文件中。倒排索引是实现“单词-文档矩阵”的一种具体存储形式即某个词在哪些文档中存在。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。为了识别用户搜索词中的产品词，快速准确获取该产品词最相关的文档集合，通过中文切词实现。现有技术中，...
一种基于搜索语句切词结果的搜索方法及系统

【技术保护点】
一种基于搜索语句切词结果的搜索方法，其特征在于，该方法包括以下步骤：1)接收搜索框内输入的搜索语句；2)查找所述搜素语句中的所有停用词，并将停用词分割的各个语句作为单独的一个切分单位，如果没有找到停用词，则将整个搜索语句作为切分单元，将所有的切分单元进行存储；3)利用Trie树字典对所有切分单元进行正向切分和逆向切分，切分完成后，分别存储正向切分结果和逆向切分结果；4)判断所述正向切分结果和逆向切分结果是否相同，如果是，则将所述正向切分结果或逆向切分结果作为最终切分结果，跳转到步骤6)，否则跳转到步骤5)；5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；6)采用该最终切分结果作为搜索语句的关键词进行搜索。

【技术特征摘要】
1.一种基于搜索语句切词结果的搜索方法，其特征在于，该方法包括以下步骤：1)接收搜索框内输入的搜索语句；2)查找所述搜素语句中的所有停用词，并将停用词分割的各个语句作为单独的一个切分单位，如果没有找到停用词，则将整个搜索语句作为切分单元，将所有的切分单元进行存储；3)利用Trie树字典对所有切分单元进行正向切分和逆向切分，切分完成后，分别存储正向切分结果和逆向切分结果；4)判断所述正向切分结果和逆向切分结果是否相同，如果是，则将所述正向切分结果或逆向切分结果作为最终切分结果，跳转到步骤6)，否则跳转到步骤5)；5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果；6)采用该最终切分结果作为搜索语句的关键词进行搜索。2.根据权利要求1所述的方法，所述步骤1)之前，包括以下步骤：根据词库对GB2312字库中的每一个字符构建Trie树，形成Trie树字典。3.根据权利要求2所述的方法，每个Trie树节点包括以下成员：字符本身，当前节点是否构成词的标志，数组成员个数，词性值，指向数组成员的指针。4.根据权利要求2所述的方法，所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词；对于词库的词语，通过爬虫技术在百度百科中校验是否构成词语。5.根据权利要求3所述的方法，所述词性值包括：产品词，品牌词，地区词。6.根据权利要求1-5之一所述的方法，所述交叉歧义选择包括至少以下选择标准之一：长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。7.一种基于搜索语句切词结果的搜索系统，其特征在于，该系统包括：搜索语句接收模块，接收搜索...

【专利技术属性】
技术研发人员：王兵权，喻波，王志海，魏效征，牛立伟，曹石勇，
申请(专利权)人：北京明朝万达科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人