将词组索引技术应用在互联网搜索引擎中的方法技术

技术编号：2829423 阅读：339 留言：0更新日期：2012-04-11 18:40

本发明专利技术是将词组索引技术应用到互联网搜索引擎中，把网页文件中的句子分解成词语，以每个关键词为中心词，在其前和后附加上若干别的词组成索引词组集，以词组为单位生成网页内容的索引文件；将用户提交的查询信息，利用分词程序提取出查询信息中的实词，将这些词进行所有合理和可能的组合，得到用于检索的词组集；由匹配程序将用于检索的词组集中的词组依次与索引文件中的词组进行精确匹配，获得搜索结果；由于词组在表达语意方面要强于单个的词，使得搜索的结果更精确的体现查询者的可能意图。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术主要涉及互联网搜索引擎的底层关键技术一--文本索引方式的创新以及为完善此技术而需要的前端处理的一些创新。本专利技术是将词组索引的理论实际应用到互联网搜索引擎的索引构成中。由于词组索引可以大幅提高检索内容与被检索内容之间语意的相关性，因而也可以说是为互联网搜索引擎提供的一种智能化的检索方法。
技术介绍
互联网搜索引擎(以下简称搜索引擎)是搜索网页及网站的工具。目前的搜索引擎的基本原理是通过网站或网页的收集程序,从互联网上自动搜集网页地址及其文本，然后将搜集到的网页文本交给索引和检索系统，由计算机扫描文本中每一个词，建立以词为单位的倒排文件，检索程序根据用户给出的检索词在文本中出现的频率和概率，对包含这些检索词的文本进行排序，最后输出网页及网站的排序结果。这种搜索方法存在以下几点严重的缺陷第一，无用的(或者对于检索词不相关或相关性低的)搜索结果过多。这是因为单一检索词在文本中出现的概率和频率并不完全代表检索词与文本内容的相关性的值。第二，这种搜索引擎的查询方式实质上是基于关键词，对于输入完整的句子进行査询的效果很不理想，这种按关键词出现的频率或者点击次数一类的网页排序方法所排出的顺序，在输入句子查询的情况下，不能很好的体现检索句与文本内容相关性的高低，见图l。第三、'现存的搜索引擎对査询的关键词匹配是模糊的，这样有利于得到更多结果，但是却导致很多无用的结果充斥进来，甚至干扰到较好的结果的出现位置，而且这些搜索引擎对问句没有做特殊处理，效果相对不好，见图2。第四、现存的搜索引擎中没有限制多个关键词同时出现的范围，所有的词...

【技术保护点】
将词组索引技术应用在互联网搜索引擎中的方法，其特征在于包括以下几个步骤：步骤一：自动积累网页信息：首先，通过网页收集程序，自动地通过超链分析，取得互联网上大量的原始网页文本；在取得这些文本的同时，通过分词程序将该网页文本分解成一个个独立的词语，用词频统计程序统计词频，将词频超过阈值的词标注为关键词；然后，利用词组生成程序，以每个关键词为中心，在其前和后分别附加若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，得到用于索引的词组集，并按词组长短排序，连同这些词组来源的信息，插入或更新到倒排表的索引文件中；步骤二、处理用户的查询信息：首先，由搜索引擎的用户界面接受用户的查询信息；由分词程序将用户的查询信息分解成一个个独立的词语，并标识每个词的词性；再利用词组生成程序，把分词得到的词语以每个实词为中心，在其前和后附加上若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，得到用于检索的词组集，并存放到内存中。步骤三、检索匹配并获得搜索结果：首先，由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配，得到匹配的项，将其对应的网页ｉｄ检出，依次存放到结果网页...

【技术特征摘要】
1、将词组索引技术应用在互联网搜索引擎中的方法，其特征在于包括以下几个步骤步骤一自动积累网页信息首先，通过网页收集程序，自动地通过超链分析，取得互联网上大量的原始网页文本；在取得这些文本的同时，通过分词程序将该网页文本分解成一个个独立的词语，用词频统计程序统计词频，将词频超过阈值的词标注为关键词；然后，利用词组生成程序，以每个关键词为中心，在其前和后分别附加若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，得到用于索引的词组集，并按词组长短排序，连同这些词组来源的信息，插入或更新到倒排表的索引文件中；步骤二、处理用户的查询信息首先，由搜索引擎的用户界面接受用户的查询信息；由分词程序将用户的查询信息分解成一个个独立的词语，并标识每个词的词性；再利用词组生成程序，把分词得到的词语以每个实词为中心，在其前和后附加上若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，得到用于检索的词组集，并存放到内存中。步骤三、检索匹配并获得搜索结果首先，由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配，得到匹配的项，将其对应的网页id检出，依次存放到结果网页集中；然后，对结果集中对应相同网页id的项进行合并，按照与存入结果网页集相同的先后...

【专利技术属性】
技术研发人员：邓剑波，戴云川，詹天荣，张潘，高潮，周波，张森，胡显如，
申请(专利权)人：新百丽鞋业深圳有限公司，邓亚丽，
类型：发明
国别省市：94[]

全部详细技术资料下载我是这个专利的主人