本发明专利技术是将词组索引技术应用到互联网搜索引擎中,把网页文件中的句子分解成词语,以每个关键词为中心词,在其前和后附加上若干别的词组成索引词组集,以词组为单位生成网页内容的索引文件;将用户提交的查询信息,利用分词程序提取出查询信息中的实词,将这些词进行所有合理和可能的组合,得到用于检索的词组集;由匹配程序将用于检索的词组集中的词组依次与索引文件中的词组进行精确匹配,获得搜索结果;由于词组在表达语意方面要强于单个的词,使得搜索的结果更精确的体现查询者的可能意图。
【技术实现步骤摘要】
本专利技术主要涉及互联网搜索引擎的底层关键技术一--文本索引方式的 创新以及为完善此技术而需要的前端处理的一些创新。本专利技术是将词组索引的 理论实际应用到互联网搜索引擎的索引构成中。由于词组索引可以大幅提高检 索内容与被检索内容之间语意的相关性,因而也可以说是为互联网搜索引擎提 供的一种智能化的检索方法。
技术介绍
互联网搜索引擎(以下简称搜索引擎)是搜索网页及网站的工具。目前的 搜索引擎的基本原理是通过网站或网页的收集程序,从互联网上自动搜集网页地 址及其文本,然后将搜集到的网页文本交给索引和检索系统,由计算机扫描文本 中每一个词,建立以词为单位的倒排文件,检索程序根据用户给出的检索词在文 本中出现的频率和概率,对包含这些检索词的文本进行排序,最后输出网页及网 站的排序结果。这种搜索方法存在以下几点严重的缺陷第一,无用的(或者对于检索词不相关或相关性低的)搜索结果过多。这是因为单一检索词在文本中出现的概率和频率并不完全代表检索词与文本内容的 相关性的值。第二,这种搜索引擎的查询方式实质上是基于关键词,对于输入完整的句子 进行査询的效果很不理想,这种按关键词出现的频率或者点击次数一类的网页排 序方法所排出的顺序,在输入句子查询的情况下,不能很好的体现检索句与文本 内容相关性的高低,见图l。第三、'现存的搜索引擎对査询的关键词匹配是模糊的,这样有利于得到更 多结果,但是却导致很多无用的结果充斥进来,甚至干扰到较好的结果的出现 位置,而且这些搜索引擎对问句没有做特殊处理,效果相对不好,见图2。第四、现存的搜索引擎中没有限制多个关键词同时出现的范围,所有的词 组生成工作不限于在当前句内,有可能出现将不同句子包含的关键词组合到一起的情况,例如我们搜索中国情人节的礼物这句话,使用目前流行的搜 索引擎得出的结果很可能是像这样…与西方情人节不同…还具有深厚的中国文化底蕴,…且看我们为你准备 的礼物攻略…,完全不能体现査询语句的整体意思,见图3。
技术实现思路
本专利技术的目的是在于将词组索引技术应用在互联网的搜索引擎中,可以避 免上述缺陷,使搜索引擎更具人性化,从而获得更具合理性的结果(即合乎用 户搜索意图的结果更靠前)。本专利技术,包括以下几个步骤步骤一:自动积累网页信息首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原 始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个 个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键 词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若 干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引 的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排 表的索引文件中;步骤二、处理用户的査询信息首先,.由搜索引擎的用户界面接受用户的査询信息;由分词程序将用户的 查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程 序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组 合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并 存放到内存中。步骤三、检索匹配并获得搜索结果首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件 中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到 结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入 结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相 关信息,从而获得搜索结果。在搜索引擎分析网页文本时,把网页文本切分为若干关键词,并把这些词 排列成为词语组合的形式,将其以词组-〉网页idl,网页id2,…这样的倒 排表的形式记录到磁盘或内存中的索引文件里。在搜索引擎分析网页文本时,所有的词组生成工作都限于在当前句内,不 同句子中包含的关键词不能组合到一起。在搜索引擎处理用户的查询信息时,利用问句模式匹配程序,将用户的査 询信息的问句转换成陈述句。将用于索引和检索的词组集,按词组长短排序,长的在前短的在后。在获得索引和检索的词组集的过程中,去除一些无意义的组合,所述的无 意义的组合是指虚词组合。本专利技术在建立索引文件的存储信息要素上与传统搜索引擎不同,传统搜索 引擎的索引文件类似于关键词(keyword)—〉网页idl,词频,网页id2…这样 的格式,而本专利技术把关键词这个要素扩展成词语组合的形式,以词组一 〉网页idl,网页id2,…这样的形式记录到磁盘或内存中的索引文件里。本专利技术在具体建立索引时,令词语组合的操作局限在一个句子内,以每个 关键词为中心词,在其前和后附加上若干别的词组成词组,并将索引按词组长 短进行排序,词组长的排在前面,短的在后,所有的词组生成工作都限于在当 前句内,不出现将不同句子包含的关键词组合到一起的情况。由于对搜索引擎 限制了多个关键词同时出现的范围,可以避免把本来无关的两句话,甚至两段 话的内容串到一起,从而产生太多无用信息。在用户提交查询信息时,本专利技术利用分词程序提取出査询中的实词(根据 词性标注),将这些词进行所有合理和可能的组合在所有的组合中去除不合 理的组合,由此得到一系列词组以用于检索,然后搜索引擎用这些词组,先精 确匹配其中较长的词组,即用查询中生成的较长的词组,去匹配网页文本经过 处理后生成的索引中相对应的词组,这样检索到的就是包含査询中关键词多的 网页文本。本专利技术在搜索引擎处理用户提交的查询信息时,先利用问句模式匹配程 序,通过一些简单的模式匹配将用户査询信息的问句转换成陈述句,再交给后 面的步骤处理,使得问句式的查询能够以接近原意的陈述句的形式来表述和处 理,使得在能够保证效果的前提下,査询更易于处理。由于本专利技术建立在词组索引基础上,所以本专利技术对查询内容并非精确匹 配,而是对査询句子进行了处理后生成多个词组才用于检索,虽然这样不一定 能得到和查询句子完全相同或者包含全部査询关键词的网页内容,但这样的好 处是生成多个词组可以扩大搜索语意的范围,获得更多的备选网页,同时又利 用生成的词组与索引进行精确匹配,反过来縮小了语意范围,获得更为精准的 语意匹配结果。相较与传统搜索引擎的关键词模糊匹配,由于关键词组合的词 组在表达语意方面明显要强于单个的关键词(自然语言中表达语意的完整程度 的单位从大到小依次是句子〉词组〉词语〉单字,目前使用机器直接处理句子并 不理想),使得搜索的结果更精确的体现查询者的可能意图。附图说明图1为习有搜索引擎査询中国的西部大学获得的结果网页; 图2为习有搜索引擎查询艺妓回忆录的导演是谁?获得的结果网页; 图3为习有搜索引擎查询中国情人节的礼物获得的结果网页; 图4为本专利技术自动积累网页信息的流程框图5为本专利技术査询艺妓回忆录的导演是谁?所获得的结果网页; 图6为本专利技术査询中国情人节的礼物所获得的结果网页;具体实施例方式本专利技术主要通过以下步骤实现 步骤一自动积累网页信息,见图4:首先,通过网页收集程序,如爬虫(crawler)或蜘蛛(spider)程序,自 动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同 时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统 计词频,将本文档来自技高网...
【技术保护点】
将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤:步骤一:自动积累网页信息:首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;步骤二、处理用户的查询信息:首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。步骤三、检索匹配并获得搜索结果:首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后次序遍历结果网页集,取出对应的网页链接以及其它相关信息,从而获得搜索结果。...
【技术特征摘要】
1、将词组索引技术应用在互联网搜索引擎中的方法,其特征在于包括以下几个步骤步骤一自动积累网页信息首先,通过网页收集程序,自动地通过超链分析,取得互联网上大量的原始网页文本;在取得这些文本的同时,通过分词程序将该网页文本分解成一个个独立的词语,用词频统计程序统计词频,将词频超过阈值的词标注为关键词;然后,利用词组生成程序,以每个关键词为中心,在其前和后分别附加若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于索引的词组集,并按词组长短排序,连同这些词组来源的信息,插入或更新到倒排表的索引文件中;步骤二、处理用户的查询信息首先,由搜索引擎的用户界面接受用户的查询信息;由分词程序将用户的查询信息分解成一个个独立的词语,并标识每个词的词性;再利用词组生成程序,把分词得到的词语以每个实词为中心,在其前和后附加上若干别的词,组合成包含词语数量不等、搭配不同的一系列词组,得到用于检索的词组集,并存放到内存中。步骤三、检索匹配并获得搜索结果首先,由匹配程序将用于检索的词组集中的词组依次与倒排表的索引文件中的词组进行精确匹配,得到匹配的项,将其对应的网页id检出,依次存放到结果网页集中;然后,对结果集中对应相同网页id的项进行合并,按照与存入结果网页集相同的先后...
【专利技术属性】
技术研发人员:邓剑波,戴云川,詹天荣,张潘,高潮,周波,张森,胡显如,
申请(专利权)人:新百丽鞋业深圳有限公司,邓亚丽,
类型:发明
国别省市:94[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。