一种文档索引的建立方法和装置制造方法及图纸

技术编号:11284110 阅读:129 留言:0更新日期:2015-04-10 18:22
本发明专利技术实施例提供了一种文档索引的建立方法和装置,所述方法包括:提取网页中的文本信息;判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;采用所述通讯特征信息和所述网页建立文档索引。本发明专利技术实施例将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供了一种文档索引的建立方法和装置,所述方法包括:提取网页中的文本信息;判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;采用所述通讯特征信息和所述网页建立文档索引。本专利技术实施例将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。【专利说明】一种文档索引的建立方法和装置
本专利技术涉及搜索
,特别是涉及一种文档索引的建立方法和一种文档索引的建立装置。
技术介绍
随着网络的迅速发展,网络上的信息急剧增加。用户为了在海量的信息中寻找所需的信息,通常使用搜索引擎进行搜索。 搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。 但是,如图1所示,用户在搜索常用电话号码(如2223256)时,搜索引擎仍按通用算法给出结果。由于标题和链接的权重较高,排在前面的结果往往在标题或链接中出现查询词,而这些结果有时并非用户所需,准确率低。用户在未搜索到所需的信息时,通常在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,操作麻烦,搜索引擎和本地系统的资源消耗大,带宽消耗大,搜索效率低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种文档索引的建立方法和相应的一种文档索引的建立装置。 依据本专利技术的一个方面,提供了一种文档索引的建立方法,包括: 提取网页中的文本信息; 判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息; 采用所述通讯特征信息和所述网页建立文档索引。 可选地,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域; 所述提取网页中的文本信息的步骤包括: 提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。 可选地,所述通讯特征信息包括指定位数的电话号码; 所述判断所述文本信息中是否具有通讯特征信息的步骤包括: 对所述文本信息进行分词处理,获得一个或多个文本分词; 当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词; 若是,则判断所述第一目标文本分词为指定位数的电话号码。 可选地,所述通讯特征信息还包括电话区号; 所述判断所述文本信息中是否具有通讯特征信息的步骤还包括: 判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。 可选地,所述判断所述目标文本分词对应的文本分词为区号信息的步骤包括: 判断所述目标文本分词包含的文本分词为电话区号; 或者, 判断在所述目标文本分词之前的文本分词为电话区号。 可选地,所述指定位数为7位或8位。 可选地,所述采用所述通讯特征信息和所述网页建立文档索引的步骤包括: 记录出现的所述通讯特征信息在所述网页中出现的位置; 将所述通讯特征信息及所述出现的位置记录在文档索引中。 根据本专利技术的另一方面,提供了一种文档索引的建立装置,包括: 第一提取模块,适于提取网页中的文本信息; 判断模块,适于判断所述文本信息中是否具有通讯特征信息;若是,则调用第二提取丰吴块; 第二提取模块,适于提取所述通讯特征信息; 建立模块,适于采用所述通讯特征信息和所述网页建立文档索引。 可选地,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域; 所述第一提取模块还适于: 提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。 可选地,所述通讯特征信息包括指定位数的电话号码;所述判断模块还适于: 对所述文本信息进行分词处理,获得一个或多个文本分词; 当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词; 若是,则判断所述第一目标文本分词为指定位数的电话号码。 可选地,所述通讯特征信息还包括电话区号;所述判断模块还适于: 判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。 可选地,所述判断模块还适于: 判断所述目标文本分词包含的文本分词为电话区号; 或者, 判断在所述目标文本分词之前的文本分词为电话区号。 13、如权利要求10或11或12所述的装置,其特征在于,所述指定位数为7位或8位。 可选地,所述建立模块还适于: 记录出现的所述通讯特征信息在所述网页中出现的位置; 将所述通讯特征信息及所述出现的位置记录在文档索引中。 本专利技术实施例在网页中的文本信息中具有通讯特征信息时,采用通讯特征信息和网页建立文档索引,通过标记通讯特征信息,以支持后续其他用户在搜索电话号码时,将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。 本专利技术实施例中将通讯特征信息及出现的位置记录在文档索引中,可以在搜索结果项中的网页摘要信息获取到电话号码及其归属的信息,减少用户点击搜索结果的频次,减少网页服务器、当前电子设备的资源以及带宽的消耗。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。 【专利附图】【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了一种搜索结果示例图; 图2示出了根据本专利技术一个实施例的一种文档索引的建立方法实施例的步骤流程图; 图3示出了根据本专利技术一个实施例的一种搜索结果示例图; 图4示出了根据本专利技术一个实施例的一种搜索的方法实施例1的步骤流程图; 图5示出了根据本专利技术一个实施例的一种搜索的方法实施例2方法实施例的步骤流程图; 图6不出了根据本专利技术一个实施例的一种搜索结果不例图; 图7示出了根据本专利技术一个实施例的一种文档索引的建立装置实施例的结构框图;以及 图8示出了根据本专利技术一个实施例的一种搜索的装置实施例的结构框图。 【具体实施方式】 下面将参照附图更详细地描述本公开的示本文档来自技高网...

【技术保护点】
一种文档索引的建立方法,包括:提取网页中的文本信息;判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;采用所述通讯特征信息和所述网页建立文档索引。

【技术特征摘要】

【专利技术属性】
技术研发人员:王翀陈进平
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1