web页面信息搜索方法技术

技术编号:14402076 阅读:90 留言:0更新日期:2017-01-11 14:31
本发明专利技术提供了一种web页面信息搜索方法,该方法包括:采集web页面,将采集的数据按照索引所需的数据格式整理;根据数据建立索引,将搜索引擎发布成http服务;对web页面内容的数据业务部分进行数据分析;从索引中执行数据搜索,然后自动更新索引;接收用户对搜索结果的修改。本发明专利技术提出了一种web页面信息搜索方法,克服了字符串配对式搜索的瓶颈,提高了搜索结果的精确性,并实现了智能高效搜索,能够适应各类业务的需求。

【技术实现步骤摘要】

本专利技术涉及数据检索,特别涉及一种web页面信息搜索方法
技术介绍
随着用户对互联网领域的数据获取要求越来越精准,专业搜索引擎为了实现这些需求而产生,这是搜索引擎按照数据专业类型的专有领域信息整合。比如商品搜索、金融搜索、视频搜索等等。与综合搜索引擎相比,专业搜索引擎搜索规则更丰富,更精确,更专业。但从现有的垂直搜索技术及应用产品来看,仍然存在一些技术上的不完善之处,包括:现有电商搜索引擎排序一般按照检索词所在文档中的综合打分进行排序,如果需要按照访问量进行排序,则对全部搜索结果集进行二次排序,但却打乱第一次排序的结果,给用户的体验造成很大的影响;此外现有的搜索引擎通常采用搜索词文字匹配的方式进行,只能做到简单的字符配对,而并不能真正理解某一个搜索对象本身的含义,只能通过人的主观感知才能提炼,再者随着网站技术日新月异,需要为电商搜索引擎重新编写正则表达式,显然难以适应全网海量的数据实时处理。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种web页面信息搜索方法,包括:采集web页面,将采集的数据按照索引所需的数据格式整理;根据数据建立索引,将搜索引擎发布成http服务;对web页面内容的数据业务部分进行数据分析;从索引中执行数据搜索,然后自动更新索引;接收用户对搜索结果的修改。优选地,所述从索引中执行数据搜索,进一步包括分级排序,具体为:根据搜索业务的实际需求对搜索逻辑根据优先级以矩阵的形式进行分级处理;排序结果按级别进行划分,每个排序逻辑层对应一个排序结果集合,然后根据统一等级的排序逻辑进行级内排序,将实时的访问量数据作为排序的因素进行级内二次排序,从各个有序的排序结果层中找到合适的排序结果子集进行整合后返回给用户;所述从索引中执行数据搜索,还包括搜索词扩展,具体包括:首先生成web页面对象,其对应搜索引擎web页面集中的一条记录,该对象包含三部分:数据ID,代表该条数据的引用地址;数据值,指具体的数据;排序属性列表,代表分级的排序逻辑对应的排序属性值多维列表,并降维得到一维排序属性列表,这些排序属性值根据等级的优先级由高到低存储在一个数组中,在两个排序属性列表比较时根据优先级进行对比;该web页面对象数组是一个公共的数据池,通过数据ID对里面的各个数据进行引用,并维护一个以web页面对象中的数据值为键的web页面对象散列表;然后生成搜索词对象,包括以下元素:搜索词、数据ID对象列表及数据ID对象候选列表;其中搜索词是由公共数据池的里面web页面对象中的数据值属性划分得到,每个数据值根据长度递增的方式划分得到多个搜索词;一个数据ID对象是由web页面ID及排序数据值列表两个元素组成的,数据ID对象列表是指一个搜索词对应的有效的数据ID对象列表;数据ID对象候选列表用于补充数据ID对象列表;搜索词扩展内容的生成过程是在遍历web页面的过程中进行的,将web页面按照搜索词长度递增的规则逐个划分web页面,在划分的过程中对划分的搜索词进行转换形成搜索词列表,将各个搜索词作为键存放到散列表中,具体描述如下:(1).将web页面根据内存结构要求存储在内存,遍历搜索web页面列表;(2).转换并划分每条web页面形成搜索词列表;(3).根据各个搜索词的排序属性值列表决定将对应的web页面ID插入数据ID列表还是数据ID候选列表中;(4).生成搜索web页面的搜索词对象散列表,该散列表包含填充的数据ID列表及数据ID候选列表;其中每条数据的划分流程是核心部分,具体描述如下:将web页面对象的数据值进行转换成多种类型的数据值集合;对数据值集合每条数据值根据搜索词长度递增的方式进行划分;根据划分的搜索词列表作为键搜索搜索词散列表,查找成功,则转上文步骤3;根据内存数据结构建立搜索词对象加入散列表中。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种web页面信息搜索方法,克服了字符串配对式搜索的瓶颈,提高了搜索结果的精确性,并实现了智能高效搜索,能够适应各类电商业务的需求。附图说明图1是根据本专利技术实施例的web页面信息搜索方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种web页面信息搜索方法。图1是根据本专利技术实施例的web页面信息搜索方法流程图。本专利技术实现了一种专业领域搜索引擎体系结构,利用分级排序,通过二维空间分值计算建立加权属性进行深度智能搜索;建立多维约束数据提取方式实现页面的内容智能提取,并进行搜索词扩展内容生成及更新,特别对超长文本的搜索词,基于散列搜索实现搜索词的突出显示。专业领域搜索引擎体系结构包括:采集模块,负责数据的采集接收,并保存到特定的文件夹下,提供web页面。数据存储模块,负责将接受的数据按照索引所需的数据格式整理。具有自我恢复、回滚功能。回滚操作不能撤销,一旦回滚到特定日期,当下次更新时,此日期之前的数据将保留,而此日期之后的数据将删除。数据索引模块,负责根据数据建立索引,同时索引具有备份机制。搜索调用接口模块,将搜索引擎发布成http服务。日志及监控模块,监视以上各个系统的运行状态。数据分析模块,对web页面内容的数据业务部分进行数据分析。用户修改模块,从外部修改搜索结果,包括增删改结果及对排序进行修改。数据搜索模块,负责数据搜索,并自动从索引系统中更新最新数据。数据分析模块针对特定网站的显著特征,判别并找出所有web页面;然后,按照web页面上网址中搜索概念的语义,通过web页面及其每一网址指向的页面所分别包含的本体集间的大小关系的比较,找出该web页面的URL;最后,将URL上的链接文本映射到该URL指向的web页面所包含的本体上,归入该本体的属性集。为避免隐藏属性发现过程中的不必要的重复,设置搜索B-树的剪枝机制,搜索B-树的每个节点代表一个web页面,父节点指向叶节点的边代表相应web页面间的下位关系,边上的值即为相应的隐藏属性,从根节点到叶节点路径上的所有隐藏属性构成该叶节点的隐藏属性集。首先以深度优先方式,根据下位网址语义生成下层叶节点;接着,对于新生成的每个叶节点,判断其隐藏属性集是否和已有的某个叶节点相同,若有则丢弃该叶节点,以完成属性的爬取。爬取过程结束时,获得无重复的所有对象页面,所有属性信息供页面信息提取过程提取。本专利技术数据分析模块将电商网站上的web页面分成三种:结果页面,对象页面和其他页面。一个搜索对应的是一系列结果页面,对象页面包含一个单独本体信息,包括商品。不属于以上两种页面的页面分类为其他页面。每个本体都用一组属性集合进行描述,形成了搜索的条件。每个本体有且仅有一个对象页面。用无向图来描述电商网站,P表示顶点集,每个顶点代表一个页面,L是边集,每一条边代表从一个页面到另一个页面的URL。R表示所有结果页面的集合,O表示所有对象页面的集合,Q表示所有搜索的集合。搜索、结果页面和对象页本文档来自技高网...
web页面信息搜索方法

【技术保护点】
一种web页面信息搜索方法,其特征在于,包括:采集web页面,将采集的数据按照索引所需的数据格式整理;根据数据建立索引,将搜索引擎发布成http服务;对web页面内容的数据业务部分进行数据分析;从索引中执行数据搜索,然后自动更新索引;接收用户对搜索结果的修改。

【技术特征摘要】
1.一种web页面信息搜索方法,其特征在于,包括:采集web页面,将采集的数据按照索引所需的数据格式整理;根据数据建立索引,将搜索引擎发布成http服务;对web页面内容的数据业务部分进行数据分析;从索引中执行数据搜索,然后自动更新索引;接收用户对搜索结果的修改。2.根据权利要求1所述的方法,其特征在于,所述从索引中执行数据搜索,进一步包括分级排序,具体为:根据搜索业务的实际需求对搜索逻辑根据优先级以矩阵的形式进行分级处理;排序结果按级别进行划分,每个排序逻辑层对应一个排序结果集合,然后根据统一等级的排序逻辑进行级内排序,将实时的访问量数据作为排序的因素进行级内二次排序,从各个有序的排序结果层中找到合适的排序结果子集进行整合后返回给用户;所述从索引中执行数据搜索,还包括搜索词扩展,具体包括:首先生成web页面对象,其对应搜索引擎web页面集中的一条记录,该对象包含三部分:数据ID,代表该条数据的引用地址;数据值,指具体的数据;排序属性列表,代表分级的排序逻辑对应的排序属性值多维列表,并降维得到一维排序属性列表,这些排序属性值根据等级的优先级由高到低存储在一个数组中,在两个排序属性列表比较时根据优先级进行对比;该web页面对象数组是一个公共的数据池,通过数据ID对里面的各个数据进行引用,并维护一个以web页面对象中的数据值为键的web页面对象散列表;然后生...

【专利技术属性】
技术研发人员:赖真霖文君
申请(专利权)人:成都四象联创科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1