一种房地产信息快速搜索方法技术

技术编号:10166494 阅读:155 留言:0更新日期:2014-07-02 01:22
本发明专利技术公开了一种房地产信息快速搜索方法。本发明专利技术首先将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。其次对页面信息进行处理,将网页从半结构化变成结构化信息后。然后对房地产信息进行中文分词处理并对中文分词后的信息进行索引。最后由用户检索模块对用户查询内容进行响应。本发明专利技术具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。

【技术实现步骤摘要】
一种房地产信息快速搜索方法
本专利技术属于搜索引擎
,特别涉及一种基于垂直搜索引擎的房地产信息快速搜索方法。
技术介绍
由于互联网的信息急剧增长,截至2013年10月,我国共有294万个网站,而网页数量则超过1000亿。在如此浩瀚的数据海洋中,人们发现如果获取自己想要的信息就有点心有余而力不足。而搜索引擎的出现,无疑给用户带来很大的便利,用户想要了解什么信息,只要通过搜索引擎,输入关键字,就能获得大量的自己所需要的信息。但是,通用搜索引擎对于数据量剧增的互联网来说,用户体验越来越差,理由有两方面:一方面是因为通用搜索引擎返回的结果很多,有时甚至超过1亿个结果,用户不可能将1亿个结果全都查看,只可能看排名靠前的几个结果;另一方面,现阶段的通用搜索引擎覆盖面广,搜索范围包含整个互联网的很大一部分信息,从而使得信息更新不及时。房价过高问题是民生的重中之重。最近几年来,房价越来越高,而且没有一点下降的趋势。正因如此,房地产领域近年来已经成为人们重点关注的热门话题,该领域关系到老百姓的切身利益,也是国家的重点关注对象。由于这些问题的出现,万维网中出现了大量的关于房地产方面的信息,其规模与日俱增。就目前万维网中存在海量信息的情形来说,用户要想从这些数据中找到自己想要的信息非常困难。为此,很有必要通过垂直搜索引擎技术建立一个房地产信息快速搜索系统。
技术实现思路
本专利技术目的在于:针对现有通用搜索引擎不足,提出了一种基于垂直搜索引擎技术的房地产信息搜索方法。本专利技术的具体步骤如下:第一步,将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统。第二步,对页面信息进行处理。通过聚焦网络爬虫抓取的网页保存在本地的文件系统后并不能直接使用,需要经过一定的处理操作。由于HTML是一种半结构化文件,因此需要进行预处理。所谓半结构化,就是类似HTML文件的标签及标签包含的内容,具有一定的结构性,但是其结构却不太明确,如<title>垂直搜索引擎的应用研究</title>,表示titile为“垂直搜索引擎的应用研究”的HTML网页。而结构化就是像关系型数据库那样,有字段名和字段值相对应的格式。将网页从半结构化变成结构化信息后,还需要进行噪音信息的处理,噪音信息即一些与主题内容无关的信息,如与主题无关的广告内容、链接、图片等信息。之后将有用的信息进行抽取,保存为结构化信息。第三步,对房地产信息进行中文分词处理。中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据需要进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作。这两个方面处理的中文分词必须采用同一个中文分词系统,本专利技术主要是利用HMM结合词性标注增加了对房地产命名识别的功能,从而为后续的用户搜索提供了更好的结果排序集。第四步,对中文分词后的信息进行索引。为了便于搜索,在文本信息进行中文分词操作后,需要建立索引。由于本专利技术使用Hibernate进行持久层操作,因此采用Hibernate-Search对中文分词后的信息进行索引操作。而Hibernate-Search底层采用优秀的全文检索工具Lucene实现的,在索引方面具有很强的处理能力。第五步,由用户检索模块对用户查询内容进行响应。查询需要用户在查询文本框中输入搜索关键字,然后系统对用户输入的字符串进行中文分词操作,将系统返回的结果进行排序操作。结果排序操作由Hibernate-Search实现,由于Lucene具有优秀的评分策略,因此能够返回令用户满意的搜索结果。用户界面的好坏直接影响到用户的使用体验,本专利技术采用富客户端应用框架Flex实现用户界面,用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。本专利技术共涉及到五个模块:聚焦网络爬虫模块、页面处理模块、中文分词模块、索引模块以及用户检索模块。本专利技术具有的有益效果是:利用该方法形成具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。具体实施方式图1是系统的总体架构。图2是加入链接聚类和隧道技术后的Shark-Search算法流程图。具体实施方式图1为本专利技术系统的总体架构图,系统分为:聚焦网络爬虫、页面处理、中文分词、信息索引和用户检索五个模块。1.对于聚焦网络爬虫的基本设计方法如下:(1)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,最后链接所对应的编号路径提取出来。(2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中。依此不断进行,直到满足条件的所有链接归入类中。(3)令L:所有待分类链接集合;Gi:属于类别i的链接集合;class_num:当前类别编号;flag:标记。a)初始化:设置L={u1,u2,…,un};G1,G2,…Gn=Φ;class_num=1;flag=1。b)当L集合非空并且flag=1时,设置flag=0。c)遍历L中的每个链接ui,如果有与ui路径相同的最大路径值大于1,则将ui放入相应的Gclass_num中,将class_num加1,设置flag=0。d)继续进行步骤b),直到flag=0或者L为空。(4)根据步骤(3)可得每个类别所包含的链接数为|Gi|,令cluster_url_num为总类别数,anchor_score(url)为锚文本的相似度评分,则cluster_url_num=Max(class_num),计算类别得分class_score的公式如下:(5)用class_score替换Shark-Search算法中的anchor_context_score(锚文本上下文的相似度评分),新的相邻链接评分neighborhood_score如下所示:neighborhood_score(url)=β*anchor_score(url)+(1-β)*class_score(url)由上述5个步骤可以得出改进后的Shark-Search的主题预测值potential_score(url)。对于聚焦爬虫来说,为了尽最大的努力防止抓取非主题相关网页,必须对网页的主题进行预测,以便提高抓取效率。然而,在网页的主题预测过程中不可能百分百地预测出其正确的主题。为了防止对网页进行主题预测时疏忽潜在的主题相关网页,本专利技术引进隧道技术。将加入链接聚类算法后的Shark-Search算法中的URL等候队列分成两个:主题相关队列relevant_Queue(主题相关的URL队列,其主题预测值高于某一阈值)和irrelevant_Queue(主题不相关的URL队列,其主题预测值低于某一阈值)。同时,设置两个阈值δ和μ:阈值δ(δ<1由用户自定义)用来决定URL进入哪一个队列,阈值μ(μ>1由用户自定义)用来决定irrelevant_Queue队列中的URL需要继续爬行的深度。由上述的5个步骤得出主题的预测值potential_score后,根据其值来确定等待抓取页面的URL应该放入本文档来自技高网...
一种房地产信息快速搜索方法

【技术保护点】
一种房地产信息快速搜索方法,其特征在于该方法包括以下步骤:第一步,将链接聚类与隧道技术应用到Shark‑Search算法中实现聚焦网络爬虫,通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统;所述的聚焦网络爬虫其实现方法如下:(1)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,最后链接所对应的编号路径提取出来;(2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中;依此不断进行,直到满足条件的所有链接归入类中;(3)令L为所有待分类链接集合;Gi为属于类别i的链接集合;class_num为当前类别编号;flag为标记,执行以下操作:a)初始化:设置L={u1,u2,…,un};G1,G2,…Gn=Φ;class_num=1;flag=1;b)当L集合非空并且flag=1时,设置flag=0;c)遍历L中的每个链接ui,如果有与ui路径相同的最大路径值大于1,则将ui放入相应的Gclass_num中,将class_num加1,设置flag=0;d)继续进行步骤b),直到flag=0或者L为空;(4)根据(3)可得每个类别所包含的链接数为|Gi|,令cluster_url_num为总类别数,anchor_score(url)为锚文本的相似度评分,则cluster_url_num=Max(class_num),计算类别得分class_score的公式如下:class_score=Σcluster_url_numanchor_score(url)cluster_url_num]]>(5)用class_score替换Shark‑Search算法中的anchor_context_score,新的相邻链接评分neighborhood_score如下所示:neighborhood_score(url)=β*anchor_score(url)+(1‑β)*class_score(url)由(1)‑(5)得出改进后的Shark‑Search的主题预测值potential_score(url);对于聚焦爬虫来说,为了尽最大的努力防止抓取非主题相关网页,必须对网页的主题进行预测,以便提高抓取效率;然而,在网页的主题预测过程中不可能百分百地预测出其正确的主题;为了防止对网页进行主题预测时疏忽潜在的主题相关网页,引进隧道技术,具体是:将加入链接聚类算法后的Shark‑Search算法中的URL等候队列分成两个:主题相关队列relevant_Queue和irrelevant_Queue;同时,设置两个阈值δ和μ:阈值δ用来决定URL进入哪一个队列,阈值μ用来决定irrelevant_Queue队列中的URL需要继续爬行的深度;得出主题的预测值potential_score后,根据其值来确定等待抓取页面的URL应该放入哪个URL等候队列中:当一个页面的主题预测值大于等于δ则进入relevant_Queue队列,否则,进入irrelevant_Queue队列;对于在relevant_Queue队列中的URL,可以直接抓取对应的网页;而在irrelevant_Queue队列中的URL,由于预测值小于δ,被定为主题不相关URL,所以需要继续爬行其子孙节点;当爬行深度D大于等于μ时,则表示已经连续爬行了μ个非主题相关的网页,停止继续沿该路径进行爬行,反之继续搜索;第二步,对页面信息进行处理,具体是:将网页从半结构化变成结构化信息,再进行噪音信息的处理,之后将有用的信息进行抽取,保存为结构化信息;第三步,对房地产信息进行中文分词处理;中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作;这两个方面处理的中文分词采用同一个中文分词系统,利用HMM结合词性标注增加对房地产命名识别的功能,从而为后续的用户搜索提供了更好的结果排序集;其中利用HMM结合词性标注对房地产命名识别具体是:主要识别两个方面的词汇:第一,对于从数据库中获取的文本数据;第二,对于用户输入的关键词;识别过程是:给定一个句子序列W=w1w2w3…wn,找到一个最佳的类型序列C=c1c2c3…cn,使得P(C|W)的值最大;由贝叶斯公式可知P(C|W)=P(C,W)/P(W),对于一个给定的句子来说,P(W)是固定不变的,因此只要使P(C,W)最大就能得出P(C|W)的最大值;将房地产命名的识别设置成4种状态:开始状态、中间状态、结束状态和其他状态,即状态集合S={s1,s2,s3,s4}中的4个元素分别对应前面4种状态;在计算HMM五元组中的...

【技术特征摘要】
1.一种房地产信息快速搜索方法,其特征在于该方法包括以下步骤:第一步,将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫,通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统;所述的聚焦网络爬虫其实现方法如下:(1)将网页中的信息转化成文档对象模型树,然后再将树中的节点按照层次遍历进行编号,将链接所对应的编号路径提取出来;(2)把网页中的链接按照提取出来的顺序放入队列中,找出满足任意两个节点间的路径大于等于2的最大匹配字串,将该字串中的所有元素从队列中取出,归并入相应的类中;依此不断进行,直到满足条件的所有链接归入类中;(3)令L为所有待分类链接集合;Gi为属于类别i的链接集合;class_num为当前类别编号;flag为标记;执行以下操作:a)初始化:设置L={u1,u2,…,un};G1,G2,…Gn=Φ;class_num=1;flag=1;b)当L集合非空并且flag=1时,设置flag=0;c)遍历L中的每个链接ui,如果有与ui路径相同的最大路径值大于1,则将ui放入相应的Gclass_num中,将class_num加1,设置flag=0;d)继续进行步骤b),直到flag=0或者L为空;(4)根据(3)可得每个类别所包含的链接数为|Gi|,令cluster_url_num为总类别数,anchor_score(url)为锚文本的相似度评分,则cluster_url_num=Max(class_num),计算类别得分class_score的公式如下:(5)用class_score替换Shark-Search算法中的anchor_context_score,新的相邻链接评分neighborhood_score如下所示:neighborhood_score(url)=β*anchor_score(url)+(1-β)*class_score(url),0≤β≤1;由(1)-(5)得出改进后的Shark-Search的主题预测值potential_score(url);对于聚焦爬虫来说,为了尽最大的努力防止抓取非主题相关网页,必须对网页的主题进行预测,以便提高抓取效率;然而,在网页的主题预测过程中不可能百分百地预测出其正确的主题;为了防止对网页进行主题预测时疏忽潜在的主题相关网页,引进隧道技术,具体是:将加入链接聚类算法后的Shark-Search算法中的URL等候队列分成两个:主题相关队列relevant_Queue和主题不相关队列irrelevant_Queue;同时,设置两个阈值δ和μ:阈值δ用来决定URL进入哪一个队列,阈值μ用来决定irrelevant_Queue队列中的URL需要继续爬行的深度,δ<1,μ>1;得出主题的预测值potential_score后,根据其值来确定等待抓取页面的URL应该放入哪个URL等候队列中:当一个页面的主题预测值大于等于δ则进入relevant_Queue队列,否则,进入irrelevant_Queue队列;对于在relevant_Queue队列中的URL,可以直接抓取对应的网页;而在irrelevant_Queue队列中的URL,由于预测值小于δ,被定为主题不相关URL,所以需要继续爬行其子孙节点;当爬行深度D大于等于μ时,则表示已经连续爬行了μ个非主题相关的网页,停止继续沿该路径进行爬行,反之继续搜索;第二步,对页面信息进行处理,具体是:将网页从半结构化变成结构化信息,再进行噪音信息的处理,之后将有用的信息进行抽取,保存为结构化信息;第三步,对房地产信息进行中文分词处理;中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作;这两个方面处理的中文分词采用同一个中文分词系统,利用...

【专利技术属性】
技术研发人员:袁友伟李勇俞东进鄢腊梅杨威
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1