本发明专利技术公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统,所述方法主要包括:从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面;对下载的Web页面进行解析,提取URL及其锚文本;对提取出的URL及其锚文本进行筛选;采用TF-IDF与LSI相结合的算法来计算URL的主题相关度,并将符合条件的URL放入优先级队列中;所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统,本发明专利技术提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。
【技术实现步骤摘要】
本专利技术涉及一种爬虫搜索方法及其系统,尤其涉及一种聚焦网络爬虫搜索方法及其系统。
技术介绍
当前,网络越来越成为人们获取信息的主要渠道,传统搜索引擎已经不能完全满足人们的需求。随着人工智能技术的进一步成熟和信息服务的多样化,搜索引擎技术正向智能化、个性化、领域化方向发展。垂直搜索引擎是面向特定领域的专业搜索引擎,旨在缩小搜索的总范围,从而获得更高的搜索精度,并提高搜索引擎对于网络资源的跟踪能力。作为垂直搜索引擎的核心部分,聚焦网络爬虫担任了从^ternet收集和更新信息的重要任务。与传统的广度优先的爬虫相比,主题爬虫最重要的特点就是采用了不同的优先级计算方法,有选择地爬行符合特定主题的网页。现有的大部分主题爬虫是采用基于向量空间模型VSM(Vector Space Model)和词步页-逆文档步页率 TF-IDF (Term Frequency-Inverse Document Frequency)或其改进算法来指导爬行。由于TF-IDF本质上是一种严格的字符串匹配算法,无法处理字符意义层面上的近似,因此很多文献都通过查询扩展来增加主题包含的关键词范围来解决“隧道贯穿” 的问题。潜在语义索引LSKLatent Semantic Indexing)算法利用线性代数中的奇异值分解来处理潜在语义的问题,但目前LSI在垂直爬行算法中被研究较少。我们认为网络上的超链接锚文本与主题网页正文文本之间存在某种潜在语义关系,因此LSI算法在指导主题爬虫爬行方面应该具有更优越的性能。因此,本专利技术结合TF-IDF和LSI两者的优势,将 TF-IDF+LSI算法应用于主题相关度计算提出了基于锚文本的聚焦网络爬虫搜索方法及其系统。
技术实现思路
本专利技术提出了基于锚文本的聚焦网络爬虫搜索方法及其系统,以解决现有技术中主题相关度算法存在的以下技术问题现有的广度优先算法指导的爬虫其积累主题相关度虽然能稳定增长,但增长速度缓慢;TD-IDF指导的爬虫虽然在爬行启动阶段有很高的性能,但在爬行了大约20个页面后其积累的主题相关度不再增长;LSI指导的爬虫虽然具有穿越隧道的能力,但是在爬行开始时速度较慢。为解决上述技术问题,本专利技术所述的基于锚文本的聚焦网络爬虫搜索方法包括以下步骤(1. 1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从hternet下载Web页面;(1. 2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;(1. 3)使用URL筛选器对提取出的URL及其锚文本进行筛选;(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;(1. 5)重复执行步骤(1. 1)到(1. 4),直到达到停止条件为止。本专利技术所述的基于锚文本的聚焦网络爬虫系统包括URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器,其中,网络爬虫下载器与URL优先级队列相连,用于从URL优先级队列中获取URL,依据 URL从hternet下载Web页面,并将下载的Web页面存入Web页面库中;URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本;URL筛选器用于对提取出的URL及其锚文本进行筛选;主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中。本专利技术的有益效果是本专利技术所构建的聚焦网络爬虫搜索方法及其系统与一般的爬虫搜索方法及其系统相比,能更好地满足特定用户对于特定领域资源的准确、全面、高效的信息搜集需求。附图说明图1是本专利技术所述的搜索方法流程图。图2是本专利技术中的主题相关度计算方法的流程图。图3是本专利技术所述的系统框架示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。图1为本专利技术所述的基于锚文本的聚焦网络爬虫搜索方法流程图。该方法包括以下步骤步骤1 网络爬虫下载器从URL优先级队列中获取URL,并依据URL从hternet下载得到Web页面,并将其放入Web页面库中,其中,Web页面库用于存放下载的Web页面URL优先级队列分为URL主要优先级队列和URL备用优先级队列;当系统启动时, 主要优先级队列中存放的是用户指定的种子URL,备用优先级队列为空;下载器从URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出主要优先级队列中的 URL,当主要优先级队列为空时则取出备用优先级队列中的URL。步骤2 使用URL解析器对下载的Web页面进行解析,提取URL及其锚文本;步骤3 若提取出的URL已经被访问过,则转向步骤1 ;若提取出的URL未被访问过,则继续步骤4;步骤4 构建领域知识库,URL筛选器根据该领域知识库判断URL及其锚文本是否与主题相关。领域知识库包括页面导航词汇、专有词汇和禁用词汇。URL筛选器的工作过程如下(1)如果URL中包含页面导航词汇,如“indeX”、“list”、“l0ad”等,说明此页面为导航页面或登录页面,页面不具有主题相关性;(2)如果锚文本内含有规定的禁用词汇,如包含反动意义的词汇和淫秽词汇等,则说明此页面为非法页面,不具有主题相关性;(3)如果锚文本中含有知识库中的专有词汇(由用户根据需下载的网页内容所涉及的领域确定),则页面具有主题相关性。通过URL筛选器将与主题相关的URL及其锚文本提交给主题相关性判断器;与主题无关的则舍弃,返回步骤3。步骤5 在主题相关性判断器中分别利用TF-IDF算法和LSI算法计算URL的主题相关度,并将符合条件的URL分别放入相应的优先级队列中。如图2所示,在主题相关性判断器中,主题相关度计算方法流程为首先,对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算。在向量空间模型中,锚文本和关键词集合被表示为向量,向量由一系列特征权重组成,特征空间维数对应所有锚文本和关键词中不同术语的数量。锚文本向量表示为dj = (W1, J,w2, J,-,wmjJ)(1)关键词向量表示为q = (W1, q, w2jq, -,wn,q)(2)式(1)“2)中,j表示锚文本的个数,m表示锚文本中术语的个数,η表示关键词中术语的个数,Wnbj表示锚文本…的第m个术语的权重,^tl表示关键词q的第η个术语的权重。本专利技术中采用TF-IDF算法来进行主题相关度计算,锚文本…的主题相关度计算公式如下mNWj =Xitf1* log(—))(3 )!=1dJ1式(3)中,tfi为术语(项)频率,是术语i在某一文档中出现的次数;N为文档集大小,是文档集包含的文档的数目;Clfi为术语的文档频率,是包含了术语i的文档的总个数。其次,对采用TF-IDF公式(3)计算出的主题相关度Wj与阈值1进行比较。若计算出的主题相关度大于预先设定的阈值1,则将对应的URL根据主题相关度的大小放入主要优先级队列中的相应位置;否则,对所述与主题相关的URL所对应的锚文本进行LSI主题相关度的计算。LSI主题相关度计算的步骤如本文档来自技高网...
【技术保护点】
1.一种基于锚文本的聚焦网络爬虫搜索方法,其特征在于,该方法包括以下步骤:(1.1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载Web页面;(1.2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选;(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;(1.5)重复执行步骤(1.1)到(1.4),直到达到停止条件为止。
【技术特征摘要】
【专利技术属性】
技术研发人员:郝红卫,台宪青,王艳军,殷绪成,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。