主题网页数据抓取方法、装置、设备及存储介质制造方法及图纸

技术编号:30231922 阅读:26 留言:0更新日期:2021-09-29 10:06
本发明专利技术实施例公开了主题网页数据抓取方法、装置、设备及存储介质。该方法包括:根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;获取待抓取链接对应的网页内容;根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。提升搜索效率的技术效果。提升搜索效率的技术效果。

【技术实现步骤摘要】
主题网页数据抓取方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及主题网页数据抓取方法、装置、设备及存储介质。

技术介绍

[0002]互联网作为一个庞大的数据集合,网络信息资源数据呈指数增加,如何有效地根据用户的搜索查询将庞大的数据分为相关和不相关数据,并将相关的数据进行展示,是现在的研究方向。
[0003]当用户使用传统搜索引擎进行检索时,只能提供粗略的检索结果,且传统的基于网页内容评价的搜索策略往往会忽略网页间链接的相关性,而基于链接分析的搜索策略忽略了网页正文内容,容易造成“主题漂移”现象。
[0004]传统的搜索策略存在自动搜索不精准,抓取网页数据速度较慢的问题。

技术实现思路

[0005]本专利技术实施例提供了主题网页数据抓取方法、装置、设备及存储介质,可以优化现有的主题网页数据抓取方案。
[0006]第一方面,本专利技术实施例提供了一种主题网页数据抓取方法,包括:根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;获取待抓取链接对应的网页内容;根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
[0007]第二方面,本专利技术实施例提供了一种主题网页数据抓取装置,包括:待抓取链接选取模块,用于根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;网页内容获取模块,用于获取待抓取链接对应的网页内容;目标链接筛选模块,用于根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。
[0008]第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例提供的主题网页数据抓取方法。
[0009]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例提供的主题网页数据抓取方法。
[0010]本专利技术实施例中提供的主题网页数据抓取方案,首先根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接;然后根据待抓取链接获取对应的网页内容;最后根据内容相关度和链接相关度从待抓取链
接中筛选目标链接,并将目标链接作为搜索结果进行反馈。采用上述技术方案,通过将网页内容和网页链接结合,判断内容相关度和链接相关度,进而从待抓取链接中筛选出目标链接,可以达到提高搜索精准度,提升搜索效率的技术效果。
附图说明
[0011]图1为本专利技术实施例提供的一种主题网页数据抓取方法的流程示意图;
[0012]图2为本专利技术实施例提供的又一种主题网页数据抓取方法的流程示意图;
[0013]图3为本专利技术实施例提供的一种主题网页数据抓取装置的结构框图;
[0014]图4为本专利技术实施例提供的一种计算机设备的结构框图。
具体实施方式
[0015]下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0016]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0017]实施例一
[0018]图1为本专利技术实施例提供的一种主题网页数据抓取方法的流程示意图,该方法可以由主题网页数据抓取装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。如图1所示,该方法包括:
[0019]S110、根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从目标主题对应的待抓取链接队列中选取待抓取链接。
[0020]根据用户输入的搜索内容确定目标主题可以理解为,用户需要在搜索引擎上进行搜索时所输入的文字信息,并根据当前文字信息确定目标主题,可以将当前文字信息直接确定为目标主题,也可对当前文字信息进行语义分析后得到相应的目标主题。该目标主题可以为词语、句子或者一段文字等信息,在此不作限制。
[0021]当用户在搜索引擎的输入框中输入搜索内容时,搜索引擎会展示出与目标主题相关的网页界面。需要知道的是,在服务器中存储有大量关于数据信息的网页链接(Uniform Resource Locator,简称URL),且每一网页界面与网页链接一一对应。因此,在对与目标主题相关的网页界面展示之前,服务器需要判断将与目标主题相关的哪些网页界面进行展示。
[0022]进一步地,当使用搜索引擎进行搜索时,为便于对产生的大量关于数据信息的网页链接进行管理,可根据网页链接的状态进行分开管理。例如,若当前链接历史时间段内被成功抓取过,则存放入已抓取队列;若当前链接未被抓取过,则存放入待抓取队列;若当前链接历史时间段内被抓取过,但抓取失败,则存放入错误队列。
[0023]需要说明的是,判断上述链接抓取成功或者抓取失败的依据可以为,链接被抓取
后是否成功展示对应的网页界面,若成功展示对应的网页界面则认为当前链接被成功抓取;若在链接抓取时抓取超时,即在预设时间内没有展示对应的网页界面,或是返回结果为空,即对应的网页界面无内容,则认为当前链接抓取失败。
[0024]当用户进行目标主题的搜索时,基于预设搜索策略从待抓取链接队列中选取待抓取链接的方式可以为,当判断到网页链接对应的关键字或关键词的词条信息与目标主题相关时,均可作为待抓取链接。其中,待抓取链接可以为一个或者多个,在此不作限制。
[0025]示例性的,若目标主题为“天气预报”时,则预设搜索策略可以为待抓取链接中包含有与“天气”有关信息词条,则待抓取链接对应的网页界面可以为“A市一周天气预报”、“A市未来15天天气预报”以及“天气

百度百科”等。
[0026]S120、获取待抓取链接对应的网页内容。
[0027]通过对待抓取链接对应的网页界面进行解析,可获得对应的网页内容。其获得网页内容的方式可以为:采用超文本标记语言(Hyper Text Markup Language,简称HTML)的方式对当前网页中的重要信息链接以及文本进行提取。还可在服务器内部设置相关计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题网页数据抓取方法,其特征在于,包括:根据用户输入的搜索内容确定目标主题,并基于预设搜索策略从所述目标主题对应的待抓取链接队列中选取待抓取链接;获取待抓取链接对应的网页内容;根据内容相关度和链接相关度从待抓取链接中筛选目标链接,并将所述目标链接作为搜索结果进行反馈,其中,所述内容相关度根据所述网页内容和所述目标主题确定,所述链接相关度根据待抓取链接和所述目标主题确定。2.根据权利要求1所述的方法,其特征在于,所述获取待抓取链接对应的网页内容,包括:模拟客户端向对应的服务端发送待抓取链接对应的访问请求,并根据接收到的访问响应下载待抓取链接对应的网页文件;对所述网页文件进行解析,以提取所述网页文件中的网页内容,其中,所述网页内容中包括链接信息和文本信息。3.根据权利要求1所述的方法,其特征在于,所述根据内容相关度和链接相关度从待抓取链接中筛选目标链接,包括:对于所有待抓取链接,根据所述网页内容中的文本信息和所述目标主题确定内容相关度,若内容相关度不满足预设内容相关度要求,则将对应的待抓取链接存入已抓取队列;对于满足预设内容相关度要求的待抓取链接,根据所述网页内容中的链接信息和所述目标主题确定链接相关度,若链接相关度不满足预设链接相关度要求,则将对应的待抓取链接存入已抓取队列;将满足预设链接相关度要求的待抓取链接,按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接。4.根据权利要求3所述的方法,其特征在于,所述根据所述网页内容中的文本信息和所述目标主题确定内容相关度,包括:对所述网页内容中的文本信息进行预处理,得到机器语言模型数据,根据机器语言模型数据和所述目标主题确定内容相关度,其中,所述预处理包括文本分词、去除停用词和词干化中的至少一个;和/或,从所述网页内容中的文本信息中抽取关键词,计算所抽取的关键词与所述目标主题的语义相似度,针对所述抽取的关键词进行频率统计,根据频率统计结果和所述语义相似度确定内容相关度。5.根据权利要求3所述的方法,其特征在于,所述按照内容相关度和链接相关度进行排序,根据排序结果筛选出目标链接,包括:根据内容相关度和链接相关度确定各链接对应的综合相关度...

【专利技术属性】
技术研发人员:史延涛谢永恒火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1