一种基于目标的互联网信息采集调度方法技术

技术编号:11196823 阅读:68 留言:0更新日期:2015-03-26 03:32
本发明专利技术公开了一种基于目标的互联网信息采集调度方法,其特征在于,具有全局监视线程;具有全局采集规则总队列;具有全局优先队列;每个采集目标建立独立线程池和采集队列;每个采集目标具有独立采集策略;优先队列中规则将优先于总规则队列采集;当信息规则修改时放入优先队列采集一次;分属不同专题的信息规则在队列中位置均衡。本方法可以灵活适应互联网信息的复杂性,为每一个互联网目标的采集制定策略,精确可调的控制系统资源和网络资源的使用,提高采集速度,平衡系统各部分获取信息的速度,分隔各个采集目标的访问,不使一个采集目标的采集状态影响其它目标的采集,从而改善用户体验,提高采集系统性能。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,其特征在于,具有全局监视线程;具有全局采集规则总队列;具有全局优先队列;每个采集目标建立独立线程池和采集队列;每个采集目标具有独立采集策略;优先队列中规则将优先于总规则队列采集;当信息规则修改时放入优先队列采集一次;分属不同专题的信息规则在队列中位置均衡。本方法可以灵活适应互联网信息的复杂性,为每一个互联网目标的采集制定策略,精确可调的控制系统资源和网络资源的使用,提高采集速度,平衡系统各部分获取信息的速度,分隔各个采集目标的访问,不使一个采集目标的采集状态影响其它目标的采集,从而改善用户体验,提高采集系统性能。【专利说明】
本专利技术属于互联网信息处理领域,具体地说是一种依据目标策略进行差别化采集调度的方法。
技术介绍
随着社会信息化的迅猛发展,互联网已经成为人们表达观点、发表评论的重要场所。新闻网、博客、微博、贴吧、论坛以及社交媒体等是互联网信息的聚合点。网络信息采集系统作为互联网信息的深入分析的起点。基于目标的互联网信息采集调度方法,一方面可以应用到舆情分析系统中,用于政府机关如政府、公安、检察等单位快速从网络上获取关于本单位的相关信息。另一方面可以应用到情报分析系统中,用于从网络上快速获取有价值的线索信息。 鉴于互联网信息的复杂性,互联网信息聚合目标具有各种各样不同的特性,有的还具有防采集特性,采集系统所使用的硬件资源和网络资源也有所不同,这就需要针对不同目标确定不同采集策略,根据系统性能进行调度优化,兼顾速度及系统资源平衡性,采集系统的调度方式要灵活、可调,具有目标隔离特性,一个目标的访问速度、采集成功与否,不能影响对其它目标的采集。
技术实现思路
鉴于以上所述的需求,本专利技术要解决的技术问题是提供,该方法可以灵活适应互联网信息的复杂性,为每一个互联网目标的采集制定策略,精确可调的控制系统资源和网络资源的使用,提高采集速度,改善用户体验,平衡系统各部分(专题)获取信息的速度,分隔各个采集目标的访问,不使一个采集目标的采集状态影响其它目标的采集。 本专利技术所要解决的技术问题是通过以下的技术方案来实现的,本专利技术是,其特点是,具有全局监视线程;具有全局采集规则总队列;具有全局优先队列;每个采集目标建立独立线程池和采集队列;每个采集目标具有独立采集策略;优先队列中规则将优先于总规则队列采集;当信息规则修改时放入优先队列采集一次;分属不同专题的信息规则在队列中位置均衡;其具体步骤如下:(1)创建调度监视线程;其操作步骤如下:(1-1)该监视线程具有创建规则队列L1、L2能力;(1-2)该监视线程具有创建、停止、删除采集线程池Tn的能力;(2)根据信息规则集合R,创建总规则队列LI;其操作步骤如下:(2-1)根据信息规则集合R,在系统初始化时创建总规则队列LI,根据规则所属专题的不同,从每一个专题顺序选择I个规则放入队列,所有专题选择过后,重新从每个专题顺序选择I个规则放入队列,直至所有规则放入队列为止,每个规则放入队列时,打上自增的序号,代表其在队列中的位置;(2-2)信息规则集合R发生变化时,如R中的规则发生增加则将增加规则增加到总规则队列LI的尾部,如R中的规则发生删除,则直接删除队列中的元素;(3)根据目标策略集合P,为P中每一个目标创建对应采集线程池Tn;其操作步骤如下:(3-1)查找目标策略集合P,根据目标策略创建线程池,每一个目标创建一个线程池,线程池中线程数量由目标策略确定,存在访问限制的目标,线程池中线程数量为I ;(4)根据目标策略集合P,为P中每一个目标创建对应采集队列In;其操作步骤如下:(4-1)根据目标策略集合P,为P中每一个目标创建对应策略中指定长度的采集队列In ;(5)创建优先队列L2;其操作步骤如下:(5-1)系统创建优先队列L2,初始化时优先队列为空;(5-2)系统在非初始化时对规则集合R进行增加操作时,将增加元素放入L2中;(6)Tn中线程提取优先规则队列L2中规则进行采集;其操作步骤如下:(6-1)Τη中线程优先提取队列L2中符合采集队列长度In规则进行采集,当η个目标线程池都将L2遍历道队尾时,将L2清空(7)Τη中线程提取总规则队列LI中规则进行采集;其操作步骤如下:(7-1)Τη中线程遍历过L2后遍历LI,提取队列L2中符合采集队列长度In规则进行采集,遍历过程中如发现L2存在新元素则重新遍历L2 ;转到步骤(6-1)。 本方法可以灵活适应互联网信息的复杂性,为每一个互联网目标的采集制定策略,采集调度灵活,精确可调的控制系统资源和网络资源的使用,提高采集速度;具有优先规则队列和总规则队列,可以兼顾快速信息获取和资源均衡性需求,平衡系统各部分(专题)获取信息的速度,分隔各个采集目标的访问,不使一个采集目标的采集状态影响其它目标的采集,从而改善用户体验,提高采集系统性能。 【专利附图】【附图说明】 图1是本专利技术方法的流程框图;图2是图1中步骤101创建监视线程类的方法列表;图3是图1中步骤102所述的根据信息规则集合R,创建总规则队列LI流程图;图4是图1中步骤103所述的根据目标策略集合P,为P中每一个目标创建对应采集线程池Tn的流程图;图5是图1中步骤104所述的根据目标策略集合P,为P中每一个目标创建对应采集队列In流程图;图6是图1中步骤105所述的创建优先队列L2的流程图;图7是图1中步骤106所述的Tn中线程提取优先规则队列L2中规则进行采集的流程图;图8是图1中步骤107所述的Tn中线程提取总规则队列LI中规则进行采集的流程图。 【具体实施方式】 以下参照附图,进一步描述本专利技术的具体技术方案,以便于本领域的技术人员进一步地理解本专利技术,而不构成对其权利的限制。 实施例1,,具有全局监视线程;具有全局采集规则总队列;具有全局优先队列;每个采集目标建立独立线程池和采集队列;每个采集目标具有独立采集策略;优先队列中规则将优先于总规则队列采集;当信息规则修改时放入优先队列采集一次;分属不同专题的信息规则在队列中位置均衡;其具体步骤如下:(1)创建调度监视线程;其操作步骤如下:(1-1)该监视线程具有创建规则队列L1、L2能力;(1-2)该监视线程具有创建、停止、删除采集线程池Tn的能力;(2)根据信息规则集合R,创建总规则队列LI;其操作步骤如下:(2-1)根据信息规则集合R,在系统初始化时创建总规则队列LI,根据规则所属专题的不同,从每一个专题顺序选择I个规则放入队列,所有专题选择过后,重新从每个专题顺序选择I个规则放入队列,直至所有规则放入队列为止,每个规则放入队列时,打上自增的序号,代表其在队列中的位置;(2-2)信息规则集合R发生变化时,如R中的规则发生增加则将增加规则增加到总规则队列LI的尾部,如R中的规则发生删除,则直接删除队列中的元素;(3)根据目标策略集合P,为P中每一个目标创建对应采集线程池Tn;其操作步骤如下:(3-1)查找目标策略集合P,根据目标策略创建线程池,每一个目标创建一个线程池,线程池中线程数量由目标策略确定,存在访问限制的目标,线程池中线程数量为I ;(4)根据目标策略集合P,为P中每一个目标创建对应采集队列In;其操作步骤如下:(4-1)根据目本文档来自技高网
...

【技术保护点】
一种基于目标的互联网信息采集调度方法,其特征在于,具有全局监视线程;具有全局采集规则总队列;具有全局优先队列;每个采集目标建立独立线程池和采集队列;每个采集目标具有独立采集策略;优先队列中规则将优先于总规则队列采集;当信息规则修改时放入优先队列采集一次;分属不同专题的信息规则在队列中位置均衡;其具体步骤如下:(1)创建调度监视线程;其操作步骤如下:(1‑1)该监视线程具有创建规则队列L1、L2能力;(1‑2)该监视线程具有创建、停止、删除采集线程池Tn的能力;(2)根据信息规则集合R,创建总规则队列L1;其操作步骤如下:(2‑1)根据信息规则集合R,在系统初始化时创建总规则队列L1,根据规则所属专题的不同,从每一个专题顺序选择1个规则放入队列,所有专题选择过后,重新从每个专题顺序选择1个规则放入队列,直至所有规则放入队列为止,每个规则放入队列时,打上自增的序号,代表其在队列中的位置;(2‑2)信息规则集合R发生变化时,如R中的规则发生增加则将增加规则增加到总规则队列L1的尾部,如R中的规则发生删除,则直接删除队列中的元素;(3)根据目标策略集合P,为P中每一个目标创建对应采集线程池Tn;其操作步骤如下:(3‑1)查找目标策略集合P,根据目标策略创建线程池,每一个目标创建一个线程池,线程池中线程数量由目标策略确定,存在访问限制的目标,线程池中线程数量为1;(4)根据目标策略集合P,为P中每一个目标创建对应采集队列ln;其操作步骤如下:(4‑1)根据目标策略集合P,为P中每一个目标创建对应策略中指定长度的采集队列ln;(5)创建优先队列L2;其操作步骤如下:(5‑1)系统创建优先队列L2,初始化时优先队列为空;(5‑2)系统在非初始化时对规则集合R进行增加操作时,将增加元素放入L2中;(6)Tn中线程提取优先规则队列L2中规则进行采集;其操作步骤如下:(6‑1)Tn中线程优先提取队列L2中符合采集队列长度ln规则进行采集,当n个目标线程池都将L2遍历道队尾时,将L2清空(7)Tn中线程提取总规则队列L1中规则进行采集;其操作步骤如下:(7‑1)Tn中线程遍历过L2后遍历L1,提取队列L2中符合采集队列长度ln规则进行采集,遍历过程中如发现L2存在新元素则重新遍历L2;转到步骤(6‑1)。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈永江陈宗华仲兆满
申请(专利权)人:江苏金鸽网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1