System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于搜索引擎的信息挖掘方法、装置及计算机设备制造方法及图纸_技高网

基于搜索引擎的信息挖掘方法、装置及计算机设备制造方法及图纸

技术编号:40973985 阅读:2 留言:0更新日期:2024-04-18 21:22
本发明专利技术公开了一种基于搜索引擎的信息挖掘方法、装置及计算机设备,属于计算机技术领域。本发明专利技术根据主题词利用引擎搜索确定种子链接,根据种子链接进行用户信息挖掘。通过第一拓展词调整子链接的继承权重,进而调整第二队列的顺序,通过第二拓展词调整目标URL的引用权重,进而调整第一队列的顺序,增加关联页面的聚集程度,提高爬虫效率。通过链接索引表避免子链接被重复解析。通过计算网页下载数,能够清楚地了解信息挖掘的进度。通过设置最大下载数避免无限挖掘。

【技术实现步骤摘要】

本专利技术涉及计算机网络,尤其涉及一种基于搜索引擎的信息挖掘方法、装置及计算机设备


技术介绍

1、互联网存在海量的数据,可以为销售推广提供潜在客户信息。信息挖掘方法的优劣很大程度上取决于输入关键词的精确程度。给定关键词,依靠关键词匹配的技术来筛选有用信息,会导致挖掘不充分。现有技术披露了借助搜索引擎提供的链接匹配方法提供可观的扩展网页。例如公开号为cn106156055a的专利申请公开了一种搜索引擎爬虫的识别、处理方法及装置。该方法根据搜索词的循环标注和搜索提供扩展的网页。经搜索引擎的扩展,网页数量呈几何倍数增加,而且部分网页存在外部链接,外部链接又指向其他网页。同时搜索引擎又提供一些非关联网页链接,庞大的网页基数降低检索效率。中国专利申请cn202111348896.9公开了一种分布式动态可配置的爬虫平台及爬虫方法,该方法对爬虫任务的执行过程进行实时反馈及预警,优化爬虫方法,提高爬虫效率。根据已完成挖掘的网页的爬虫结果调节后续同类网页的挖掘方法,页面的排列顺序影响反馈和预警信息的质量。所以有必要提出一种基于搜索引擎的信息挖掘方法,通过更优化的页面挖掘顺序提高信息挖掘效率。


技术实现思路

1、为了解决上述现有技术存在的缺陷,本专利技术提出了一种基于搜索引擎的信息挖掘方法、装置及计算机设备。本专利技术通过搜索引擎获取种子链接,再根据种子链接的网页内容查找子链接。在下载链接对应目标url的过程中,不断修正链接队列和url队列的顺序,增加关联url的聚集程度,提高挖掘效率。

>2、本专利技术的技术方案是这样实现的:

3、一种基于搜索引擎的信息挖掘方法,包括以下步骤:

4、步骤1:从字库中提取基于主题词的多项第一拓展词和第二拓展词,根据主题词从搜索引擎中提取种子链接,将种子链接存储为第一队列的目标url;

5、步骤2:将第一队列的目标url逐一发送给下载器和链接索引表,下载器获取目标url相应的网页内容,将网页内容发送给解析器;

6、步骤3:解析器将解析出的html数据发送给处理器,处理器将html数据转化为dom树,遍历dom树的多个标签路径,抽取至少一个标签路径的文本内容,从文本内容中提取目标文本与子链接;

7、步骤4:将目标文本存入第一存储器,匹配文本内容与第一拓展词,生成子链接的继承权重,将具有继承权重的子链接存储至第二队列;

8、步骤5:若网页下载数小于最大下载数,进入步骤6,否则结束任务;

9、步骤6:若第一队列为空集,进入步骤7,否则基于第二拓展词生成第一队列中剩余目标url的引用权重,根据引用权重排列剩余目标url,返回步骤2;

10、步骤7:根据链接索引表删除第二队列的至少一个子链接,若第二队列为空集,结束任务,否则进入步骤8;

11、步骤8:提取第二队列中子链接的修改时间,根据继承权重和修改时间计算第二队列中子链接的主题相关度,根据主题相关度排列第二队列的子链接;

12、步骤9:将第二队列的子链接存储为第一队列的目标url,同时清空第二队列,返回步骤2。

13、在本专利技术中,在步骤1中,从字库中提取主题词的近义词与关联词,得到第一拓展词,从字库中提取主题词的属性词、类别词、领域词,得到第二拓展词。

14、在本专利技术中,在步骤2中,解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。

15、在本专利技术中,在步骤4中,子链接的继承权重,其中,i为文本内容中第一拓展词的数量,wi为第i个第一拓展词的权重,fi为第i个第一拓展词在文本内容中出现的次数。

16、在本专利技术中,在步骤6中,从文本内容中提取子链接的锚文本,匹配锚文本与第二拓展词,根据锚文本中每一第二拓展词的访问频率计算该子链接对应目标url的引用权重,根据引用权重排列目标url。

17、在本专利技术中,在步骤6中,根据任意第二拓展词的匹配次数,调整该第二拓展词的访问频率。

18、在本专利技术中,在步骤7中,将链接索引表的目标url匹配至第二队列的子链接,删除第二队列中匹配成功的子链接。

19、在本专利技术中,在步骤8中,根据子链接的修改时间生成时间影响因子g(t),主题相关度r= g(t)×p1。

20、一种基于搜索引擎的信息挖掘装置,该信息挖掘装置采用所述基于搜索引擎的信息挖掘方法,该信息挖掘装置包括:搜索引擎、第一存储器、第二存储器、下载器、解析器、处理器、调度器,其中,

21、搜索引擎用于提取种子链接;

22、第一存储器用于存储目标文本;

23、第二存储器用于存储第一队列和第二队列;

24、下载器用于获取目标url相应的网页内容;

25、解析器用于从网页内容中解析html数据;

26、处理器用于从html数据提取目标文本与子链接;

27、调度器用于将子链接与种子链接发送至第二存储器。

28、一种计算机设备,该计算机设备包括电源、外设、网络接口以及所述信息挖掘装置。

29、实施本专利技术的这种基于搜索引擎的信息挖掘方法、装置及计算机设备,具有以下有益效果:本专利技术通过搜索引擎获取种子链接,根据种子链接的网页内容查找子链接。种子链接和子链接共同组成扩展后的目标url集合。针对搜索引擎可能提供非关联链接,本专利技术通过第一拓展词调整子链接的继承权重,进而调整第二队列的顺序。通过第二拓展词调整目标url的引用权重,进而调整第一队列的顺序。调整顺序后,关联链接和url的聚集程度增加,提高爬虫效率。进一步的,通过链接索引表避免子链接被重复解析。

本文档来自技高网...

【技术保护点】

1.一种基于搜索引擎的信息挖掘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤1中,从字库中提取主题词的近义词与关联词,得到第一拓展词,从字库中提取主题词的属性词、类别词、领域词,得到第二拓展词。

3.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤2中,解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。

4.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤4中,子链接的继承权重,其中,I为文本内容中第一拓展词的数量,Wi为第i个第一拓展词的权重,Fi为第i个第一拓展词在文本内容中出现的次数。

5.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤6中,从文本内容中提取子链接的锚文本,匹配锚文本与第二拓展词,根据锚文本中每一第二拓展词的访问频率计算该子链接对应目标URL的引用权重,根据引用权重排列目标URL。

6.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤6中,根据任意第二拓展词的匹配次数,调整该第二拓展词的访问频率。

7.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤7中,将链接索引表的目标URL匹配至第二队列的子链接,删除第二队列中匹配成功的子链接。

8.根据权利要求4所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤8中,根据子链接的修改时间生成时间影响因子G(t),主题相关度R= G(t)×P1。

9.一种基于搜索引擎的信息挖掘装置,其特征在于,该信息挖掘装置采用权利要求1所述基于搜索引擎的信息挖掘方法,该信息挖掘装置包括:搜索引擎、第一存储器、第二存储器、下载器、解析器、处理器、调度器,其中,

10.一种计算机设备,其特征在于,所述计算机设备包括电源、外设、网络接口以及根据权利要求9所述信息挖掘装置。

...

【技术特征摘要】

1.一种基于搜索引擎的信息挖掘方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤1中,从字库中提取主题词的近义词与关联词,得到第一拓展词,从字库中提取主题词的属性词、类别词、领域词,得到第二拓展词。

3.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤2中,解析器采用基于动态代理的网页解析策略、基于图像验证码的网页解析策略、基于异步加载机制的网页解析策略的一种或几种解析网页内容。

4.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤4中,子链接的继承权重,其中,i为文本内容中第一拓展词的数量,wi为第i个第一拓展词的权重,fi为第i个第一拓展词在文本内容中出现的次数。

5.根据权利要求1所述的基于搜索引擎的信息挖掘方法,其特征在于,在步骤6中,从文本内容中提取子链接的锚文本,匹配锚文本与第二拓展词,根据锚文本中每一第二拓展词的访问频率计算...

【专利技术属性】
技术研发人员:陈景宏孙斌
申请(专利权)人:江西顶易科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1