一种基于PTB模型的主题爬虫方法、系统及存储介质技术方案

技术编号：41678209 阅读：8 留言：0更新日期：2024-06-14 15:32

本发明专利技术公开了一种基于PTB模型的主题爬虫方法、系统及存储介质，属于计算机网络信息获取技术领域，方法包括：依次爬取种子URL集，获取种子URL集内部的所有URL链接并依次放入URL队列中；对URL队列中的URL链接进行过滤，并对经过过滤的URL连接依次进行页面解析，获取相应的页面链接和页面内容；基于改进的Page Rank算法，对页面连接进行链接主题度计算，获取链接主题度；基于改进的贝叶斯分类算法，对页面内容进行内容主题度计算，获取内容主题度；基于PTB模型，根据连接主题度和内容主题度，计算主题相关度，并将主题相关度小于预设阈值的网页舍弃，将主题相关度大于或等于预设阈值的网页存储至数据库。该方法能够提高主题爬虫方法和系统中主题度判别的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于ptb模型的主题爬虫方法、系统及存储介质，属于计算机网络信息获取。

技术介绍

1、随着科技的快速发展，大量数据信息的产生，使得互联网变成一个庞大的数据库，已成为人们获取信息的重要途径之一。海量的网络数据中存放着许多可挖掘的且对用户有着很大利用价值的数据信息，最重要的是这些有需求的价值信息如何有效地从web这个庞大的数据库中获取。目前，网络爬虫技术已成为一种获取web数据的重要技术，通过网络爬虫技术可以从万维网中自动抓取信息。但抓取的内容宽泛使得这些数据中充斥着大量的广告、冗余、非相关的干扰信息，而主题爬虫只抓取与设定主题相关的网页，达到了专业性的数据获取要求。因此，想要获取特定某一领域的数据则需要通过主题爬虫技术来实现。

2、主题爬虫已成为当下web挖掘中的研究热点，在主题爬虫相关技术研究中，关键是主题相关度判别和搜索策略的制定，主要分为基于网页内容和基于链接分析的研究。基于链接分析的主题爬虫策略认为web链接彼此之间存在着相互联系，结构具有组织性和指向性，能够代表网页的权威性和重要程度。基于网页内容的主题爬虫策略往往更加注重于具体的页面内容是否与主题相关，一定程度上可以避免“主题漂移”的现象。

3、目前，很多主题爬虫的方法使用单一的策略或是主题度判别算法过于简单，这样导致主题爬虫系统中爬取网页的主题相关度精度不足。因此，提高主题相关度判别的精度是本领域技术人员亟需解决的问题。

技术实现思路

1、本专利技术的目的在于提供一种基于ptb模

2、为达到上述目的，本专利技术提供如下技术方案：

3、第一方面，本专利技术提供一种基于ptb模型的主题爬虫方法，包括：

4、基于用户确定所要采集的主题关键词和主题相关的种子url集，向web服务器发出请求并获取爬取响应，依次爬取种子url集，获取种子url集内部的所有url链接并依次放入url队列中；

5、对url队列中的url链接进行过滤，并对经过过滤的url连接依次进行页面解析，获取相应的页面链接和页面内容；

6、基于改进的page rank算法，对所述页面连接进行链接主题度计算，获取链接主题度；

7、基于改进的贝叶斯分类算法，对所述页面内容进行内容主题度计算，获取内容主题度，并将内容主题度计算中不相关的网页舍弃；

8、基于ptb模型，根据所述连接主题度和内容主题度，计算主题相关度，并将主题相关度小于预设阈值的网页舍弃，将主题相关度大于或等于预设阈值的网页存储至数据库。

9、结合第一方面，进一步的，依次爬取种子url集后还包括：从http响应获取一个html文档结构或xml文档结构的页面并传递至解析器组件，由解析器组件使用html解析器或xml解析器将html文档结构或xml文档结构转换为网页内部的数据结构。

10、结合第一方面，进一步的，依次爬取种子url集时使用scrapy网络爬虫框架进行异步请求多线程爬虫，包括：

11、创建scrapy，使用scrapy命令行创建一个新的项目，并确定要抓取的数据以及开始抓取内容的页面；

12、创建spider，并在spider中定义起始url和跟踪链接，获取需要的数据；

13、定义需要获取的数据结构体item，并确保每个数据字段都正确地映射到item中；

14、定义对已提取的数据进行处理和存储的流程控制器pipeline，使用pipeline将提取的数据发送到外部系统或数据库，并使用twiested框架进行异步操作；

15、开启异步请求，在spider中添加asyncio框架，支持网络请求的异步操作；

16、配置多线程，在scrapy中使用不同的模块和设置通过多线程进行异步处理；

17、启动爬虫，运行scrapy-spider，启动整个爬虫框架。

18、结合第一方面，进一步的，基于改进的page rank算法，对所述页面连接进行链接主题度计算，获取链接主题度包括：

19、基于改进的page rank算法，获取父节点网页的pr值；

20、基于父节点网页的pr值，根据网页间的引用关系结构，获取指向父节点网页的所有节点，并计算指向父节点网页的所有节点的pr值；

21、基于指向父节点网页的所有节点的pr值，计算指向父节点网页的所有节点的网页出链数，即父节点网页中包含的外部链接数，进而获取链接主题度。

22、结合第一方面，进一步的，改进的page rank算法的计算公式为：

23、

24、其中，pr(gτ+1)表示第τ+1轮迭代时父节点gτ+1的pr值，pr(gτ)表示第τ轮迭代时父节点gτ的pr值，pr(tτ)表示第τ轮迭代时节点tτ的pr值，l(tτ)表示第τ轮迭代时节点tτ的出链数，其中，gτ+1是gτ的父节点，tτ是除gτ以外指向gτ+1的其他节点，k表示第一调节因子，t表示迭代轮数。

25、结合第一方面，进一步的，对贝叶斯分类算法进行改进包括：

26、利用线性归一化法对贝叶斯分类算法中决策问题的各项指标及其对应的方案进行归一化处理，并计算训练集中各类别的指标权重和信息冗余度；

27、基于训练集中各类别的指标权重和信息冗余度，利用熵值法对贝叶斯分类算法进行加权操作，获取改进的贝叶斯分类算法。

28、结合第一方面，进一步的，改进的贝叶斯分类算法的计算公式为：

29、

30、其中，xi表示训练集中第i个属性值对象，n表示训练集中属性值对象总数，cj表示训练集中第j个类别，训练集中共有2个类别，第1个类别c1表示主题相关，第2个类别c2表示主题不相关，wj表示训练集中第j个类别的指标权重，其中，dj表示训练集中第j个类别的信息冗余度，p(cj)为先验概率，p(xi|cj)为条件概率，表示类别cj下属性值对象xi出现的概率，pij为每个指标的比重。

31、结合第一方面，进一步的，所述ptb模型为：

32、

33、其中，e表示第二调节因子，xi表示训练集中第i个属性值对象，n表示训练集中属性值对象总数，cj表示训练集中第j个类别，训练集中共有2个类别，第1个类别c1表示主题相关，第2个类别c2表示主题不相关，wj表示训练集中第j个类别的指标权重，其中，dj表示训练集中第j个类别的信息冗余度，p(cj)为先验概率，p(xi|cj)为条件概率，表示类别cj下属性值对象xi出现的概率，pij为每个指标的比重，pr(gτ+1)表示第τ+1轮迭代时父节点gτ+1的pr值。

34、第二方面，本专利技术提供一种基于ptb模型的主题爬虫系统，包括处理器及存储介质；

35、所述存储介质用于存储指令；

36、所述处理器用于根据所述指令进行操作以执行本文档来自技高网...

【技术保护点】

1.一种基于PTB模型的主题爬虫方法，其特征在于，包括：

2.根据权利要求1所述的基于PTB模型的主题爬虫方法，其特征在于，依次爬取种子URL集后还包括：从HTTP响应获取一个HTML文档结构或XML文档结构的页面并传递至解析器组件，由解析器组件使用HTML解析器或XML解析器将HTML文档结构或XML文档结构转换为网页内部的数据结构。

3.根据权利要求1所述的基于PTB模型的主题爬虫方法，其特征在于，依次爬取种子URL集时使用Scrapy网络爬虫框架进行异步请求多线程爬虫，包括：

4.根据权利要求1所述的基于PTB模型的主题爬虫方法，其特征在于，基于改进的PageRank算法，对所述页面连接进行链接主题度计算，获取链接主题度包括：

5.根据权利要求4所述的基于PTB模型的主题爬虫方法，其特征在于，改进的Page Rank算法的计算公式为：

6.根据权利要求1所述的基于PTB模型的主题爬虫方法，其特征在于，对贝叶斯分类算法进行改进包括：

7.根据权利要求6所述的基于PTB模型的主题爬虫方法，其特征在于，改进的

8.根据权利要求1所述的基于PTB模型的主题爬虫方法，其特征在于，所述PTB模型为：

9.一种基于PTB模型的主题爬虫系统，其特征在于，包括处理器及存储介质；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于ptb模型的主题爬虫方法，其特征在于，包括：

2.根据权利要求1所述的基于ptb模型的主题爬虫方法，其特征在于，依次爬取种子url集后还包括：从http响应获取一个html文档结构或xml文档结构的页面并传递至解析器组件，由解析器组件使用html解析器或xml解析器将html文档结构或xml文档结构转换为网页内部的数据结构。

3.根据权利要求1所述的基于ptb模型的主题爬虫方法，其特征在于，依次爬取种子url集时使用scrapy网络爬虫框架进行异步请求多线程爬虫，包括：

4.根据权利要求1所述的基于ptb模型的主题爬虫方法，其特征在于，基于改进的pagerank算法，对所述页面连接进行链接主题度计算，获取链接主题度包...

【专利技术属性】
技术研发人员：李光荣，薛翔，
申请(专利权)人：南京工程学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人