一种基于网页xpath获取新闻正文的通用方法技术

技术编号：40445050 阅读：4 留言：0更新日期：2024-02-22 23:06

本发明专利技术提供了一种基于网页xpath获取新闻正文的通用方法，属于自然语言处理技术领域，其方法包括：通过Scrapy爬虫框架工具获取新闻网站的xpath；用k‑means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath；通过n组xpath中每组xpath反向推出每个xpath所对应内容；获取每组xpath总内容文本大小，筛选出文本最大的组；将所述文本最大的组作为xpath正文部分入库，实现对网页新闻正文内容的爬取。解决了新类型的网站也需要通过维护规则库的方式达到获取正文的目的，人工投入量较大，维护成本较高的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，特别涉及一种基于网页xpath获取新闻正文的通用方法。

技术介绍

1、目前，现有获取网页新闻的方法通过定制化开发针对每种类型网页特点编写规则，网页的规则繁杂多样，不同类型网页也会进行升级变动，导致之前开发的规则不可用，新类型的网站也需要通过维护规则库的方式达到获取正文的目的，人工投入量较大，维护成本较高。

2、因此，本专利技术提出一种基于网页xpath获取新闻正文的通用方法。

技术实现思路

1、本专利技术提供一种基于网页xpath获取新闻正文的通用方法，通过scrapy爬虫框架工具获取新闻网站的xpath，用k-means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath，通过n组xpath中每组xpath反向推出每个xpath所对应内容，获取每组xpath总内容文本大小，筛选出文本最大的组，将所述文本最大的组作为xpath正文部分入库，实现对网页新闻正文内容的爬取，解决了
技术介绍
中新类型的网站也需要通过维护规则库的方式达到获取正文的目的，人工投入量较大，维护成本较高的问题。

2、本专利技术提出一种基于网页xpath获取新闻正文的通用方法，该方法包括：

3、步骤1：通过scrapy爬虫框架工具获取新闻网站的xpath；

4、步骤2：用k-means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath；

5、步骤3：通过n组xpath中每组xpath反向推出每个xpath所对应内容；

6、步骤4：获取每组xpath总内容文本大小，筛选出文本最大的组；

7、步骤5：将所述文本最大的组作为xpath正文部分入库，实现对网页新闻正文内容的爬取。

8、优选的，通过scrapy爬虫框架工具获取新闻网站的xpath，包括：

9、确定目标新闻网站，并获取目标新闻网站网页html中的所有元素；

10、通过scrapy爬虫框架工具获取所述所有元素所对应的xpath；

11、其中，所有元素所对应的xpath的总数量为cx。

12、优选的，通过scrapy爬虫框架工具获取新闻网站的xpath之后，还包括：

13、基于xpath语法分析，建立基于xpath语法元素及xpath语法字段规则库；

14、获取所述目标新闻网站中所有的xpath语法元素及xpath语法字段；

15、将获取的xpath语法元素及xpath语法字段输入到规则库中进行匹配，若匹配成功，则确定目标新闻网站的xpath合格，若匹配失败，则确定目标新闻网站的xpath不合格；

16、当确定目标新闻网站的xpath不合格时，发出数据异常提醒。

17、优选的，用k-means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath，包括：

18、分别提取网页中的xpath中每个xpath的特征属性；

19、基于k-means相似度聚类分组算法根据每个xpath的特征属性进行相似聚类，获取多个聚类簇；

20、根据每个聚类簇中的第二划分xpath将网页中的xpath进行分组，得到n组xpath。

21、优选的，通过n组xpath中每组xpath反向推出每个xpath所对应内容，包括：

22、获取n组xpath中每组xpath的数据属性和元素属性；

23、基于所述数据属性获取每组xpath中的数据特征；

24、基于所述元素属性获取每组xpath中的元素构成；

25、基于所述数据特征和元素构成反向推出每个xpath所对应内容。

26、优选的，获取每组xpath总内容文本大小，筛选出文本最大的组，包括：

27、获取每组xpath的文本体量，根据每组xpath的文本体量确定该组xpath的总内容文本字符长度；

28、基于每组xpath的总内容文本大小和文本格式确定该组xpath的文本字符长度；

29、将每组xpath按照文本字符长度从长到短的顺序进行排序，获取排序结果；

30、根据排序结果选择文本字符长度最长的目标组作为文本最大的组。

31、优选的，筛选出文本最大的组之后，还包括：

32、利用基于flask搭建的web服务，将筛选文本相关的配置数据与后台交互；

33、通过分布式文件存储数据库在后台保存所述筛选文本相关的配置数据；

34、基于flask工具对筛选文本相关的配置数据进行封装；

35、将封装后的服务内置于通用爬虫系统中，供http调用获取新闻网页正文结果。

36、优选的，将所述文本最大的组作为xpath正文部分入库之后，还包括：

37、获取所有xpath形成的文本并进行段落划分，划分为多个段落块；

38、根据每个段落块的文本属性获得每个段落块的标签属性；

39、确定每个段落块的候选关键词的数量，获取每个候选关键词的关键词参数；

40、根据每个候选关键词的关键词参数确定该候选关键词与其所属的目标段落块的目标标签属性的目标关联度；

41、将目标关联度大于等于预设关联度的目标候选关键词进行筛选，获得每个段落块各自对应的当前数量个目标候选关键词；

42、解析每个目标候选关键词的特征因子；

43、基于特征因子，确定对应段落块基于同段落块中每个目标候选关键词的依赖度，并筛选依赖度大于等于预设阈值的期望候选关键词；

44、将所述每个段落块对应的期望候选关键词，确定为每个段落块内与所述标签属性相关的目标关键词；

45、利用目标关键词在文本中进行搜索，获得每个目标关键词所搜索出的关联文本；

46、对每个目标关键词所搜索出的关联文本进行解析，获取每个目标关键词的相关参数映射信息；

47、根据每个目标关键词的相关参数映射信息确定该目标关键词的价值指数；

48、在所有价值指数中选择最大价值指数，并将最大价值指数对应的目标关键词作为实体关键词；

49、利用预设词性解析方式解析所述实体关键词的目标词性；

50、根据所述实体关键词的目标词性确定所有xpath形成的文本的具体表达方法。

51、优选的，通过scrapy爬虫框架工具获取新闻网站的xpath之前，还包括：

52、获取scrapy爬虫框架工具搭载终端的配置信息和网络信息；

53、根据所述网络信息获取scrapy爬虫框架工具搭载终端的每个数据接收节点的单次最大汇集数据量；

54、确定新闻网站的xpath中数据量最大的目标数据；

55、根据所述目标数据和每个数据接收节点的单次最大汇集数据量计算出scrapy爬虫框架工具搭载终端的目标数据传输效率：...

【技术保护点】

1.一种基于网页xpath获取新闻正文的通用方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过Scrapy爬虫框架工具获取新闻网站的xpath，包括：

3.根据权利要求2所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过Scrapy爬虫框架工具获取新闻网站的xpath之后，还包括：

4.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，用k-means相似度聚类分组算法，将网页中的xpath进行分组，得到n组xpath，包括：

5.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过n组xpath中每组xpath反向推出每个xpath所对应内容，包括：

6.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，获取每组xpath总内容文本大小，筛选出文本最大的组，包括：

7.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，筛选出文本最大的组之后，还包括：

8.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过Scrapy爬虫框架工具获取新闻网站的xpath之前，还包括：

...

【技术特征摘要】

1.一种基于网页xpath获取新闻正文的通用方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过scrapy爬虫框架工具获取新闻网站的xpath，包括：

3.根据权利要求2所述的基于网页xpath获取新闻正文的通用方法，其特征在于，通过scrapy爬虫框架工具获取新闻网站的xpath之后，还包括：

5...

【专利技术属性】
技术研发人员：胡红亮，郭传斌，聂雯莹，杨万波，丁荣，史梦涵，
申请(专利权)人：北京国科众安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人