一种基于深度图神经网络的新闻收集及自动化提取方法技术

技术编号:33647543 阅读:13 留言:0更新日期:2022-06-02 20:24
本发明专利技术涉及深度学习技术领域,公开了一种基于深度图神经网络的新闻收集及自动化提取方法,步骤:S1.收集用于训练的新闻站点;S2.以HTML标签为单位,标注收集到的新闻站点中的新闻链接,并通过深度图神经网络进行训练,得到链接提取模型;S3.以HTML标签为单位,标注收集到的新闻链接中的新闻内容,并构建新闻内容提取模型;S4.标注收集到的新闻内容中的正文内容,构建正文分类模型;S5.收集需要分析的新闻站点的主页HTML源码,将主页HTML源码输入到链接提取模型中,并得到新闻链接;将新闻链接输入新闻内容提取模型,得到新闻内容;最后将新闻内容输入正文分类模型,提取到新闻信息。本发明专利技术解决了现有技术计算复杂,不能方便快捷地提取新闻中的重要信息的问题。提取新闻中的重要信息的问题。提取新闻中的重要信息的问题。

【技术实现步骤摘要】
一种基于深度图神经网络的新闻收集及自动化提取方法


[0001]本专利技术涉及深度学习
,更具体的,涉及一种基于深度图神经网络的新闻收集及自动化提取方法。

技术介绍

[0002]现今处于大数据时代,热点新闻层出不穷,令人目不接暇,若要对大量的新闻事件进行分析处理,涉及到两个技术问题:一、找到大量新闻的链接。二、对新闻进行结构化的解析,提取出其标题、内容、作者、发表时间等信息。目前,大部分技术集中在新闻正文的提取上,怎么获得大量的新闻链接研究不多。大部分新闻正文提取技术通过正则表达式或者网页模板来完成此类工作,该类技术可以胜任以上工作,但存在弊端如下:网页模板、或正则表达式的构建耗费大量人力,而且当网站进行改版,需要重新修改网页模板或正则表达式,费时费力。另外,部分技术通过计算文本密度等特征,将新闻正文提取出来,存在弊端如下:一、仅能提取出正文内容。二、对于新闻正文过短或者网页其他干扰信息过多的网页,容易提取错误。
[0003]针对存在的不足与缺陷,现有技术公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法,基于多模态机器学习的新闻网页正文抽取方法包括:进行不同类型特征的提取;多模态融合,进行特征的联合表示;进行网页正文分类模型训练。然而现有技术计算复杂,不能方便快捷地提取新闻中的重要信息,且也无法解决新闻链接获取困难的问题。因此如何专利技术一种能够方便快捷地从网站中获取大量新闻链接,并提取新闻信息的新闻自动化提取方法,是本
亟需解决的问题。

技术实现思路

[0004]本专利技术为了解决现有技术计算复杂,不能方便快捷地提取新闻中的重要信息的问题,提供了一种基于深度图神经网络的新闻收集及自动化提取方法,其具有计算简单,高效方便的特点,对比现有的自动化抽取技术,能较好地解决新闻链接的获取问题,且在新闻正文内容的抽取上,也有较高的准确率。
[0005]为实现上述本专利技术目的,采用的技术方案如下:
[0006]一种基于深度图神经网络的新闻收集及自动化提取方法,包括以下具体步骤:
[0007]S1.收集用于训练的新闻站点;
[0008]S2.以HTML标签为单位,标注收集到的新闻站点中的新闻链接,并通过深度图神经网络进行训练,得到链接提取模型;
[0009]S3.以HTML标签为单位,标注收集到的新闻链接中的新闻内容,并构建新闻内容提取模型;
[0010]S4.标注收集到的新闻内容中的正文内容,构建正文分类模型;
[0011]S5.收集需要分析的新闻站点的主页HTML源码,将所述的主页HTML源码输入到所述的链接提取模型中,并得到新闻链接;然后将得到的新闻链接输入新闻内容提取模型,得
到新闻内容;最后将得到的新闻内容输入正文分类模型,提取到新闻信息。
[0012]优选的,步骤S2,具体步骤为:
[0013]S201.以HTML标签为单位,分别标注出站点HTML页面中的“板块”并且从每个“板块”中标注出其中的“新闻链接”标签;
[0014]S202.通过得到的“新闻链接”标签,构建异构图的第一节点分类模型,将第一节点分类模型作为链接提取模型;
[0015]S203.训练并得到训练后的链接提取模型。
[0016]进一步的,步骤S202,具体为;以HTML源码中标签为深度图神经网络的节点,HTML源码中标签的父子关系和兄弟关系作为深度图神经网络的边,标签中的属性、文字作为节点的特征,构建异构图的第一节点分类模型,并将第一节点分类模型作为链接提取模型。深度图神经网络可选用图卷积网络算法(GCN)。
[0017]更进一步的,步骤S203,具体为:将新闻链接的提取任务看作是深度图神经网络的节点分类任务,将S201中标注数据划分为训练集、验证集和测试集,对所述的链接提取模型进行训练。
[0018]更进一步的,步骤S3,具体步骤为:
[0019]S301.对步骤S2中收集到的“新闻链接”进行标注,以新闻正文页的HTML标签为单位,分别标注出新闻正文页中的“标题”标签、“发表时间”标签、“作者”标签、“内容”标签、“来源”标签;
[0020]S302.通过构建异构图的第二节点分类模型,将第二节点分类模型作为新闻信息提取模型;
[0021]S303.训练所述的新闻信息提取模型。
[0022]更进一步的,步骤S302,具体为:以HTML源码中标签为深度图神经网络的节点,HTML源码中标签的父子关系和兄弟关系作为深度图神经网络的边,标签中的属性、文字作为节点的特征,构建异构图的节点分类模型,并将第二节点分类模型作为新闻信息提取模型;
[0023]更进一步的,步骤S303,具体为:将新闻信息提取的任务看作是深度图神经网络的节点分类任务,将S301中标注数据划分为训练集、验证集和测试集,对所述的新闻信息提取模型进行训练。
[0024]更进一步的,步骤S4,具体步骤为:
[0025]S401.对步骤S3中得到的“内容”进行标注,每个新闻内容分别标注为“新闻”标签或“杂音”标签;
[0026]S402.根据收集到的“新闻”标签或“杂音”标签,得到并训练正文分类模型。
[0027]更进一步的,步骤S401中,所述的“杂音”标签包括招聘信息、广告、新闻网站介绍。
[0028]更进一步的,步骤S402中,根据收集到的“新闻”标签或“杂音”标签,通过自然语言算法建立并训练正文分类模型。正文分类模型可选用基于预训练模型的微调(fine

tune)的方式构建。
[0029]本专利技术的有益效果如下:
[0030]本专利技术通过收集并标注用于训练的新闻站点,构建并训练得到了链接提取模型、新闻内容提取模型、正文分类模型,实现了对新闻内容进行自动化提取,解决了现有技术计
算复杂,不能方便快捷地提取新闻中的重要信息的问题,具有计算简单,高效方便的特点。
附图说明
[0031]图1是本基于深度图神经网络的新闻收集及自动化提取方法的流程示意图。
[0032]图2是本基于深度图神经网络的新闻收集及自动化提取方法的针对HTML源码的标注结果。
[0033]图3是本基于深度图神经网络的新闻收集及自动化提取方法的深度图神经网络示例图。
[0034]图4是本基于深度图神经网络的新闻收集及自动化提取方法,用于具体门户网站,进行新闻收集及自动化提取的流程图
具体实施方式
[0035]下面结合附图和具体实施方式对本专利技术做详细描述。
[0036]实施例1
[0037]如图1所示,一种基于深度图神经网络的新闻收集及自动化提取方法,包括以下具体步骤:
[0038]S1.收集用于训练的新闻站点;本实施例可以通过现有技术手段,采集到新闻站点的主页HTML源码,用作标注数据,收集了1000个新闻主页网页;
[0039]S2.以HTML标签为单位,标注收集到的新闻站点中的新闻链接,并通过深度图神经网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度图神经网络的新闻收集及自动化提取方法,其特征在于:包括以下具体步骤:S1.收集用于训练的新闻站点;S2.以HTML标签为单位,标注收集到的新闻站点中的新闻链接,并通过深度图神经网络进行训练,得到链接提取模型;S3.以HTML标签为单位,标注收集到的新闻链接中的新闻内容,并构建新闻内容提取模型;S4.标注收集到的新闻内容中的正文内容,构建正文分类模型;S5.收集需要分析的新闻站点的主页HTML源码,将所述的主页HTML源码输入到所述的链接提取模型中,并得到新闻链接;然后将得到的新闻链接输入新闻内容提取模型,得到新闻内容;最后将得到的新闻内容输入正文分类模型,提取到新闻信息。2.根据权利要求1所述的基于深度图神经网络的新闻收集及自动化提取方法,其特征在于:步骤S2,具体步骤为:S201.以HTML标签为单位,分别标注出站点HTML页面中的“板块”并且从每个“板块”中标注出其中的“新闻链接”标签;S202.通过得到的“新闻链接”标签,构建异构图的第一节点分类模型,将第一节点分类模型作为链接提取模型;S203.对链接提取模型进行训练,并得到训练后的链接提取模型。3.根据权利要求2所述的基于深度图神经网络的新闻收集及自动化提取方法,其特征在于:步骤S202,具体为;以HTML源码中标签为深度图神经网络的节点,HTML源码中标签的父子关系和兄弟关系作为深度图神经网络的边,标签中的属性、文字作为节点的特征,构建异构图的第一节点分类模型,并将第一节点分类模型作为链接提取模型。4.根据权利要求3所述的基于深度图神经网络的新闻收集及自动化提取方法,其特征在于:步骤S203,具体为:将新闻链接的提取任务看作是深度图神经网络的节点分类任务,将S201中标注数据划分为训练集、验证集和测试集,对所述的链接提取模型进行训练。5.根据权利要求4所述的基于...

【专利技术属性】
技术研发人员:何宇轩牟昊李旭日徐亚波
申请(专利权)人:广东横琴数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1