一种基于深度图神经网络的新闻收集及自动化提取方法技术

技术编号：33647543 阅读：13 留言：0更新日期：2022-06-02 20:24

本发明专利技术涉及深度学习技术领域，公开了一种基于深度图神经网络的新闻收集及自动化提取方法，步骤：S1.收集用于训练的新闻站点；S2.以HTML标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；S3.以HTML标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；S4.标注收集到的新闻内容中的正文内容，构建正文分类模型；S5.收集需要分析的新闻站点的主页HTML源码，将主页HTML源码输入到链接提取模型中，并得到新闻链接；将新闻链接输入新闻内容提取模型，得到新闻内容；最后将新闻内容输入正文分类模型，提取到新闻信息。本发明专利技术解决了现有技术计算复杂，不能方便快捷地提取新闻中的重要信息的问题。提取新闻中的重要信息的问题。提取新闻中的重要信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度图神经网络的新闻收集及自动化提取方法

[0001]本专利技术涉及深度学习
，更具体的，涉及一种基于深度图神经网络的新闻收集及自动化提取方法。

技术介绍

[0002]现今处于大数据时代，热点新闻层出不穷，令人目不接暇，若要对大量的新闻事件进行分析处理，涉及到两个技术问题：一、找到大量新闻的链接。二、对新闻进行结构化的解析，提取出其标题、内容、作者、发表时间等信息。目前，大部分技术集中在新闻正文的提取上，怎么获得大量的新闻链接研究不多。大部分新闻正文提取技术通过正则表达式或者网页模板来完成此类工作，该类技术可以胜任以上工作，但存在弊端如下：网页模板、或正则表达式的构建耗费大量人力，而且当网站进行改版，需要重新修改网页模板或正则表达式，费时费力。另外，部分技术通过计算文本密度等特征，将新闻正文提取出来，存在弊端如下：一、仅能提取出正文内容。二、对于新闻正文过短或者网页其他干扰信息过多的网页，容易提取错误。
[0003]针对存在的不足与缺陷，现有技术公开了一种基于多模态机器学习的新闻网页正文抽取系统及方法，基于多模态机器学习的新闻网页正文抽取方法包括：进行不同类型特征的提取；多模态融合，进行特征的联合表示；进行网页正文分类模型训练。然而现有技术计算复杂，不能方便快捷地提取新闻中的重要信息，且也无法解决新闻链接获取困难的问题。因此如何专利技术一种能够方便快捷地从网站中获取大量新闻链接，并提取新闻信息的新闻自动化提取方法，是本
亟需解决的问题。

技术实现思路

[0004]本专利技术...

【技术保护点】

【技术特征摘要】
1.一种基于深度图神经网络的新闻收集及自动化提取方法，其特征在于：包括以下具体步骤：S1.收集用于训练的新闻站点；S2.以HTML标签为单位，标注收集到的新闻站点中的新闻链接，并通过深度图神经网络进行训练，得到链接提取模型；S3.以HTML标签为单位，标注收集到的新闻链接中的新闻内容，并构建新闻内容提取模型；S4.标注收集到的新闻内容中的正文内容，构建正文分类模型；S5.收集需要分析的新闻站点的主页HTML源码，将所述的主页HTML源码输入到所述的链接提取模型中，并得到新闻链接；然后将得到的新闻链接输入新闻内容提取模型，得到新闻内容；最后将得到的新闻内容输入正文分类模型，提取到新闻信息。2.根据权利要求1所述的基于深度图神经网络的新闻收集及自动化提取方法，其特征在于：步骤S2，具体步骤为：S201.以HTML标签为单位，分别标注出站点HTML页面中的“板块”并且从每个“板块”中标注出其中的“新闻链接”标签；S202.通过得到的“新闻链接”标签，构建异构图的第一节点分类模型，将第一节点分类模型作为链接提取模型；S203.对链接提取模型进行训练，并得到训练后的链接提取模型。3.根据权利要求2所述的基于深度图神经网络的新闻收集及自动化提取方法，其特征在于：步骤S202，具体为；以HTML源码中标签为深度图神经网络的节点，HTML源码中标签的父子关系和兄弟关系作为深度图神经网络的边，标签中的属性、文字作为节点的特征，构建异构图的第一节点分类模型，并将第一节点分类模型作为链接提取模型。4.根据权利要求3所述的基于深度图神经网络的新闻收集及自动化提取方法，其特征在于：步骤S203，具体为：将新闻链接的提取任务看作是深度图神经网络的节点分类任务，将S201中标注数据划分为训练集、验证集和测试集，对所述的链接提取模型进行训练。5.根据权利要求4所述的基于...

【专利技术属性】
技术研发人员：何宇轩，牟昊，李旭日，徐亚波，
申请(专利权)人：广东横琴数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人