一种从新闻中提取事件的方法技术

技术编号:18289446 阅读:25 留言:0更新日期:2018-06-24 04:08
本发明专利技术公开了一种从新闻中提取事件的方法,通过提取新闻中的摘要信息作为所属事件,并将新闻文本进行数值化转换获得文本的向量表示,利用聚类方法计算新闻的相似度,基于相似度快速按所属事件对新闻进行分类,能够简单、有效地将属于相同事件的新闻聚类在一起,并获得新闻的热度,便于后续的舆情监控。该方法能够简单、快速、有效对海量新闻信息进行分类,为舆情分析提供指导,进一步提高了舆情的监控力度,并能及时作出决策支持和舆情引导。

【技术实现步骤摘要】
一种从新闻中提取事件的方法
本专利技术涉及计算机网络通信
,具体涉及一种从新闻中提取事件的方法。
技术介绍
随着计算机网络技术的不断发展,网上信息的获取已经成为人们认识事件的主要途径之一,而新闻作为网络信息资源的一个主要形式,面对国内外新闻门户网站每时每刻都会产生大量的新闻,人们往往会陷入窘迫的境地,一方面收到的海量信息无从选择和消化,淹没在繁杂的信息中,另一方面是信息迷失,人们难于找到自己真正需要的信息;因此,能够快速高效地获取所需信息是现如今人们对于网络信息的迫切需求。在这种情况下,在大量的信息自动有效的进行聚类则显得很有必要。此外,随着互联网的快速发展,网络舆情对社会的影响力越来越大,不管是政府网络舆情监控的需要,还是企业在进行品牌传播及品牌公关的需要,如何在海量的舆情的条件下,快速有效地获取热门事件,以分析舆情的情感倾向,使得相关人员及时可靠地进行决策和舆情引导,响应快速变化的舆论环境。
技术实现思路
为了解决现有技术存在的问题,本专利技术提出了一种从新闻中提取事件的方法,实现了新闻事件的热度监测,能够为舆情监控及决策作出有效的引导。本专利技术的一种从新闻中提取事件的方法,包括以下步骤:步骤一、获取与目标话题相关的原始新闻数据集;步骤二、提取新闻的摘要作为所属事件,并分别将新闻文本进行数值化转换;步骤三、设置一个新闻箱,确定新闻箱中是否有新闻,若没有,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下;反之,则执行步骤四;步骤四、计算该新闻与新闻箱中已有新闻的相似度,根据相似度确定该新闻在新闻箱中的所属事件;步骤五、确定新闻箱中是否包含全部新闻及其所属事件,若是,则结束;反之,则返回步骤一。进一步,步骤一中原始新闻数据集包括该新闻的新闻ID、新闻标题和新闻内容。进一步,步骤二中的数值化转换还包括:步骤2.1、将新闻标题和新闻内容分字;步骤2.2、将分字后的文本传入doc2vec模型,从而得到文本的向量表示。进一步,步骤四中采用余弦距离计算相似度,具体为:sim(x,y)=0.3*cos(x1,y1)+0.7*cos(x2,y2),其中,x1和y1为两个新闻的标题向量,x2和y2为两个新闻的内容向量,cos(x1,y1)为标题向量之间的相似度,cos(x2,y2)为内容向量之间的相似度,sim(x,y)为两条新闻最终的相似度,值越大,相似度越高。进一步,步骤四中根据相似度来确定余下新闻在新闻箱中的所属事件,具体为:如果相似度大于阈值,则将该新闻放入新闻箱中相似度最大的新闻所属事件下;反之,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下。进一步,该方法还包括步骤六:计算新闻箱中事件的热度,得到当前的热门事件。本专利技术通过提取新闻内容中的摘要作为新闻事件,根据新闻相似度将所有新闻聚类成事件,能够获得目标话题的热度,简单快速获取热门事件;能够为舆情引导和决策作出有效的数据导向。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术从新闻中提取事件的方法的第一实施例流程图;图2为本专利技术从新闻中提取事件的方法的第二实施例流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例1如图1所示,本实施例提供了一种从新闻中提取事件的方法,该方法具体包括以下步骤:S01、获取与目标话题相关的原始新闻数据集;其中包括新闻ID、新闻标题和新闻内容。S02、提取新闻的摘要作为所属事件,并分别将新闻文本进行数值化转换。数值化转换包括:步骤2.1、训练doc2vec模型:将新闻标题和新闻内容进行分字处理,如“今天天气真好”分字后的结果为“今”,“天”,“天”,“气”,“真”,“好”;使用分好字的新闻标题和新闻内容,分别训练标题的doc2vec模型和内容的doc2vec模型,并保存至本地;步骤2.2、将文本转化为向量:对任意一条新的新闻,首先对标题和内容进行分字,并利用上述训练好的doc2vec模型,分别将标题和内容转化成300维的数字向量。S03、设置一个新闻箱,确定新闻箱中是否有新闻,若没有,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下;反之,则执行S04。S04、计算该新闻与新闻箱中已有新闻的相似度,根据相似度确定该新闻在新闻箱中的所属事件。余弦距离是度量方向而非长度的计算方法,当两个向量的相似度为1时,表明这两个向量的方向是一致的,如(1,1)和(3,3),但具体的数值却有差异。因此,我们常用余弦距离来度量两个向量之间的相似度。采用余弦距离计算相似度,具体为:sim(x,y)=0.3*cos(x1,y1)+0.7*cos(x2,y2),其中,x1和y1为两个新闻的标题向量,x2和y2为两个新闻的内容向量,cos(x1,y1)为标题向量之间的相似度,cos(x2,y2)为内容向量之间的相似度,sim(x,y)为两条新闻最终的相似度,值越大,相似度越高。S05、确定新闻箱中是否包含全部新闻及其所属事件,若是,则结束;反之,则返回S01。还包括步骤S06:计算新闻箱中事件的热度,得到当前的热门事件。由新闻阅读量、评论数和参与数共同决定新闻的热度。事件是相似新闻的集合,其热度为各新闻的热度相加,通过计算事件的热度,得到当前的热门事件,从而根据自身需求作出相应反应。实施例2如图2所示,本实施例提供了一种从新闻中提取事件的方法,在上述实施例的基础上,进一步提供了根据相似度确定新闻在新闻箱中所属事件的具体方法,相应的,该方法具体包括:S11、获取与目标话题相关的原始新闻数据集;其中包括新闻ID、新闻标题和新闻内容;S12、提取新闻的摘要作为所属事件,并分别将新闻文本进行数值化转换;数值化转换包括:步骤2.1、训练doc2vec模型:将新闻标题和新闻内容进行分字处理,如“今天天气真好”分字后的结果为“今”,“天”,“天”,“气”,“真”,“好”;使用分好字的新闻标题和新闻内容,分别训练标题的doc2vec模型和内容的doc2vec模型,并保存至本地;步骤2.2、将文本转化为向量:对任意一条新的新闻,首先对标题和内容进行分字,并利用上述训练好的doc2vec模型,分别将标题和内容转化成300维的数字向量。S13、设置一个新闻箱,确定新闻箱中是否有新闻,若没有,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下;反之,则执行S04。S14、计算该新闻与新闻箱中已有新闻的相似度,根据相似度确定该新闻在新闻箱中的所属事件;余弦距离是度量方向而非长度的计算方法,当两个向量的相似度为1时,表明这两个向量的方向是一致的,如(1,1)和(3,3),但具体的数值却有差异。因此,我们常用余弦距离来度量两个向量之间的相似度。采用余弦距离计算相似度,具体为:sim(x,y)=0.3*cos(x1,y1)+0.7*cos(x2,y2),其中,x1和y1为两个新闻的标题向量,x2和y2为两个新闻的内容向量,cos(x1,y1)为标题向量之间的相似度,cos(x2,y2)为内容向量之间本文档来自技高网...
一种从新闻中提取事件的方法

【技术保护点】
1.一种从新闻中提取事件的方法,其特征在于,包括:步骤一、获取与目标话题相关的原始新闻数据集;步骤二、提取新闻的摘要作为所属事件,并分别将新闻文本进行数值化转换;步骤三、设置一个新闻箱,确定新闻箱中是否有新闻,若没有,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下;反之,则执行步骤四;步骤四、计算该新闻与新闻箱中已有新闻的相似度,根据相似度确定该新闻在新闻箱中的所属事件;步骤五、确定新闻箱中是否包含全部新闻及其所属事件,若是,则结束;反之,则返回步骤一。

【技术特征摘要】
1.一种从新闻中提取事件的方法,其特征在于,包括:步骤一、获取与目标话题相关的原始新闻数据集;步骤二、提取新闻的摘要作为所属事件,并分别将新闻文本进行数值化转换;步骤三、设置一个新闻箱,确定新闻箱中是否有新闻,若没有,则将该新闻所属事件作为新事件加入新闻箱中,并将该新闻放入此事件下;反之,则执行步骤四;步骤四、计算该新闻与新闻箱中已有新闻的相似度,根据相似度确定该新闻在新闻箱中的所属事件;步骤五、确定新闻箱中是否包含全部新闻及其所属事件,若是,则结束;反之,则返回步骤一。2.根据权利要求1所述的方法,其特征在于,步骤一中原始新闻数据集包括该新闻的新闻ID、新闻标题和新闻内容。3.根据权利要求2所述的方法,其特征在于,步骤二中的数值化转换还包括:步骤2.1、将新闻标题和新闻内容分字;步骤2.2、将分字后的文本传入doc2vec模型,从...

【专利技术属性】
技术研发人员:范艳艳李源
申请(专利权)人:成都睿码科技有限责任公司杭州数峰科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1