一种面向网络新闻报道的大事记自动生成方法技术

技术编号:19056788 阅读:144 留言:0更新日期:2018-09-29 12:10
本发明专利技术涉及一种面向网络新闻报道的大事记自动生成方法,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道。大事记的生成无需过多的人工干预,本发明专利技术不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。

【技术实现步骤摘要】
一种面向网络新闻报道的大事记自动生成方法
本专利技术涉及信息
,具体涉及一种面向网络新闻报道的大事记自动生成方法。
技术介绍
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体,被广泛应用在各大领域。作为一种公务文书,大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此,它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料;其次,大事记具有史料价值,可以起到录以备查的作用,通过事件的时空关系的串联,可以对该企业或部门有更系统的了解;此外,互联网用户亦可通过关键字搜索了解特定机构大事记,从而快速的了解该企业或部门。大事记构建的关键在于事件重要度的度量和时间线的生成,其主要步骤包括:(1)收集某一时间区间企业或部门发生的众多事件;(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件;(3)最后按时间的先后顺序将这些事件串联起来。然而,大事记生成大多采用人工收集和整理的方式,到目前为止,尚未发现采用机器学习技术自动生成大事记的方案。企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法,该方法的缺陷为:方案需由专门的机构和个人来收集整理相关材料,耗费人才和物力;材料在收集整理过程中,带有一定的主观性;大事记的构建不够灵活,如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于Internet上现有的一些知识平台,如百度百科,维基百科等。这些平台的大事记大多采用众包方式来生成,该方法的缺陷为:尽管网络众包的方式可以节约人力和物力,但此方案仍属于一种人工收集和整理的方式;整个大事记的构建过程由相关的网络知识平台管理,企业或部门缺乏自主性。
技术实现思路
本专利技术所要解决的技术问题是提供一种面向网络新闻报道的大事记自动生成方法,解决大事记生成过程中收集和整理不便,企业缺乏自主性的问题。本专利技术解决上述技术问题的技术方案如下:一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。本专利技术的有益效果是:在本专利技术中,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道,大事记的生成无需过多的人工干预,本专利技术不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。附图说明图1为本专利技术总流程图;图2为本专利技术步骤S2的具体流程图;图3为本专利技术步骤S5的具体流程图;图4为本专利技术步骤S6的具体流程图;图5为本专利技术步骤S7的具体流程图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。在本专利技术实施例中,步骤S1中网络新闻报道数据集的每篇报道包括标题、正文和报道时间等,使用中文分词工具对每篇报道的标题和正文进行分词。如图2所示,步骤S2具体包括以下步骤:S21、去除语料词典的停用词;S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:terms={term1,...,term50}(1)在公式(1)中,terms为特征词集合,term1,...,term50均为词条;S24、采用向量空间模型表示每篇新闻报道:doci=(tfidfi,1,...,tfidfi,50)(2)在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。在本专利技术实施例中,步骤S4的具体步骤为:构建新闻报道数据集的相似度矩阵,采用APCluster的无参聚类方法对数据进行文本聚类,得到相应的新闻簇。如图3所示,所述步骤S5具体包括以下步骤:S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,为所有新闻簇的报道转发量得分之和;S53、计算新闻报道数据集D中各个不同报道来源sitei的重要度,计算公式为:在公式(5)中,siteScore(sitei)为报道来源sitei的重要度,{doc:doc∈sitei}为来源于sitei的新闻报道数量;S54、统计新闻簇Ci中的报道来源sitei的重要度siteScore(sitei),归一化后得到其报道来源重要度得分,计算公式为:在公式(6)中,SrcScore(Ci)为报道来源重要度得分,为新闻簇Ci中不同报道来源sitei的重要度得分之和,为数据集D中不同报道来源sitej的重要度得分之和;S55、根据新闻簇Ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇Ci的重要度,计算公式为:Salience(Ci)=α×RptScore(Ci)+β×FwdScore(Ci)+γ×SrcScore(Ci)(7)在公式(7)中,Salience(Ci)为新闻簇Ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定(搜索步长为0.1);S56、按新闻簇Ci的重要本文档来自技高网
...

【技术保护点】
1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。

【技术特征摘要】
1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S2具体包括以下步骤:S21、去除语料词典的停用词;S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:terms={term1,...,term50}(1)在公式(1)中,terms为特征词集合,term1,...,term50均为词条;S24、采用向量空间模型表示每篇新闻报道:doci=(tfidfi,1,...,tfidfi,50)(2)在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S5具体包括以下步骤:S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,为所有新闻簇的报道转发量得分之和;S53、计算新闻报道数据集D中各个不...

【专利技术属性】
技术研发人员:孙锐张宏毅张本康赵晗嫣汤仁蓓
申请(专利权)人:乐山师范学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1