【技术实现步骤摘要】
一种面向网络新闻报道的大事记自动生成方法
本专利技术涉及信息
,具体涉及一种面向网络新闻报道的大事记自动生成方法。
技术介绍
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体,被广泛应用在各大领域。作为一种公务文书,大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此,它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料;其次,大事记具有史料价值,可以起到录以备查的作用,通过事件的时空关系的串联,可以对该企业或部门有更系统的了解;此外,互联网用户亦可通过关键字搜索了解特定机构大事记,从而快速的了解该企业或部门。大事记构建的关键在于事件重要度的度量和时间线的生成,其主要步骤包括:(1)收集某一时间区间企业或部门发生的众多事件;(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件;(3)最后按时间的先后顺序将这些事件串联起来。然而,大事记生成大多采用人工收集和整理的方式,到目前为止,尚未发现采用机器学习技术自动生成大事记的方案。企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法,该方法的缺陷为:方案需由专门的机构和个人来收集整理相关材料,耗费人才和物力;材料在收集整理过程中,带有一定的主观性;大事记的构建不够灵活,如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于Internet上现有的一些知识平台,如百度百科,维基百科等。这些平台的大事记大多采用众包方式来生成,该方法的缺陷 ...
【技术保护点】
1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
【技术特征摘要】
1.一种面向网络新闻报道的大事记自动生成方法,其特征在于,包括以下步骤:S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词,得到语料词典中的词条;S2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类,并得到相应的新闻簇Ci;S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度,并根据重要度得到重要新闻簇;S6、计算每个重要新闻簇的标准时间戳;S7、计算每个重要新闻簇的代表事件;S8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S2具体包括以下步骤:S21、去除语料词典的停用词;S22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;S23、选择词频-倒排文档频率值较大的50个词条到特征词集合:terms={term1,...,term50}(1)在公式(1)中,terms为特征词集合,term1,...,term50均为词条;S24、采用向量空间模型表示每篇新闻报道:doci=(tfidfi,1,...,tfidfi,50)(2)在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法,其特征在于,所述步骤S5具体包括以下步骤:S51、统计新闻簇Ci中的新闻报道数量Count(Ci),归一化后得到其报道量得分,计算公式为:在公式(3)中,RptScore(Ci)为新闻簇Ci的报道量得分,|D|为数据集中新闻报道总数;S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci),归一化后得到其报道转发量得分,计算公式为:在公式(4)中,FwdScore(Ci)为新闻簇Ci的报道转发量得分,为所有新闻簇的报道转发量得分之和;S53、计算新闻报道数据集D中各个不...
【专利技术属性】
技术研发人员:孙锐,张宏毅,张本康,赵晗嫣,汤仁蓓,
申请(专利权)人:乐山师范学院,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。