一种面向网络新闻报道的大事记自动生成方法技术

技术编号：19056788 阅读：165 留言：0更新日期：2018-09-29 12:10

本发明专利技术涉及一种面向网络新闻报道的大事记自动生成方法，采用机器学习的技术自动生成企业或部门在指定时间区间的大事记，数据可以是企业或部门现有的数据集，也可从网络中爬取与企业或部门相关的新闻报道。大事记的生成无需过多的人工干预，本发明专利技术不仅可以节省大量的人力和物力，同时数据驱动的方式可以使得大事记的生成效率高，且可以支持各种不同的时间粒度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向网络新闻报道的大事记自动生成方法
本专利技术涉及信息
，具体涉及一种面向网络新闻报道的大事记自动生成方法。
技术介绍
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体，被广泛应用在各大领域。作为一种公务文书，大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此，它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料；其次，大事记具有史料价值，可以起到录以备查的作用，通过事件的时空关系的串联，可以对该企业或部门有更系统的了解；此外，互联网用户亦可通过关键字搜索了解特定机构大事记，从而快速的了解该企业或部门。大事记构建的关键在于事件重要度的度量和时间线的生成，其主要步骤包括：(1)收集某一时间区间企业或部门发生的众多事件；(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件；(3)最后按时间的先后顺序将这些事件串联起来。然而，大事记生成大多采用人工收集和整理的方式，到目前为止，尚未发现采用机器学习技术自动生成大事记的方案。企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法，该方法的缺陷为：方案需由专门的机构和个人来收集整理相关材料，耗费人才和物力；材料在收集整理过程中，带有一定的主观性；大事记的构建不够灵活，如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于Internet上现有的一些知识平台，如百度百科，维基百科等。这些平台的大事记大多采用众包方式来生成，该方法的缺陷...

【技术保护点】
1.一种面向网络新闻报道的大事记自动生成方法，其特征在于，包括以下步骤：S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词，得到语料词典中的词条；S2、计算语料词典中每个词条w的词频－倒排文档频率值，并根据该频率值进行特征词选择，采用向量空间模型表示每篇新闻报道；S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度；S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类，并得到相应的新闻簇Ci；S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度，并根据重要度得到重要新闻簇；S6、计算每个重要新闻簇的标准时间戳；S7、计算每个重要新闻簇的代表事件；S8、将所有重要新闻簇按标准时间戳排序后，将每个重要新闻簇的标准时间和代表事件串接生成大事记。

【技术特征摘要】
1.一种面向网络新闻报道的大事记自动生成方法，其特征在于，包括以下步骤：S1、利用分词工具对网络新闻报道数据集D中每篇报道的标题和正文进行分词，得到语料词典中的词条；S2、计算语料词典中每个词条w的词频－倒排文档频率值，并根据该频率值进行特征词选择，采用向量空间模型表示每篇新闻报道；S3、基于空间向量模型计算任意两篇新闻报道的余弦相似度；S4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集D进行文本聚类，并得到相应的新闻簇Ci；S5、根据新闻簇Ci的重要度评估模型计算每个新闻簇Ci的重要度，并根据重要度得到重要新闻簇；S6、计算每个重要新闻簇的标准时间戳；S7、计算每个重要新闻簇的代表事件；S8、将所有重要新闻簇按标准时间戳排序后，将每个重要新闻簇的标准时间和代表事件串接生成大事记。2.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法，其特征在于，所述步骤S2具体包括以下步骤：S21、去除语料词典的停用词；S22、计算语料词典中每个词条w的词频－倒排文档频率值，并按词频－倒排文档频率值对词条w排序；S23、选择词频－倒排文档频率值较大的50个词条到特征词集合：terms＝{term1,...,term50}(1)在公式(1)中，terms为特征词集合，term1,...,term50均为词条；S24、采用向量空间模型表示每篇新闻报道：doci＝(tfidfi,1,...,tfidfi,50)(2)在公式(2)中，doci为第i篇新闻报道的向量空间模型，tfidfi,1,...,tfidfi,50为对应特征词terms的词频－倒排文档频率值。3.根据权利要求1所述的面向网络新闻报道的大事记自动生成方法，其特征在于，所述步骤S5具体包括以下步骤：S51、统计新闻簇Ci中的新闻报道数量Count(Ci)，归一化后得到其报道量得分，计算公式为：在公式(3)中，RptScore(Ci)为新闻簇Ci的报道量得分，|D|为数据集中新闻报道总数；S52、统计新闻簇Ci中的报道转发数量FwdCount(Ci)，归一化后得到其报道转发量得分，计算公式为：在公式(4)中，FwdScore(Ci)为新闻簇Ci的报道转发量得分，为所有新闻簇的报道转发量得分之和；S53、计算新闻报道数据集D中各个不...

【专利技术属性】
技术研发人员：孙锐，张宏毅，张本康，赵晗嫣，汤仁蓓，
申请(专利权)人：乐山师范学院，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人