一种事件跟踪方法及系统技术方案

技术编号：10332480 阅读：120 留言：0更新日期：2014-08-20 17:59

本发明专利技术提供一种事件跟踪方法及系统，适用于舆情信息处理。所述方法包括获取与事件相关的文档；根据所获取的文档数量确定所述事件的阶段个数；以及根据内容的相似程度对所获取的文档进行聚类，得到与所述事件的每个阶段对应的文档簇，其中文档簇的总数与所述事件的阶段个数相同。本发明专利技术无需人工参与，可以自动地进行事件跟踪并输出结果。与人工整理所耗费的人力和财力相比，节省了成本，并且提高了事件跟踪的效率与准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件跟踪方法及系统
本专利技术涉及网络信息处理
，尤其涉及一种适用于舆情信息系统的事件跟踪方法及系统。
技术介绍
在舆情信息处理过程中，事件跟踪是非常重要的一个环节。现有的事件跟踪方法通常需要大量的人工参与，包括：对大量的文本信息进行搜集，确定某个具体事件下的文档列表；对搜集到的文档列表进行分割，选出事件的各个阶段；以及，按照时间进行排序，以显示一个完整的事件过程。然而，在实际的舆情信息系统中，需要对大量的事件同时进行监控，其往往涉及海量的文本信息，传统的人工参与的方式需要大量的人力和财力。此外，舆情分析人员从搜集数据到制作一个完整的事件跟踪需要较长的周期，容易导致事件跟踪结果的不及时和不全面。因此，当前迫切需要一种事件跟踪方法，其能够自动地对事件进行跟踪，以辅助舆情信息处理，同时提高事件跟踪的效率和准确性，且减少人工进行事件跟踪的成本。
技术实现思路
为解决上述问题，根据本专利技术的一个实施例，提供一种事件跟踪方法，包括：步骤1)、获取与事件相关的文档；步骤2)、根据所获取的文档数量确定所述事件的阶段个数；步骤3)、根据内容的相似程度对所获取的文档进行聚类，得到与所述事件的每个阶段对应的文档簇，其中文档簇的总数与所述事件的阶段个数相同。上述方法中，在步骤2)中根据下式来确定事件的阶段个数：其中，n表示事件的阶段个数，t是所获取的与事件相关的文档的总数，m是预先设定的一个正整数，p是预先设定的将要显示给用户的事件阶段数量。上述方法中，在步骤3)中使用后缀树聚类方法根据内容的相似程度对所获取的文档进行聚类。上述方法中，步骤3)还包括：步骤a)、在每个文...
一种事件跟踪方法及系统

【技术保护点】
一种事件跟踪方法，包括：步骤1)、获取与事件相关的文档；步骤2)、根据所获取的文档数量确定所述事件的阶段个数；步骤3)、根据内容的相似程度对所获取的文档进行聚类，得到与所述事件的每个阶段对应的文档簇，其中文档簇的总数与所述事件的阶段个数相同。

【技术特征摘要】
1.一种事件跟踪方法，包括：步骤1)、获取与事件相关的文档；步骤2)、根据所获取的文档数量确定所述事件的阶段个数；步骤3)、根据内容的相似程度对所获取的文档进行聚类，得到与所述事件的每个阶段对应的文档簇，其中文档簇的总数与所述事件的阶段个数相同；对于每个文档簇，去除发布时间与该文档簇的平均发布时间的差值超过预定阈值的文档，之后再选择该文档簇的代表文档；其中，文档簇的平均发布时间为该文档簇中所有文档的发布时间的平均值；在步骤2)中，根据下式来确定事件的阶段个数：其中，n表示事件的阶段个数，t是所获取的与事件相关的文档的总数，m是预先设定的一个正整数，p是预先设定的将要显示给用户的事件阶段数量；在步骤3)中，选择文档簇的代表文档的方法包括下列子步骤：步骤a)、在每个文档簇中，按照发布时间从新到旧排列文档，选择前k个文档，其中，k为预先设定的正整数；步骤b)、在每个文档簇中，在所选择的k个文档中选取权威度最高的文档作为代表文档，其中，根据下式计算每个文档簇中的每个文档的权威度：Authority＝λ*DomainWeight+log(References)其中，Authority表示文档的权威度，DomainWeight是该文档的URL所属域名的权重，λ是该文档的URL和References的得分占比，References是该文档被其他文档转载的次数。2.根据权利要求1所述的方法，其中m为20。3.根据权利要求1-2中任何一个所述的方法，在步骤3)中，使用后缀树聚类方法根据内容的相似程度对所获取的文档进行聚类。4.根据权利要求1所述的方法，其中，步骤b)之后还包括：步骤c)、按照每个文档簇的代表文档的发布时间依次输出p个代表文档，其中，p是预先设定的将要显示给用户的事件阶段数...

【专利技术属性】
技术研发人员：史忠植，王伟，齐保元，张博，张建华，岳金朋，
申请(专利权)人：中国科学院计算技术研究所，北京联索科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人