一种事件跟踪方法及系统技术方案

技术编号:10332480 阅读:107 留言:0更新日期:2014-08-20 17:59
本发明专利技术提供一种事件跟踪方法及系统,适用于舆情信息处理。所述方法包括获取与事件相关的文档;根据所获取的文档数量确定所述事件的阶段个数;以及根据内容的相似程度对所获取的文档进行聚类,得到与所述事件的每个阶段对应的文档簇,其中文档簇的总数与所述事件的阶段个数相同。本发明专利技术无需人工参与,可以自动地进行事件跟踪并输出结果。与人工整理所耗费的人力和财力相比,节省了成本,并且提高了事件跟踪的效率与准确度。

【技术实现步骤摘要】
一种事件跟踪方法及系统
本专利技术涉及网络信息处理
,尤其涉及一种适用于舆情信息系统的事件跟踪方法及系统。
技术介绍
在舆情信息处理过程中,事件跟踪是非常重要的一个环节。现有的事件跟踪方法通常需要大量的人工参与,包括:对大量的文本信息进行搜集,确定某个具体事件下的文档列表;对搜集到的文档列表进行分割,选出事件的各个阶段;以及,按照时间进行排序,以显示一个完整的事件过程。然而,在实际的舆情信息系统中,需要对大量的事件同时进行监控,其往往涉及海量的文本信息,传统的人工参与的方式需要大量的人力和财力。此外,舆情分析人员从搜集数据到制作一个完整的事件跟踪需要较长的周期,容易导致事件跟踪结果的不及时和不全面。因此,当前迫切需要一种事件跟踪方法,其能够自动地对事件进行跟踪,以辅助舆情信息处理,同时提高事件跟踪的效率和准确性,且减少人工进行事件跟踪的成本。
技术实现思路
为解决上述问题,根据本专利技术的一个实施例,提供一种事件跟踪方法,包括:步骤1)、获取与事件相关的文档;步骤2)、根据所获取的文档数量确定所述事件的阶段个数;步骤3)、根据内容的相似程度对所获取的文档进行聚类,得到与所述事件的每个阶段对应的文档簇,其中文档簇的总数与所述事件的阶段个数相同。上述方法中,在步骤2)中根据下式来确定事件的阶段个数:其中,n表示事件的阶段个数,t是所获取的与事件相关的文档的总数,m是预先设定的一个正整数,p是预先设定的将要显示给用户的事件阶段数量。上述方法中,在步骤3)中使用后缀树聚类方法根据内容的相似程度对所获取的文档进行聚类。上述方法中,步骤3)还包括:步骤a)、在每个文档簇中,按照发布时间从新到旧排列文档,选择前k个文档,其中,k为预先设定的正整数;步骤b)、在每个文档簇中,在所选择的k个文档中选取权威度最高的文档作为代表文档,其中,根据下式计算每个文档簇中的每个文档的权威度:Authority=λ*DomainWeight+log(References)其中,Authority表示文档的权威度,DomainWeight是该文档的URL所属域名的权重,λ是该文档的URL和References的得分占比,References是该文档被其他文档转载的次数。上述方法中,步骤3)还包括:对于每个文档簇,在选择其代表文档之前,去除发布时间与该文档簇的平均发布时间的差值超过预定阈值的文档,其中,文档簇的平均发布时间为该文档簇中所有文档的发布时间的平均值。上述方法中,步骤b)之后还包括:步骤c)、按照每个文档簇的代表文档的发布时间依次输出p个代表文档,其中,p是预先设定的将要显示给用户的事件阶段数量。上述方法中,步骤1)包括:检索舆情信息系统中的内部资源或者外部网络资源,得到与事件相关的文档。上述方法中,步骤1)还包括:去除所获取的文档中的无效字符、标签以及停用词。上述方法中,所述文档的内容包括文档标题或者文档正文。根据本专利技术的一个实施例,还提供一种事件跟踪系统,包括:检索设备,用于获取与事件相关的文档;阶段计算设备,用于根据所获取的文档数量确定所述事件的阶段个数;以及聚类设备,用于根据内容的相似程度对所获取的文档进行聚类,得到与所述事件的每个阶段对应的文档簇,其中文档簇的总数与所述事件的阶段个数相同。本专利技术的技术效果在于:无需人工参与,可以自动地搜索与事件相关的文档并对文档进行聚类,在每个文档簇中选取代表文档,以及以列表的形式展示事件跟踪结果。与人工整理所耗费的人力和财力相比,节省了成本,并且提高了事件跟踪的效率与准确度。附图说明以下附图仅旨在对本专利技术做示意性说明和解释,并不限定本专利技术的范围:图1是根据本专利技术实施例的事件跟踪方法的流程图;图2是根据本专利技术实施例的对示例文档D1、D2和D3构建的后缀树的示意图;以及图3是根据本专利技术实施例的事件跟踪的规范化输出的示意图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。根据本专利技术的一个实施例,提供一种事件跟踪方法。简要而言,该方法包括:数据采集、数据预处理、事件阶段数的确定、文档聚类、代表文档的选取以及规范化输出。现参考图1,详细描述本专利技术提供的事件跟踪方法的各个步骤。第一步:数据采集要跟踪某一事件,首先可以通过网络来获取与该事件相关的所有文档,即数据采集。在一个实施例中,获取与事件相关的所有文档包括:根据用户的查询语句,在内部资源或者外部资源上进行检索,从检索结果得到与事件相关的文档。其中,内部资源可以是舆情信息系统中的内部资源,而外部资源例如可以是微博、搜索引擎等网络资源;用户的查询语句可包括与要跟踪的事件有关的关键词、连接符、时间段、以及其他的限定信息。在一个实施例中,可以采用基于SQL的查询、基于文件索引的检索等方式来检索舆情信息系统中的内部资源;在一个实施例中,可以采用公开的API来检索微博、搜索引擎等外部网络资源。在进行数据采集后,可得到由多个相关文档构成的文档列表,列表中的每篇文档可包括标题、正文、时间戳、URL等信息。应理解,可以采用各种数据结构来表示每篇文档,例如,可采用以下形式进行表示:Document={Id,Title,Content,Timestamp,URL,References}其中,Id为该文档的唯一编号,Title为文档的标题,Content为文档的正文,Timestamp为文档的发布时间(下文中也称作文档的时间戳),URL为文档的地址,References为文档被其他文档转载的总次数。对于微博信息来说,该微博的内容可以作为标题或者正文,而References可以是该微博的转载数。第二步:数据预处理预处理的目的在于将第一步中得到的所有文档中的文本信息进行转化,使其更有利于后续处理。在一个实施例中,数据预处理包括去除文本中的无效字符(例如空白字符)、HTML标签以及用户自定义的停用词等。其中,空白字符包括连续的空格、TAB符和换行符等。HTML标签包括TABLE、BODY等修饰符,停用词包括“的”、“分享自”、“我在”等词条。在一个实施例中,用户可以预先定义停用词表,便于用户随时对影响文本内容的词汇进行过滤与清除。如本领域技术人员所公知的,可以使用正则表达式对文档进行预处理,即通过预先设定的模式匹配原则,对文档中的文本进行直接转化。第三步:确定事件的阶段数对于不同的事件,使用以上步骤获得的文档数量可能不同,不同数量的文档所划分的阶段个数可以不同。事件的阶段个数与获取的相关文档数量有关,在一个实施例中,可采用如下公式来确定每个事件对应文档的阶段划分个数(即事件的阶段数):其中,t是一个事件对应的所有文档的数量,p是用户设定的要显示的事件的阶段个数,m是预先设定的一个正整数,其表示m篇文档就可以生成事件的一个阶段,其可以是一个经验值。经过多次试验发现,当m=20时效果最好。第四步:对文档进行聚类采用上一步确定的阶段数作为类别个数(即聚类后形成的文档簇的数量),将与事件相关的文档按照文档内容相似度进行聚类。可采用现有的各种聚类方式对文档进行聚类,在一个优选的实施例中,将与事件相关的所有文档进行后缀树聚类。后缀树聚类是一种基于后缀树的聚类方法,具有聚类速度快、结果解释性好等优点。其基本原理是通过构建后缀本文档来自技高网...
一种事件跟踪方法及系统

【技术保护点】
一种事件跟踪方法,包括:步骤1)、获取与事件相关的文档;步骤2)、根据所获取的文档数量确定所述事件的阶段个数;步骤3)、根据内容的相似程度对所获取的文档进行聚类,得到与所述事件的每个阶段对应的文档簇,其中文档簇的总数与所述事件的阶段个数相同。

【技术特征摘要】
1.一种事件跟踪方法,包括:步骤1)、获取与事件相关的文档;步骤2)、根据所获取的文档数量确定所述事件的阶段个数;步骤3)、根据内容的相似程度对所获取的文档进行聚类,得到与所述事件的每个阶段对应的文档簇,其中文档簇的总数与所述事件的阶段个数相同;对于每个文档簇,去除发布时间与该文档簇的平均发布时间的差值超过预定阈值的文档,之后再选择该文档簇的代表文档;其中,文档簇的平均发布时间为该文档簇中所有文档的发布时间的平均值;在步骤2)中,根据下式来确定事件的阶段个数:其中,n表示事件的阶段个数,t是所获取的与事件相关的文档的总数,m是预先设定的一个正整数,p是预先设定的将要显示给用户的事件阶段数量;在步骤3)中,选择文档簇的代表文档的方法包括下列子步骤:步骤a)、在每个文档簇中,按照发布时间从新到旧排列文档,选择前k个文档,其中,k为预先设定的正整数;步骤b)、在每个文档簇中,在所选择的k个文档中选取权威度最高的文档作为代表文档,其中,根据下式计算每个文档簇中的每个文档的权威度:Authority=λ*DomainWeight+log(References)其中,Authority表示文档的权威度,DomainWeight是该文档的URL所属域名的权重,λ是该文档的URL和References的得分占比,References是该文档被其他文档转载的次数。2.根据权利要求1所述的方法,其中m为20。3.根据权利要求1-2中任何一个所述的方法,在步骤3)中,使用后缀树聚类方法根据内容的相似程度对所获取的文档进行聚类。4.根据权利要求1所述的方法,其中,步骤b)之后还包括:步骤c)、按照每个文档簇的代表文档的发布时间依次输出p个代表文档,其中,p是预先设定的将要显示给用户的事件阶段数...

【专利技术属性】
技术研发人员:史忠植王伟齐保元张博张建华岳金朋
申请(专利权)人:中国科学院计算技术研究所北京联索科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1