本发明专利技术公开了一种用于从文本流检测事件的方法和设备。根据本发明专利技术的方法可以包括:对文本流进行实时预处理,以得到文本流中的每个文本的特征向量;针对经过预处理的每个文本,基于所述每个文本的特征向量执行实时在线聚类;以及基于所述实时在线聚类的结果来识别事件。根据本发明专利技术,提供了一种通过对文本流进行实时处理以从文本流中识别事件的技术方案,其具有高度的灵活性、良好的实时性和快速的响应时间。而且根据本发明专利技术的技术方案,在处理过程中无需人为干预,是一种智能化、自适应的解决方案,其尤其适用于互联网中产生的文本流。
【技术实现步骤摘要】
本专利技术涉及信息 挖掘的
,更特别地涉及用于从文本流来检测事件的方法和系统。
技术介绍
Web 2. O时代的到来,逐渐改变了 Web I. O时代的信息传播方式,用户的角色也发生了改变并被重新定位。通过Web 2. O技术,信息传播的成本变得非常低廉而且效率非常高,用户在互联网上可以获得更大、更好的传播、分享信息的自由。例如,各种社交网络、资源共享网络、各种社区、论坛、博客、微博等都为用户发布各种信息和内容提供了各种各样的途径。因此,在互联网上将存在越来越多由用户创作的内容,即UGC。UGC的大量产生和传播使得短文本计算、Web文本信息抽取、文本情感分析等逐渐成为文本挖掘领域研究的热点问题。同时,这些用户创造的网络内容中也包含着大量的可供挖掘的重要信息。现有技术中,信息挖掘技术主要是基于对文本内容进行离线聚类的解决方案。基于现有技术的解决方案,在线下将待处理的文本内容一次性全部读取到计算机的内存之中,然后采取各种现有的聚类算法对这些文本执行聚类。因此,该方案显然具有较差的实时性。此外,在操作过程中,经过处理得到的文本的特征向量也将全部存入内存中以供随后处理,这占用大量的内存,显然造成了极大的资源浪费。此外,对得到聚类的结果也未做任何处理,因此聚类的可读性很低。然而,在目前的互联网中,UGC的量非常大,而且是源源不断地出现,从而形成了文本流。文本流中的文本的数据量巨大且源源不断这ー特点使得,不可能使用如前所述的离线聚类技术来处理文本流。另外,对这样文本流的处理对实时性要求比较高,其通常要求在很短的响应时间内完成所有处理,而离线聚类技术显然无法满足这ー要求。再者,由于文本流中的文本数量巨大,这对诸如内存等存储设备的要求也非常高,这会引起非常高的成本。正是基于如上原因,现有技术中的聚类方式无法适用于对文本流的处理。为此,本领域存在一种对于文本流进行处理以从中挖掘有用信息的技术方案的需求。
技术实现思路
有鉴于此,本专利技术提供了ー种用于从文本流中检测事件的方法和设备,以克服或者至少部分消除现有技术中存在的缺陷。网络是目前信息传播最快的途径之一。通常,在事件发生后,将会立刻在网络上进行广泛传播。而UGC内容中正包含着这样的大量信息,因此如果能够从UGC中及时地检测事件,则是非常有益的。正是基于这ー设想,本专利技术提出了一种新的技术方案。根据本专利技术的ー个方面,提供了ー种用于从文本流中检测事件的方法。该方法包括对文本流进行实时预处理,以得到文本流中的每个文本的特征向量;针对经过预处理的每个文本,基于所述每个文本的特征向量执行实时在线聚类;以及基于所述实时在线聚类的结果来识别事件。在根据本专利技术的一个实施方式中,对文本流进行实时预处理可以包括对文本流中的每个文本执行切词操作以得到每个文本的特征词,从而形成包括每个文本的特征词的特征词表;以及基于特征词表和每个文本的特征词,来计算每个文本的特征向量。在根据本专利技术的另ー实施方式中,针对已进入内存中的经过预处理的每个文本,基于每个文本的特征向量执行实时在线聚类包括计算经过预处理的每个文本与已有类簇的相似度值;基于计算的 相似度值,对所述每个文本进行归类;以及调整新类簇的中心,以供对下一文本进行实时聚类时使用。根据本专利技术的再ー实施方式中,对文本流进行实时预处理可以进ー步包括提取所述文本流中的每个文本的特征向量的特征值及对应的特征值位置,以仅存储所述特征值及所述对应的特征值位置。根据本专利技术的又ー实施方式中,基于实时在线聚类的结果来识别事件可以包括将聚类所形成的大类簇识别为集中事件;以及将聚类所形成的小类簇或者孤立点识别为新事件。根据本专利技术的另ー实施方式中,该方法可以进一歩包括确定所述实时在线聚类的结果中每个类簇所表示的含义。根据本专利技术的第二方面,提供了ー种用于从文本流中检测事件的设备。该设备包括预处理装置,配置用于对文本流进行实时预处理,以得到文本流中的每个文本的特征向量;在线聚类装置,配置用于针对经过预处理的每个文本,基于所述每个文本的特征向量执行实时在线聚类;以及事件识别装置,配置用于基于所述实时在线聚类的结果来识别事件。根据本专利技术,提供了ー种通过对文本流进行实时处理以从文本流中识别事件的技术方案,其具有高度的灵活性、良好的实时性和快速的响应时间。而且根据本专利技术的技术方案,在处理过程中无需人为干预,是ー种智能化、自适应的解决方案,其尤其适用于互联网中产生的文本流。附图说明通过对结合附图所示出的实施方式进行详细说明,本专利技术的上述以及其他特征将更加明显,本专利技术附图中相同的标号表示相同或相似的部件。在附图中图I示出了根据本专利技术的一个实施方式的用于从文本流检测事件的方法的流程图。图2示出了根据本专利技术的一个实施方式的用于对文本执行实时在线聚类的方法的流程图。图3示出了根据本专利技术的一个实施方式的用于从文本流检测事件的设备的流程图。图4示意性示出了可以实现根据本专利技术的实施方式的计算机设备的结构方框图。具体实施例方式在下文中,将參考附图通过实施方式对本专利技术提供的用于从文本流识别事件的方法和设备进行详细的描述。如图所示,首先,如图I所示,在步骤101对文本流进行实时预处理,以得到文本流中的每个文本的特征向量。来自用户设备的UGC作为文本流源源不断地被发送到网络服务器处。这样的文本流在网络服务器处被接收。然后,可以将其读入内存之中,并对该文本流进行预处理以获取文本流中的每个文本的特征向量。首先,针对文本流中的每个文本逐一地执行切词操作,以便以得到所述每个文本的特征词,从而形成包括所述特征词的特征词表。在实际应用中,网络用户可能采用各种字库来输入文本,例如可能采用繁体中文字体、火星文等异形字体。因此,可以优选地先对文本流中的文本执行文本转换,以便基于相同的字体来执行后续的操作。例如,可以将火星文等异形字体、繁体中文、转换成简体中文。然而,需要说明的是,该操作并非是必要的,这主要是基于以下两方面的原因。一方面,采用非简体中文的用户通常并不多,因此对于文本流中的许多文本的处理并不需要执行前述的文本转换。另ー方面,网络中的UGC的量非常巨大,如若忽略使用非简体中文字体的用户UGC,通常也不会对事件的检测结果产生重大影响。然而,对于以主要使用例如繁体中文等子库为主的地区,可以基于繁体中文执行操作,而且可以将少数字体诸如“简体中文”等转换为繁体中文以便进行操作。接着,可以执行分词操作,将ー条文本分成若干能独立的、具有意义的词、词组或者短语。分词可以基于若干技术来实现,例如可以基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法,这些技术在现有技术中是已知的,此处不再赘述。优选地,在分词操作中可以采用双数组字典树,这样可以得到较高的效率,并且节省内存资源。接着,可以去除停止词等没有实际意义的符号或者词语,以便获得文本中具有实际意义的词。去除停止词可以基于预定义的停止词表。例如,可以将在文本中出现的在停止词表中的词去除。停止词表可以是预先定义的表,并且可以不断地更新。通过前述操作,就可以将文本中没有意义的符号、词语等去除,从而得到具有具体含义的词,即特征词,也可以称作特征项。得到的特征词语可以存储在特征词表中,以供后续使用。该特征词表例如可以ー维数组形式存储,每个数组元素中存储ー个不同本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:高婷婷,陈冬梁,
申请(专利权)人:北京千橡网景科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。