从文本流检测事件的方法和设备技术

技术编号：7628583 阅读：200 留言：0更新日期：2012-08-01 22:20

本发明专利技术公开了一种用于从文本流检测事件的方法和设备。根据本发明专利技术的方法可以包括：对文本流进行实时预处理，以得到文本流中的每个文本的特征向量；针对经过预处理的每个文本，基于所述每个文本的特征向量执行实时在线聚类；以及基于所述实时在线聚类的结果来识别事件。根据本发明专利技术，提供了一种通过对文本流进行实时处理以从文本流中识别事件的技术方案，其具有高度的灵活性、良好的实时性和快速的响应时间。而且根据本发明专利技术的技术方案，在处理过程中无需人为干预，是一种智能化、自适应的解决方案，其尤其适用于互联网中产生的文本流。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息挖掘的
，更特别地涉及用于从文本流来检测事件的方法和系统。
技术介绍
Web 2. O时代的到来，逐渐改变了 Web I. O时代的信息传播方式，用户的角色也发生了改变并被重新定位。通过Web 2. O技术，信息传播的成本变得非常低廉而且效率非常高，用户在互联网上可以获得更大、更好的传播、分享信息的自由。例如，各种社交网络、资源共享网络、各种社区、论坛、博客、微博等都为用户发布各种信息和内容提供了各种各样的途径。因此，在互联网上将存在越来越多由用户创作的内容，即UGC。UGC的大量产生和传播使得短文本计算、Web文本信息抽取、文本情感分析等逐渐成为文本挖掘领域研究的热点问题。同时，这些用户创造的网络内容中也包含着大量的可供挖掘的重要信息。现有技术中，信息挖掘技术主要是基于对文本内容进行离线聚类的解决方案。基于现有技术的解决方案，在线下将待处理的文本内容一次性全部读取到计算机的内存之中，然后采取各种现有的聚类算法对这些文本执行聚类。因此，该方案显然具有较差的实时性。此外，在操作过程中，经过处理得到的文本的特征向量也将全部存入内存中以供随后处理，这占用大量的内存，显然造成了极大的资源浪费。此外，对得到聚类的结果也未做任何处理，因此聚类的可读性很低。然而，在目前的互联网中，UGC的量非常大，而且是源源不断地出现，从而形成了文本流。文本流中的文本的数据量巨大且源源不断这ー特点使得，不可能使用如前所述的离线聚类技术来处理文本流。另外，对这样文本流的处理对实时性要求比较高，其通常要求在很短的响应时间内完成所有处理，而离线聚类技术显然无法满...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：高婷婷，陈冬梁，
申请(专利权)人：北京千橡网景科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人