一种自动计算互联网上主题演化趋势的方法及系统技术方案

技术编号：2827193 阅读：259 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题（或事件），给出主题包含的文档信息。事实上，每个主题随着时间的变化而不断变化，主题在时间维度上不断演化。本发明专利技术以现有主题检测系统为基础，定期计算当前时间段内主题与前一时间段内主题之间的关系，并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系，在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明专利技术所述的方法，能够给用户提供更加立体的主题分析结果，加深用户对主题的理解和认识，从而辅助用户决策。本方法可广泛应用于智能信息处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于智能信息处理
，具体涉及一种自动计算互联网上主题演化趋势的方法及系统。
技术介绍
随着互联网上文本信息的爆炸性增长，人们越来越难以从海量文本信息中及时获得感兴趣的主题(事件)信息。主题检测技术(Topic Detection,也可以称为话题4企测技术，事件;险测技术)致力于实时地从海量文本中自动检测到主题，将主题信息提供给用户，用户通过浏览主题就能了解海量文本的重要内容。根据国际主题检测与追踪小组的定义(参见美国国家标准技术局拟定的 The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan, version 1.1， http:〃www.nistgov/speech/tests/tdt/),主题由一系列直接相关的事件或活动组成，事件则是在特定期间特定地点发生的事情。例如2006年10 月份朝鲜核试验这个主题可以包括朝鲜核试验活动，世界各国的反应以及联合国对朝鲜的制裁等相关报道。在应用中可以根据用户的需求利用阈值调整的方法对主题的概念进行延伸或缩小。一般不对主题和事件加以明确区分，两者相互通用。目前的主题检测算法主要是对文本聚类算法的改进和延伸，检测的目的就是要按照文本表达的主题将其进行聚类。在线增量式聚类算法(INCR)是在线主题才全观'j的一种;克4亍算法,参见文章Topic detection and tracking pilot study: final report(作者为J. Allan等，发表...

【技术保护点】
一种自动计算互联网上主题演化趋势的方法，包括以下步骤：（１）采集互联网文本信息并对其进行预处理；（２）检测主题事件，并对主题进行淘汰和排序；（３）定期计算当前时间段内主题与前一时间段内主题之间的主题关系，得到与当前时间段内每个主题相同的主题以及与该主题相关的主题；（４）根据给定的时间范围取出主题信息，得出主题演化趋势。

【技术特征摘要】
1. 一种自动计算互联网上主题演化趋势的方法，包括以下步骤(1)采集互联网文本信息并对其进行预处理；(2)检测主题事件，并对主题进行淘汰和排序；(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系，得到与当前时间段内每个主题相同的主题以及与该主题相关的主题；(4)根据给定的时间范围取出主题信息，得出主题演化趋势。2、如权利要求1所述的自动计算互联网上主题演化趋势的方法，其特征在于，步骤(1)的具体实现方法为2.1利用网页采集工具对互联上的文本信息进行实时采集，所述文本信息包括但不限于新闻文本、论坛文本、博客文本；2.2对采集的信息进行预处理，包括HTML标记过滤以及正文提取、时间提取，具体包括去除文本中的HTML标记、广告、导航条等无关信息，提取所需的文本内容及时间标记，即文本的发表时间，如无法得到文本的发表时间，由网页的更新时间替代。3、如权利要求l或2所述的自动计算互联网上主题演化趋势的方法，其特征在于，步骤(3)具体包括以下步骤3.1提取前一时间段内的主题信息，时间段由系统设定，可以是数个小时以前或者一天；3.2对当前时间段内任一主题进行计算，得到与该主题相同的主题以及与该主题相关的主题；3.3保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识。4、如权利要求3所述的自动计算互联网上主题演化趋势的方法，其特征在于，步骤3.2为给定主题获得相同主题和相关主题，其中相同主题指在内容上基本一致的主题，相关主题则是指内容有关联的主题，包括以下步骤 1分别计算给定主题与前一时间段内所有主题的相似度值； 4.2对相似度值从大到小排序，并按以下原则确定相关主题A:如果最大的相似度值大于或等于设定的相同主题阈值tsamet。pic，那么对应的主题为给定主题的相同主题；对于排序列表中从第2个开始的后续k 个值逐一进行如下判断如果相似度值大于或等于设定的相关主题阈值trelevent。pie,那么对应的主题为给定主题的相关主题，其中 0<treleventopic<tsametopic<l ， k为正整^1，B:如果最大的相似度值小于设定的相同主题阈值tsamet。pic^么给定主题没有相同主题；对于排序表中从第1个开始的后续k个值逐一进行与上一步骤类似的判断，确定给定主题的相关主题。5、如权利要求4所述的自动计算互联网上主题演化趋势的方法，其特征在于，步骤4.1计算给定主题与前一时间段内所有主题的相似度值时，可采用余弦公式进行计算，也可采用Jaccard公式、Dice公式等主流相似度计算公式进行计算，其中利用余弦公式计算主题Ci和Cj之间的相似度值时，首先以中心向量5i与5j表示主...

【专利技术属性】
技术研发人员：万小军，冯涛，黄小江，杨霙，杨建武，吴於茜，路斌，
申请(专利权)人：北大方正集团有限公司，北京大学，北京北大方正技术研究院有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人