【技术实现步骤摘要】
本专利技术属于智能信息处理
,具体涉及一种自动计算互联网上 主题演化趋势的方法及系统。
技术介绍
随着互联网上文本信息的爆炸性增长,人们越来越难以从海量文本信息中及时获得感兴趣的主题(事件)信息。主题检测技术(Topic Detection,也可以 称为话题4企测技术,事件;险测技术)致力于实时地从海量文本中自动检测到主 题,将主题信息提供给用户,用户通过浏览主题就能了解海量文本的重要内容。 根据国际主题检测与追踪小组的定义(参见美国国家标准技术局拟定的 The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan, version 1.1, http:〃www.nistgov/speech/tests/tdt/),主题由一系列直接相关的 事件或活动组成,事件则是在特定期间特定地点发生的事情。例如2006年10 月份朝鲜核试验这个主题可以包括朝鲜核试验活动,世界各国的反应以及联 合国对朝鲜的制裁等相关报道。在应用中可以根据用户的需求利用阈值调整的 方法对主题的概念进行延伸或缩小。 一般不对主题和事件加以明确区分,两者 相互通用。目前的主题检测算法主要是对文本聚类算法的改进和延伸,检测的目的就 是要按照文本表达的主题将其进行聚类。在线增量式聚类算法(INCR)是在线主 题才全观'j的一种;克4亍算法,参见文章Topic detection and tracking pilot study: final report(作者为J. Allan等,发表 ...
【技术保护点】
一种自动计算互联网上主题演化趋势的方法,包括以下步骤:(1)采集互联网文本信息并对其进行预处理;(2)检测主题事件,并对主题进行淘汰和排序;(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与该主题相关的主题;(4)根据给定的时间范围取出主题信息,得出主题演化趋势。
【技术特征摘要】
1. 一种自动计算互联网上主题演化趋势的方法,包括以下步骤(1)采集互联网文本信息并对其进行预处理;(2)检测主题事件,并对主题进行淘汰和排序;(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与该主题相关的主题;(4)根据给定的时间范围取出主题信息,得出主题演化趋势。2、 如权利要求1所述的自动计算互联网上主题演化趋势的方法,其特 征在于,步骤(1)的具体实现方法为2.1利用网页采集工具对互联上的文本信息进行实时采集,所述文本信 息包括但不限于新闻文本、论坛文本、博客文本;2.2对采集的信息进行预处理,包括HTML标记过滤以及正文提取、时 间提取,具体包括去除文本中的HTML标记、广告、导航条等无关信息,提取所需的文 本内容及时间标记,即文本的发表时间,如无法得到文本的发表时间,由 网页的更新时间替代。3、 如权利要求l或2所述的自动计算互联网上主题演化趋势的方法, 其特征在于,步骤(3)具体包括以下步骤3.1提取前一时间段内的主题信息,时间段由系统设定,可以是数个小 时以前或者一天;3.2对当前时间段内任一主题进行计算,得到与该主题相同的主题以及 与该主题相关的主题;3.3保存当前时间段内主题信息以及每一主题相应的相同主题标识和相 关主题标识。4、 如权利要求3所述的自动计算互联网上主题演化趋势的方法,其特 征在于,步骤3.2为给定主题获得相同主题和相关主题,其中相同主题指在内容上基本一致的主题,相关主题则是指内容有关联的主题,包括以下步骤 1分别计算给定主题与前一时间段内所有主题的相似度值; 4.2对相似度值从大到小排序,并按以下原则确定相关主题A:如果最大的相似度值大于或等于设定的相同主题阈值tsamet。pic,那么对应的主题为给定主题的相同主题;对于排序列表中从第2个开始的后续k 个值逐一进行如下判断如果相似度值大于或等于设定的相关主题阈值trelevent。pie,那么对应的主题为给定主题的相关主题,其中 0<treleventopic<tsametopic<l , k为正整^1,B:如果最大的相似度值小于设定的相同主题阈值tsamet。pic^么给定主题 没有相同主题;对于排序表中从第1个开始的后续k个值逐一进行与上一 步骤类似的判断,确定给定主题的相关主题。5、如权利要求4所述的自动计算互联网上主题演化趋势的方法,其特征 在于,步骤4.1计算给定主题与前一时间段内所有主题的相似度值时,可采用 余弦公式进行计算,也可采用Jaccard公式、Dice公式等主流相似度计算公式进行计算,其中利用余弦公式计算主题Ci和Cj之间的相似度值时,首先以中心向量5i与5j表示主...
【专利技术属性】
技术研发人员:万小军,冯涛,黄小江,杨霙,杨建武,吴於茜,路斌,
申请(专利权)人:北大方正集团有限公司,北京大学,北京北大方正技术研究院有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。