一种自动计算互联网上主题演化趋势的方法及系统技术方案

技术编号:2827193 阅读:249 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明专利技术以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明专利技术所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。

【技术实现步骤摘要】

本专利技术属于智能信息处理
,具体涉及一种自动计算互联网上 主题演化趋势的方法及系统。
技术介绍
随着互联网上文本信息的爆炸性增长,人们越来越难以从海量文本信息中及时获得感兴趣的主题(事件)信息。主题检测技术(Topic Detection,也可以 称为话题4企测技术,事件;险测技术)致力于实时地从海量文本中自动检测到主 题,将主题信息提供给用户,用户通过浏览主题就能了解海量文本的重要内容。 根据国际主题检测与追踪小组的定义(参见美国国家标准技术局拟定的 The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan, version 1.1, http:〃www.nistgov/speech/tests/tdt/),主题由一系列直接相关的 事件或活动组成,事件则是在特定期间特定地点发生的事情。例如2006年10 月份朝鲜核试验这个主题可以包括朝鲜核试验活动,世界各国的反应以及联 合国对朝鲜的制裁等相关报道。在应用中可以根据用户的需求利用阈值调整的 方法对主题的概念进行延伸或缩小。 一般不对主题和事件加以明确区分,两者 相互通用。目前的主题检测算法主要是对文本聚类算法的改进和延伸,检测的目的就 是要按照文本表达的主题将其进行聚类。在线增量式聚类算法(INCR)是在线主 题才全观'j的一种;克4亍算法,参见文章Topic detection and tracking pilot study: final report(作者为J. Allan等,发表于1998年出版的论文集Proceedings of DARPA Broadcast News Transcription and Understanding Workshop )和文章A study on retrospective and on-line event detection(作者为Y. Yang, T.Pierce和J. Carbonell,发表于1998年出版的论文集Proceedings of ACM SIGIR )。该算法将当前文档 分别与已经形成的主题类簇进行相似性比较。如果与某个主题类簇足够相似 (与所有主题的最大相似度值大于设定的茱个阈值),那么将该文档加入该主 题类簇中。如果没有找到足够相似的主题类簇(与所有主题的最大相似度值小 于设定的某个阈值),那么以该文档为基础创建一个新的主题类簇。文档与主 题类簇之间的相似度一般通过标准的余弦相似度公式进行计算,其中文本特征 的表示通常釆用词,词的权重为TF.IDF , TF为词频,IDF为词的倒排索引频 率。针对以上增量式聚类算法,有不少研究单位提出了改进。文章Topic detection, a new application for lexical chaining (作者RHatch, N. Strokes和 J.Carthy,发表于2000年出版的论文集British Computer Society IRSG2000 ) 利用基于时间的选择模型,这种模型考虑到一个新闻主题的发展过程通常很 快,之后该主题将会被其他新主题所取代,因此仅将当前新闻文档和以前若干 个最近更新过的主题类簇进行比较,这种方法也是一种时间加窗处理。卡内基 梅隆大学在算法中采用了 一种自适应的IDF计算方法,利用动态变化的与主题 相关的IDF值改进主题才t测结果,参见文章A study on retrospective and on-line event detection (作者为Y. Yang, T.Pierce和J. Carbonell,发表于1998年出版的 论文集Proceedings of ACM SIGIR )和文章Learning approaches for detecting and tracking news events (作者为Y. Yang等人,发表于1999年出版的论文集IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval)。 IBM则提出了一种不同的主题类簇采用不同的IDF值的方法,对 于某个主题类簇中出现的词的IDF值随着文档的变化不断调整,参见文章Story segmentation and topic detection in the broadcast news domain (作者 S.Dharanipragada等,发表于1999年出版的论文集Proceedings of the DARPA Broadcast News Workshop )。除了对IDF值计算方法的改进之外,主题的演化 也要求阈值随之动态调整。马萨诸塞州立大学提出了基于时间的阈值模型,该模型利用线性函数调整聚类阈值,使得在时间上距离某个主题越远的新闻报道越乂,力口入i亥主题,参见文章On-line new event detection and tracking ( 4乍者J. Allan, R. Papka和V. Lavrenko,发表于1998年出版的论文集Proceedings of ACMSIGIR)。此外,还有人将机器学习的最新成果应用于主题检测,取得了 较好的结果,在此不——列举。由于互联网上的文本信息具有很强的时效性,其反映的主题随着时间在不 断发展变化,可能分裂为多个主题,或者和其它的相关主题合并成一个更大的 主题,也可能在某一个时间点消亡。比如朝鲜核试验这个主题在不同时间点具 有不同的内容,其演化趋势可能为核试验活动-各国谴责-联合国制裁-朝鲜拒 绝制裁等,同时朝鲜核试验这个主题也与朝核问题六方会谈等主题有密切关 联。为了分析主题的演化趋势,文章Event threading wkhin news topics (作者 为R. Nallapati等,发表于2004年出版的论文集Proceedings of ACM CIKM) 尝试对属于同一主题的文档进行分析,检测到多个子事件以及它们之间的依赖 关系,然而这种方式无法在时间维上分析主题的演化趋势。文章Discovering evolutionary theme patterns from text-an exploration of temporal text mining ((乍者 为Q. Mei和C. Zhai,发表于2005年出版的论文集Proceedings of ACM SIGKDD)利用概率模型检测文本主题以及发现主题之间的关系,该方法需要 大量的训练文档集,训练过程比较慢。实际应用中对主题的检测以及主题演化趋势的分析都要求实时进行,其难 点在于处理的文档数据量很大,文档数据类型复杂,包括新闻,论坛,博客等 形式的文本。以上方法都基于特定的前提假设,只能对少量的实验数据进行一 定的分析与挖掘,无法满足实际应用的需求。
技术实现思路
针对现有主题^:测系统无法分析计算主题演化趋势的缺陷,本专利技术的目的 是通过实时计算不同时间4殳内主题之间的相似性关系从而分析出主题随时间的演化趋本文档来自技高网
...

【技术保护点】
一种自动计算互联网上主题演化趋势的方法,包括以下步骤:(1)采集互联网文本信息并对其进行预处理;(2)检测主题事件,并对主题进行淘汰和排序;(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与该主题相关的主题;(4)根据给定的时间范围取出主题信息,得出主题演化趋势。

【技术特征摘要】
1. 一种自动计算互联网上主题演化趋势的方法,包括以下步骤(1)采集互联网文本信息并对其进行预处理;(2)检测主题事件,并对主题进行淘汰和排序;(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与该主题相关的主题;(4)根据给定的时间范围取出主题信息,得出主题演化趋势。2、 如权利要求1所述的自动计算互联网上主题演化趋势的方法,其特 征在于,步骤(1)的具体实现方法为2.1利用网页采集工具对互联上的文本信息进行实时采集,所述文本信 息包括但不限于新闻文本、论坛文本、博客文本;2.2对采集的信息进行预处理,包括HTML标记过滤以及正文提取、时 间提取,具体包括去除文本中的HTML标记、广告、导航条等无关信息,提取所需的文 本内容及时间标记,即文本的发表时间,如无法得到文本的发表时间,由 网页的更新时间替代。3、 如权利要求l或2所述的自动计算互联网上主题演化趋势的方法, 其特征在于,步骤(3)具体包括以下步骤3.1提取前一时间段内的主题信息,时间段由系统设定,可以是数个小 时以前或者一天;3.2对当前时间段内任一主题进行计算,得到与该主题相同的主题以及 与该主题相关的主题;3.3保存当前时间段内主题信息以及每一主题相应的相同主题标识和相 关主题标识。4、 如权利要求3所述的自动计算互联网上主题演化趋势的方法,其特 征在于,步骤3.2为给定主题获得相同主题和相关主题,其中相同主题指在内容上基本一致的主题,相关主题则是指内容有关联的主题,包括以下步骤 1分别计算给定主题与前一时间段内所有主题的相似度值; 4.2对相似度值从大到小排序,并按以下原则确定相关主题A:如果最大的相似度值大于或等于设定的相同主题阈值tsamet。pic,那么对应的主题为给定主题的相同主题;对于排序列表中从第2个开始的后续k 个值逐一进行如下判断如果相似度值大于或等于设定的相关主题阈值trelevent。pie,那么对应的主题为给定主题的相关主题,其中 0<treleventopic<tsametopic<l , k为正整^1,B:如果最大的相似度值小于设定的相同主题阈值tsamet。pic^么给定主题 没有相同主题;对于排序表中从第1个开始的后续k个值逐一进行与上一 步骤类似的判断,确定给定主题的相关主题。5、如权利要求4所述的自动计算互联网上主题演化趋势的方法,其特征 在于,步骤4.1计算给定主题与前一时间段内所有主题的相似度值时,可采用 余弦公式进行计算,也可采用Jaccard公式、Dice公式等主流相似度计算公式进行计算,其中利用余弦公式计算主题Ci和Cj之间的相似度值时,首先以中心向量5i与5j表示主...

【专利技术属性】
技术研发人员:万小军冯涛黄小江杨霙杨建武吴於茜路斌
申请(专利权)人:北大方正集团有限公司北京大学北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1