本发明专利技术公开了一种基于动态话题模型的动态文本聚类装置及其方法,该装置包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中:新闻采集模块,用于采集互联网上的新闻数据;新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取;动态特征变换模块,用于对提取的初始特征做动态特征变换;以及动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。采用本发明专利技术,能够解决动态文本数据集的有效聚类问题,以实现动态话题模型和动态聚类算法的结合,解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。
【技术实现步骤摘要】
本专利技术涉及机器学习和模式识别技术,尤其涉及一种。
技术介绍
随着信息技术的爆炸式发展,计算机要处理的文本在快速增长。文本聚类是一种常见的文本处理方式,它把从某一角度来讲比较相似的文本聚拢在一起,即可能作为一种直接输出的信息,也可能作为对文本的进一步处理的基础,具有重要意义。文本大多是用自然语言形式描述的,要进行聚类,必须对其抽取特征,转化成量化的描述。然而,常规的特征抽取方法很难避免数据稀疏、特征维度过高、一词多义、一义多词等问题,给后续的聚类带来很大不利影响。为此,一些学者提出了若干特征变换(降维)方 法,如潜语义分析(LSA)、概率潜语义分析(PLSA)、潜狄利克雷分配(LDA)等,在很大程度上解决了此类问题。遗憾的是,这些方法只能一次性处理一批文本,在互联网环境下,数据往往是动态的,即随着时间推移,有新的数据陆续到来,就有数据不断的被淘汰,给特征变换方法的应用造成极大困难。同时,由于处理动态数据的聚类算法和常规(一次性处理静态数据)的聚类算法有不同特性,对动态数据做特征变换后,还要满足后续处理动态数据的聚类算法的要求,难度进一步增大。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种,解决动态文本数据集的有效聚类问题,以实现动态话题模型和动态聚类算法的结合,解决传统基于term的文本特征所固有的一词多义、一义多词、数据稀疏、特征维数灾难等问题。为达到上述目的,本专利技术的技术方案是这样实现的 一种基于动态话题模型的动态文本聚类装置,包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中 新闻采集模块,用于采集互联网上的新闻数据; 新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取; 动态特征变换模块,用于对提取的初始特征做动态特征变换;以及 动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。其中所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式。所述的其他数据形式包括视频、图片和结构化信息。一种基于动态话题模型的动态文本聚类方法,包括如下步骤 A、采集互联网上新闻数据的步骤; B、对预设周期内的增量新闻数据做初始特征提取的步骤; C、对本周期内增量新闻数据用动态话题模型作特征变换的步骤;D、对本周期内经特征变换的新闻数据和已有聚类结果进行动态聚类的步骤。其中步骤A中所述从互联网采集到的新闻数据为文本、超文本或其他数据形式,包括微博、视频图片或其他结构化信息。步骤B所述对预设周期内的增量新闻数据作初始特征提取,具体为 对新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并的步骤,将处理的结果以词或短语为单位,称为token,对每个token,依据其频率、分布、在文中的位置、词性和专名类型的信息,确定其权重,然后再将各token及其分值构造成一个基于向量空间模型的初始特征向量。步骤C所述对本周期内增量新闻数据用动态话题模型作特征变换,采用增量式概率潜语义分析IPLSA模型进行特征变换,通过该模型将每个新闻数据表示成一组隐变量组成的特征向量,具体为 Cl、在聚类结果即簇的集合中,找出长时间无变化的簇,在IPLSA话题模型中,清除该簇包含的新闻数据,修改其相应的参数; C2、对本周期新增的新闻及新出现的token,使用EM算法将其切拌进模型中,更新新增新闻的参数; C3、使用EM算法更新整个模型的参数; C4、直接取新模型中各新增的新闻对应的参数,组成的向量即为变换后的特征向量。步骤D对本周期内经特征变换的新闻数据和已有聚类结果即簇执行动态聚类,具体为 D1、去除长时间没有变化的聚类结果即簇; D2、对本周期内新增的各条新闻数据的变换后的特征向量进行非加权组中心UPGMC聚类,所述的聚类结果中的每个集合即簇均拥有一个中心向量,并根据所述中心向量计算两个簇的中心向量的余弦相似度; D3、对上述产生的每一个簇,找出现有簇的集合中与该簇的相似度最大的簇;其相似度的计算方法仍采用余弦相似度;若该相似度大于预定阀值,就将对应的两个簇合并;否则,将该簇加入现有簇的集合; D4、对现有的簇再进行一次UPGMC聚类,该过程同样采用余弦相似度计算簇的相似度。本专利技术所提供的,具有以下优占-^ \\\ · 本专利技术实现了动态话题模型和动态聚类算法的结合。通过采用增量式概率潜语义分析(IPLSA, Incremental Probabilistic Latent Semantic Analysis)技术,解决动态数据的特征变换问题,并将其与一种基于层次聚类算法的动态聚类算法相结合,对文本数据进行动态聚类时,基于该动态话题模型一 IPLSA模型对初始特征向量做变换,有效缓解了传统的基于term的特征所造成的一词多义、一义多词、数据稀疏、维数灾难等问题,提高了聚类效果。同时,还有效降低了常规PLSA算法的巨大开销。并且,对增量文本变换产生的特征向量和对既有文本变换产生的特征向量保持在同一空间内,可以直接进行比较,从而保证了增量聚类过程中新旧数据的可比较性。附图说明图I为本专利技术实施例的基于动态话题模型的动态文本聚类装置的组成示意 图2为本专利技术基于动态话题模型的动态文本聚类方法的总体流程示意 图3为图2所示的特征变换流程示意 图4为图2所示的动态聚类流程示意图。具体实施例方式下面结合附图及本专利技术的实施例对本专利技术的装置及其方法作进一步详细的说明。图I为本专利技术实施例的基于动态话题模型的动态文本聚类装置的组成示意图,如图I所示,该装置主要包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块;其中 所述新闻采集模块,用于采集互联网上的新闻数据。新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取。动态特征变换模块(reduce),用于对提取的初始特征做动态特征变换。动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。其中,所述新闻采集模块采集到的新闻数据为文本、超文本或其他数据形式,所述的其他数据形式还包括视频、图片和结构化信息等。所述的基于动态话题模型的动态文本聚类装置,其新闻并不限于新闻文本,甚至不局限于文本这一数据形式。对于其他形式的数据,如微博、视频、图片、结构化信息等,只要待处理的数据被抽象为特征向量,并采用了与本专利技术类似的方法进行动态特征变换和动态聚类,均应包括在本专利技术技术的涵盖范围内。上述的装置经实际实验表明,可以有效解决新闻类文本的动态聚类问题。图2为本专利技术基于动态话题模型的动态文本聚类方法的总体流程示意图,如图2所示,包括如下主要步骤 步骤Si:采集互联网上的新闻数据。步骤S2 :对本周期内增量新闻做初始特征提取。具体包括对本周期新增的新闻数据执行分词、词性标注、去停用词、专名识别、同义词归并等步骤,处理的结果以词或短语为单位,统称为token,对每个token,依据其频率、分布、在文中的位置、词性、专名类型等信息,确定其权重。再把各token及其分值构造成一个基于向量空间模型的初始特征向量。步骤S3 :对本周期内增量新闻用动态话题模型做特征变换,对本周期内增量新闻用增量话题模型作特征变换,本专利技术实施例中采用增量式概率潜语义分析(IPLSA,Incremental Pr本文档来自技高网...
【技术保护点】
一种基于动态话题模型的动态文本聚类装置,其特征在于,包括新闻采集模块、新闻初始特征提取模块、动态特征变换模块和动态聚类模块,其中:新闻采集模块,用于采集互联网上的新闻数据;新闻初始特征提取模块,用于对所采集的新闻数据进行初始特征提取;动态特征变换模块,用于对提取的初始特征做动态特征变换;以及动态聚类模块,用于对新闻数据集,基于变换后的特征做动态聚类。
【技术特征摘要】
【专利技术属性】
技术研发人员:李德聪,杨青,
申请(专利权)人:人民搜索网络股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。