本发明专利技术公开了一种面向跨领域知识发现的主题挖掘方法,包括:构建源领域文本集合和目标领域集合;从源领域文本集合抽取潜在类别特征信息和潜在的语义信息;从目标领域集合抽取文本的潜在特征信息和潜在语义信息;将目标领域集合中的文本自动聚合在风格潜在组件中;将目标领域集合的语义信息建模在主题潜在组件中;建模目标领域集合的语义信息的主题潜在组件。本发明专利技术具有如下优点:自动挖掘源领域文本特征用于目标领域中文本的识别和分类;准确将源领域的文本特征信息迁移到目标领域的文本聚类之中;自动找出目标领域中与源领域不同文本内容。
【技术实现步骤摘要】
本专利技术属于计算机文本挖掘
,涉及主题模型技术,具体涉及。
技术介绍
随着互联网的发展,越来越多的网络平台的出现使文本资源成爆炸式的增长,而庞大的数据量和复杂的分析过程往往使用户获取所需要知识的过程变得很困难。例如,当人们想要在社交网络中寻找当地有价值的新闻事件或者热门话题,人们只能通过关键词的搜索来帮助自己找到想要获得的信息,但是,往往这样的检索方式是效率非常低下的,人们常常会尝试大量的搜索关键词,或者,浏览大量的搜索结果才有可能找到自己想要的信息。为了有效地提升用户获取信息的效率,出现了文本挖掘技术,来帮助人们组织和管理文本信息。目前主要的文本挖掘技术有传统的主题模型技术,有监督的主题模型技术和跨领域的主题模型技术等。这些技术各自存在优缺点,现总结如下:1.传统的主题挖掘技术基于概率统计的混合模型,对文本信息进行建模,使得模型能够自动挖掘出文本中潜在的语义信息,使用户能够快速的了解文本中所涉及的内容。通过主题模型,不仅能够获得文本集合中主要涉及的信息,而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(Probabilistic Latent SemanticAnalysis, PLSA)模型和潜在狄利克雷分配(Latent Dirichlet Allocat1n, LDA)模型。但该类技术仅考虑文本集合中的文本信息,其他有用的信息,如文本的类别信息等,无法被利用起来。2.有监督的主题挖掘技术在传统的主题挖掘技术上,将文本的类别信息融合到主题挖掘的过程中,使具有相同特征的文本尽量涵盖相同的主题,进而提高主题挖掘的能力。这些具有先验知识的主题模型将先验知识通过不同的方法融合到无监督的主题挖掘中。在文档层面的先验知识融入到主题模型中的工作有Blei提出的有监督的潜在狄利克雷分配(supervised Latent Dirichlet Allocat1n, sLDA)模型,该模型利用文本的类标,作为相应变量融入到主题模型中,并通过一般线性模型进行建模。其引入的文本类标信息提升了文本的主题特征表示,进而更好地服务于分类和回归问题。Ramage提出了有标签的潜在狄利克雷分配(labeled Latent Dirichlet Allocat1n, 1LDA)模型,该模型在潜在主题与文档类标之间直接建立--对应的映射关系,有效地解决了多标签文本集合中存在的归属问题。但这类主题挖掘方法对文本数据有较高的要求,有时甚至需要更多的人力资源来提供所需的有监督的信息。3.跨领域的文本挖掘技术主要解决自动抽取不同领域的文本潜在语义信息中相似性与差异性的问题。主要工作有Zhai提出的跨领域混合模型(Cross-Collect1nMixture Model, CCMix) ,该模型能够挖掘出在不同领域下,所共同出现的主题信息,同时,针对这些共同出现的主题信息,找出这些信息中的公共部分和每个领域所特殊的部分。Paul在这个工作的基础上,提出了跨领域潜在狄利克雷分配(cross-collect1n LatentDirichlet Allocat1n, ccLDA)模型,将ccMix从PLSA的框架下转换到LDA的框架下,这使得模型具有了 LDA的优越性,即能够对新到来的文本进行推断。另外,该模型还减少了ccMix中的参数数量,使得,模型参数不会随着文本数据的增加而增加,模型能够更好地根据文本固有的特征进行文本挖掘。但是跨领域主题模型无法利用不同领域的信息帮助用户筛选出所需要的信息。参考文献Hofmann T.Probabilistic latent semantic indexing.Proceedings of the22nd annual internat1nal ACM SIGIR conference on Research and development ininformat1n retrieval.ACM, 1999:50_57oBlei D Mj Ng A Yj Jordan M 1.Latent dirichlet allocat1n.The Journalof machine Learning research,2003,3:993_1022oMcauliffe J Dj Blei D M.Supervised topic models.Advances in neuralinformat1n processing systems.2008:121-1280Ramage Dj Hall D,Nallapati R,et al.Labeled LDA:A supervised topicmodel for credit attribut1n in mult1-labeled corpora.Proceedings of the2009Conference on Empirical Methods in Natural Language Processing:Volume1-Volume 1.Associat1n for Computat1nal Linguistics,2009:248_2560Zhai C Xj Velivelli A,Yu B.A cross-collect1n mixture model forcomparative text mining.Proceedings of the tenth ACM SIGKDD internat1nalconference on Knowledge discovery and data mining.ACM, 2004:743-7480Paul M.Cross-collect1n topic models:AutomaticalIy comparing andcontrasting text.Urbanaj2009,51:618010
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的目的在于提出。为了实现上述目的,本专利技术一方面的实施例公开了,包括以下步骤:A:对于给定的有类标的文本数据集,构建源领域文本集合;对于给定的没有类标的文本数据集,构建目标领域集合:从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息,将所述潜在类别特征信息建模在风格潜在组件中;从所述源领域文本集合抽取文本中潜在语义信息,建模在主题潜在组件中;C:从所述目标领域集合抽取出所有文本的潜在特征信息和潜在语义信息;D:根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息,将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中;根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息,将所述目标领域集合的语义信息建模在所述主题潜在组件中;以及E:建模所述目标领域集合的语义信息的主题潜在组件。根据本专利技术实施例的,自动挖掘源领域文本特征,这些特征可以用于目标领域中文本的识别和分类;将源领域的文本特征信息有效地迀移到目标领域的文本聚类之中,使得聚类的过程更准确;自动过滤掉目标文本中的与源文本相似的内容,能够对源领域文本和目标领域文本的内容进行建模,并对内容的相似性和不同性进行判别,从而找出目标领域中与源领域不同文本内容本文档来自技高网...
【技术保护点】
一种面向跨领域知识发现的主题挖掘方法,其特征在于,包括以下步骤:A:对于给定的有类标的文本数据集,构建源领域文本集合;对于给定的没有类标的文本数据集,构建目标领域集合;B:从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息,将所述潜在类别特征信息建模在风格潜在组件中;从所述源领域文本集合抽取文本中潜在语义信息,建模在主题潜在组件中;C:从所述目标领域集合抽取文本的潜在特征信息和潜在语义信息;D:根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息,将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中;根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息,将所述目标领域集合的语义信息建模在所述主题潜在组件中;以及E:建模所述目标领域集合的语义信息的主题潜在组件。
【技术特征摘要】
【专利技术属性】
技术研发人员:靳晓明,韩春晖,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。