一种面向跨领域知识发现的主题挖掘方法技术

技术编号：12474975 阅读：91 留言：0更新日期：2015-12-10 10:38

本发明专利技术公开了一种面向跨领域知识发现的主题挖掘方法，包括：构建源领域文本集合和目标领域集合；从源领域文本集合抽取潜在类别特征信息和潜在的语义信息；从目标领域集合抽取文本的潜在特征信息和潜在语义信息；将目标领域集合中的文本自动聚合在风格潜在组件中；将目标领域集合的语义信息建模在主题潜在组件中；建模目标领域集合的语义信息的主题潜在组件。本发明专利技术具有如下优点：自动挖掘源领域文本特征用于目标领域中文本的识别和分类；准确将源领域的文本特征信息迁移到目标领域的文本聚类之中；自动找出目标领域中与源领域不同文本内容。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机文本挖掘
，涉及主题模型技术，具体涉及。
技术介绍
随着互联网的发展，越来越多的网络平台的出现使文本资源成爆炸式的增长，而庞大的数据量和复杂的分析过程往往使用户获取所需要知识的过程变得很困难。例如，当人们想要在社交网络中寻找当地有价值的新闻事件或者热门话题，人们只能通过关键词的搜索来帮助自己找到想要获得的信息，但是，往往这样的检索方式是效率非常低下的，人们常常会尝试大量的搜索关键词，或者，浏览大量的搜索结果才有可能找到自己想要的信息。为了有效地提升用户获取信息的效率，出现了文本挖掘技术，来帮助人们组织和管理文本信息。目前主要的文本挖掘技术有传统的主题模型技术，有监督的主题模型技术和跨领域的主题模型技术等。这些技术各自存在优缺点，现总结如下:1.传统的主题挖掘技术基于概率统计的混合模型，对文本信息进行建模，使得模型能够自动挖掘出文本中潜在的语义信息，使用户能够快速的了解文本中所涉及的内容。通过主题模型，不仅能够获得文本集合中主要涉及的信息，而且能够获得每篇文档中的内容信息。常见的主题模型有概率潜在语义分析(Probabilistic Latent SemanticAnalysis, PLSA)模型和潜在狄利克雷分配(Latent Dirichlet Allocat1n, LDA)模型。但该类技术仅考虑文本集合中的文本信息，其他有用的信息，如文本的类别信息等，无法被利用起来。2.有监督的主题挖掘技术在传统的主题挖掘技术上，将文本的类别信息融合到主题挖掘的过程中，使具有相同特征的文本尽量涵盖相同的主题，进而提高主题挖掘的能力。...

【技术保护点】
一种面向跨领域知识发现的主题挖掘方法，其特征在于，包括以下步骤：A：对于给定的有类标的文本数据集，构建源领域文本集合；对于给定的没有类标的文本数据集，构建目标领域集合；B：从所述源领域文本集合抽取每个类别下文本的潜在类别特征信息，将所述潜在类别特征信息建模在风格潜在组件中；从所述源领域文本集合抽取文本中潜在语义信息，建模在主题潜在组件中；C：从所述目标领域集合抽取文本的潜在特征信息和潜在语义信息；D：根据所述风格潜在组件和从所述目标领域集合抽取的潜在特征信息，将所述目标领域集合中的所述文本自动聚合在所述风格潜在组件中；根据所述主题潜在组件和从所述目标领域集合中抽取的所述潜在特征信息，将所述目标领域集合的语义信息建模在所述主题潜在组件中；以及E：建模所述目标领域集合的语义信息的主题潜在组件。

【技术特征摘要】

【专利技术属性】
技术研发人员：靳晓明，韩春晖，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人