一种语义强化主题模型及主题演化分析方法技术

技术编号：21273650 阅读：25 留言：0更新日期：2019-06-06 08:02

本发明专利技术公开了一种语义强化主题模型及主题演化分析方法，语义强化主题模型通过将条件随机场融入关联主题模型，利用词向量的语义强化特质提高相似词归属到同一主题的概率，并利用下上文相关词剔除噪声，从而有效增强主题抽取的语义连贯性。其次，本发明专利技术提出了一种不同主题之间演化关系的构建算法，动态从文本数据流中构建主题并生成主题演化图，实现核心主题和子主题之间的演化分析。在新浪微博数据集上的实验结果表明，本发明专利技术的主题抽取方法在主题连贯性指标上优于5种基准主题模型，并能自动生成主题演化图，从而有效挖掘出文本中的主题演化模式。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义强化主题模型及主题演化分析方法
本专利技术属于主题演化分析
，涉及一种语义强化主题模型及主题演化分析方法，具体涉及一种结合词向量的语义增强和基于关联主题模型的主题关联抽取两方面优势的语义强化主题模型及基于该模型的主题演化分析方法。
技术介绍
随着移动互联网的高速发展，微信、微博、电子邮件、论坛、直播平台、点评网站等应用已经越来越普及，这些平台产生的信息很多都是以数据流的形式实时产生和动态更新。快速变化的数据流使得我们迫切需要开发一个有效的监测工具来实时分析文本数据流中产生大量信息。搜索引擎的出现为人们提供了一种从大量存档数据中快速检索和查找有用信息的有效方法。但是，搜索引擎返回的搜索结果通常是碎片化的非结构化信息，不能反映整个主题随时间的演化情况。随着概率主题模型的出现，各种关于主题抽取和演化的研究大量涌现，为解决热点主题抽取和主题随时间演化的问题提供了一种很好的解决方法。主题演化分析是指对已获得高质量主题集合，分析在时间演变过程中，主题内容及其生存状态的演化趋势，这对突发事件预警、舆情疏导、产品营销、信息推荐等意义重大。近年来，在主题的抽取过程中，出现了一些利用词向量提高主题模型主题抽取质量的方法。这类方法利用词向量内在丰富的语义关系，增强文本的语言关联，从而缓解稀疏性问题，提高了文本主题抽取的性能。虽然此类方法从一定程度上提高了模型能力，但却忽略了词向量固有的生成机制导致每个词仅对应唯一词向量，而对于多义词，这种机制会在主题推断过程中加入噪声，从而影响主题抽取效果，这是本专利技术要解决的关键问题之一。此外，对于一个热点事件，通常会在短时间...

【技术保护点】
1.一种语义强化主题模型，其特征在于：首先，在关联主题模型的潜在主题层增加条件随机场层，将语义相关词对的主题z以无向边的形式连接起来，包括五条无向边((zm1,zm2)，(zm1,zm4)，(zm1,zm5)，(zm2,zm6)，(zm3,zm6))；其次，将每个词w的下上文相关词存储在x中，当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时，则将它们主题之间的边视为无效边，从而消除主题推断过程中所产生的噪声；最后，在主题推断的过程，通过语义强化函数使语义相关词汇以高概率归属于同一主题。

【技术特征摘要】
1.一种语义强化主题模型，其特征在于：首先，在关联主题模型的潜在主题层增加条件随机场层，将语义相关词对的主题z以无向边的形式连接起来，包括五条无向边((zm1,zm2)，(zm1,zm4)，(zm1,zm5)，(zm2,zm6)，(zm3,zm6))；其次，将每个词w的下上文相关词存储在x中，当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时，则将它们主题之间的边视为无效边，从而消除主题推断过程中所产生的噪声；最后，在主题推断的过程，通过语义强化函数使语义相关词汇以高概率归属于同一主题。2.一种基于语义强化主题模型的主题演化分析方法，其特征在于，包括以下步骤：步骤1：对获取的文本语料数据集进行预处理；步骤2：识别文本中的语义相关词对；步骤3：基于语义强化主题模型对文本进行主题和关系抽取；在关联主题模型的潜在主题层增加条件随机场层，将语义相关词对的主题以无向边的形式连接起来，从而在主题推断的过程中，使语义相关词汇以高概率归属于同一主题，并利用下上文相关词来消除主题推断过程中所产生的噪声；步骤4：语义强化主题模型的主题后验分布进行参数推断；步骤5：将文本语料数据集随时间划分为若干分片，并按时间顺序排列，利用在线语义强化主题模型从文本语料数据集中构建主题并生成主题演化图。3.根据权利要2所述的基于语义强化主题模型的主题演化分析方法，其特征在于：步骤1中所述预处理，包括过滤掉非中文字符和停用词、过滤掉出现次数小于设定次数的词。4.根据权利要2所述的基于语义强化主题模型的主题演化分析方法，其特征在于：步骤2中，首先判断词对中两个词的词向量之间的余弦相似度是否小于设定阈值；若小于设定阈值，则将该词对识别为语义相关词对，对其语义强化主题建模过程进行语义强化，否则，不进行语义强化。5.根据权利要2所述的基于语义强化主题模型的主题演化分析方法，其特征在于：步骤3中，若两个词之间存在语义强化的关系，则在语义强化主题模型中，用一条无向边连接它们的主题标签；此时，主题标签属于k的联合概率如下所示：其中表...

【专利技术属性】
技术研发人员：高望，胡刚，韩玮光，谢倩倩，李冬，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人