当前位置: 首页 > 专利查询>武汉大学专利>正文

一种语义强化主题模型及主题演化分析方法技术

技术编号:21273650 阅读:25 留言:0更新日期:2019-06-06 08:02
本发明专利技术公开了一种语义强化主题模型及主题演化分析方法,语义强化主题模型通过将条件随机场融入关联主题模型,利用词向量的语义强化特质提高相似词归属到同一主题的概率,并利用下上文相关词剔除噪声,从而有效增强主题抽取的语义连贯性。其次,本发明专利技术提出了一种不同主题之间演化关系的构建算法,动态从文本数据流中构建主题并生成主题演化图,实现核心主题和子主题之间的演化分析。在新浪微博数据集上的实验结果表明,本发明专利技术的主题抽取方法在主题连贯性指标上优于5种基准主题模型,并能自动生成主题演化图,从而有效挖掘出文本中的主题演化模式。

【技术实现步骤摘要】
一种语义强化主题模型及主题演化分析方法
本专利技术属于主题演化分析
,涉及一种语义强化主题模型及主题演化分析方法,具体涉及一种结合词向量的语义增强和基于关联主题模型的主题关联抽取两方面优势的语义强化主题模型及基于该模型的主题演化分析方法。
技术介绍
随着移动互联网的高速发展,微信、微博、电子邮件、论坛、直播平台、点评网站等应用已经越来越普及,这些平台产生的信息很多都是以数据流的形式实时产生和动态更新。快速变化的数据流使得我们迫切需要开发一个有效的监测工具来实时分析文本数据流中产生大量信息。搜索引擎的出现为人们提供了一种从大量存档数据中快速检索和查找有用信息的有效方法。但是,搜索引擎返回的搜索结果通常是碎片化的非结构化信息,不能反映整个主题随时间的演化情况。随着概率主题模型的出现,各种关于主题抽取和演化的研究大量涌现,为解决热点主题抽取和主题随时间演化的问题提供了一种很好的解决方法。主题演化分析是指对已获得高质量主题集合,分析在时间演变过程中,主题内容及其生存状态的演化趋势,这对突发事件预警、舆情疏导、产品营销、信息推荐等意义重大。近年来,在主题的抽取过程中,出现了一些利用词向量提高主题模型主题抽取质量的方法。这类方法利用词向量内在丰富的语义关系,增强文本的语言关联,从而缓解稀疏性问题,提高了文本主题抽取的性能。虽然此类方法从一定程度上提高了模型能力,但却忽略了词向量固有的生成机制导致每个词仅对应唯一词向量,而对于多义词,这种机制会在主题推断过程中加入噪声,从而影响主题抽取效果,这是本专利技术要解决的关键问题之一。此外,对于一个热点事件,通常会在短时间内从不同的读者那里收集到丰富多样的新闻、评论和意见。然而,面对大量的文本数据流,读者无法通过查看所有相关的短文本来轻松理解热点事件。目前主题的演化分析方法很多,但是这些方法大都是从主题强度来分析,并不能分析出主题发生变化时其内部节点的变化情况。因此,在主题演化过程抽取核心主题和子主题间的关联,从而生成易于理解的主题演化图,是本专利技术要解决的又一个关键问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种结合词向量的语义增强和基于关联主题模型的主题关联抽取两方面优势的语义强化主题模型及基于该模型的主题演化分析方法。本专利技术提供的一种语义强化主题模型,其特征在于:首先,在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题z以无向边的形式连接起来,包括五条无向边((zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6));其次,将每个词w的下上文相关词存储在x中,当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时,则将它们主题之间的边视为无效边,从而消除主题推断过程中所产生的噪声;最后,在主题推断的过程,通过语义强化函数使语义相关词汇以高概率归属于同一主题。本专利技术提供的一种基于语义强化主题模型的主题演化分析方法,其特征在于,包括以下步骤:步骤1:对获取的文本语料数据集进行预处理;步骤2:识别文本中的语义相关词对;步骤3:基于语义强化主题模型对文本进行主题和关系抽取;首先判断词对中两个词的词向量之间的余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其主题建模过程进行语义强化,否则,不进行语义强化;步骤4:语义强化主题模型的主题后验分布进行参数推断;在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题以无向边的形式连接起来,从而在主题推断的过程中,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;步骤5:将文本语料数据集随时间划分为若干分片,并按时间顺序排列,利用在线语义强化主题模型从文本语料数据集中构建主题并生成主题演化图。本专利技术具有如下优点:1、本专利技术设计了一种新的主题模型,利用条件随机场在主题层融入语义强化的外部信息,实现了高质量主题发现和主题关系抽取;2、本专利技术设计了一种在线主题演化模型能有效识别出文本流中主题之间的关联关系,从而自动生成主题演化图。附图说明附图1是本专利技术实施例的语义强化主题模型示意图;附图2a是本专利技术与基准方法的主题连贯性比较示意图(主题个数为5);附图2b是本专利技术与基准方法的主题连贯性比较示意图(主题个数为10);附图3是本专利技术实施例中利用在线主题演化模型自动生成的部分主题演化图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术首先基于关联主题模型,提出一种全新的语义强化主题模型CCTM(ConditionalrandomfieldregularizedCorrelatedTopicModel)。语义强化主题模型CCTM通过将条件随机场融入关联主题模型,利用词向量的语义强化特质提高相似词归属到同一主题的概率,从而有效增强主题抽取的语义连贯性,并剔除噪声。其次,本专利技术提出在线语义强化主题模型CCTM模型,动态从文本数据流中构建主题并生成主题演化图,实现核心主题和子主题之间的演化分析。请见图1,本专利技术提供的一种语义强化主题模型CCTM,首先,在关联主题模型(correlatedtopicmodel)的潜在主题层增加条件随机场层,将语义相关词对的主题z以无向边的形式连接起来。如附图1所示,有五条这样的无向边((zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6))。其次,将每个词w的下上文相关词存储在x中。当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时,则将它们主题之间的边视为无效边,从而消除主题推断过程中所产生的噪声。最后,在主题推断的过程,通过语义强化函数使语义相关词汇以高概率归属于同一主题。本专利技术还提供了一种基于语义强化主题模型的主题演化分析方法,包括以下步骤:步骤1:对获取的文本语料数据集进行预处理;预处理包括过滤掉非中文字符和停用词、过滤掉出现次数小于设定次数的词。步骤2:识别文本中的语义相关词对,为步骤3语义强化奠定基础;具体是首先判断词对中两个词的词向量之间的余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其主题建模过程进行语义强化,否则,不进行语义强化;对于文档中的每个词对(wa,wb),如果满足条件d(wa,wb)<ξ,其中d(wa,wb)表示该词对中两个词向量的余弦相似度,ξ是指预先设定的阈值,则将该词对识别为语义相关词对,词wa和词wa之间是语义强化关系。步骤3:基于语义强化主题模型CCTM对文本进行主题和关系抽取;在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题以无向边的形式连接起来,从而在主题推断的过程中,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;若两个词之间存在语义强化的关系,则在语义强化主题模型CCTM中,用一条无向边连接它们的主题标签;此时,主题标签的联合概率如下所示:其中表示第m篇文本主题k的先验分布;是词wmn的先验分布;V表示词表的大小;zmn表示第m篇文本中第n个词的主题概本文档来自技高网
...

【技术保护点】
1.一种语义强化主题模型,其特征在于:首先,在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题z以无向边的形式连接起来,包括五条无向边((zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6));其次,将每个词w的下上文相关词存储在x中,当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时,则将它们主题之间的边视为无效边,从而消除主题推断过程中所产生的噪声;最后,在主题推断的过程,通过语义强化函数使语义相关词汇以高概率归属于同一主题。

【技术特征摘要】
1.一种语义强化主题模型,其特征在于:首先,在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题z以无向边的形式连接起来,包括五条无向边((zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6));其次,将每个词w的下上文相关词存储在x中,当语义相关词对与下上文相关词之间的余弦相似度超过某一阈值时,则将它们主题之间的边视为无效边,从而消除主题推断过程中所产生的噪声;最后,在主题推断的过程,通过语义强化函数使语义相关词汇以高概率归属于同一主题。2.一种基于语义强化主题模型的主题演化分析方法,其特征在于,包括以下步骤:步骤1:对获取的文本语料数据集进行预处理;步骤2:识别文本中的语义相关词对;步骤3:基于语义强化主题模型对文本进行主题和关系抽取;在关联主题模型的潜在主题层增加条件随机场层,将语义相关词对的主题以无向边的形式连接起来,从而在主题推断的过程中,使语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;步骤4:语义强化主题模型的主题后验分布进行参数推断;步骤5:将文本语料数据集随时间划分为若干分片,并按时间顺序排列,利用在线语义强化主题模型从文本语料数据集中构建主题并生成主题演化图。3.根据权利要2所述的基于语义强化主题模型的主题演化分析方法,其特征在于:步骤1中所述预处理,包括过滤掉非中文字符和停用词、过滤掉出现次数小于设定次数的词。4.根据权利要2所述的基于语义强化主题模型的主题演化分析方法,其特征在于:步骤2中,首先判断词对中两个词的词向量之间的余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其语义强化主题建模过程进行语义强化,否则,不进行语义强化。5.根据权利要2所述的基于语义强化主题模型的主题演化分析方法,其特征在于:步骤3中,若两个词之间存在语义强化的关系,则在语义强化主题模型中,用一条无向边连接它们的主题标签;此时,主题标签属于k的联合概率如下所示:其中表...

【专利技术属性】
技术研发人员:高望胡刚韩玮光谢倩倩李冬
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1