一种融合因果推理的文本长尾话题识别方法技术

技术编号：40409646 阅读：12 留言：0更新日期：2024-02-20 22:29

本发明专利技术公开了一种融合因果推理的文本长尾话题识别方法，包括：1.对输入文档进行编码，2.对话题分布进行干预，3.根据干预后的话题分布进行解码重构并优化话题词分布。本发明专利技术基于神经变分推理和因果推理框架，在训练中采用因果干预，消除长尾偏差带来的影响，综合考虑了头部话题和尾部话题的特征表达，可以减轻偏差效应，大大提高话题质量，并更好地发现尾部隐藏的话题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于话题识别领域，具体的说是一种融合因果推理的文本长尾话题识别方法。

技术介绍

1、主题模型可以有效地捕获大规模文本数据的潜在语义，基于神经变分推理的主题模型在从文档中挖掘抽象主题方面取得了巨大的成功。然而，这些主题模型通常主要集中于优化文档的主题分布即话题分布，而话题的质量往往被忽视。具体来说，这些模型缺乏将语义相关的单词应该分配给同一话题的保证，并且很难确保话题的可解释性。此外，许多话题词汇经常出现在不同话题的顶部，使得学习的话题在语义上冗余和相似，对进一步研究意义不大。并且现有的方法通常是在平衡语料库上设计和评估的。然而，这与世界中的一般语料库自然是长尾的事实相矛盾，而且长尾偏差会高度损害话题识别的性能。针对上述背景及技术，亟需一种能消除长尾偏差及考虑话题的质量的话题识别方法。

技术实现思路

1、本专利技术是为了解决上述现有技术存在的不足之处，在营销文案的场景下，提出一种融合因果推理的文本长尾话题识别方法，以期能基于因果推理的框架，在训练中采用因果干预，消除长尾偏差带来的影响，综合考虑头部话题和尾部话题的特征表达，从而能减轻偏差效应，大大提高话题质量，并更好地发现尾部隐藏的话题。

2、本专利技术为达到上述专利技术目的，采用如下技术方案：

3、本专利技术一种融合因果推理的文本长尾话题识别方法的特点在于，是按如下步骤进行：

4、步骤1、获取包含m个文档的文档集合d＝{d1，d2，…，dm，…，dm}，其中，dm表示第m个文档，且wm，

5、定义语料库中包含k个话题；

6、定义词汇表中包含v个唯一单词；

7、步骤2、构建融合因果推理的神经话题模型，包括：多层感知器mlp、gsm条件的神经网络ggsm、话题词分布优化模块、因果干预模块；

8、步骤2.1、所述多层感知器mlp对第m个文档dm进行编码，得到第m个文档dm的2个变分参数rm和σm；

9、步骤2.2、所述神经网络ggsm利用式(1)得到第m个文档dm的话题分布θm，且话题分布θm的先验分布为神经网络ggsm的高斯分布，从而得到文档集合d的话题分布θ＝{θ1，θ2，…，θm，…，θm}以及话题分布θ的先验分布p(x)；x表示文档集合d的隐变量表示集合；

10、θm＝softmax(wtxm) (1)

11、式(1)中，w是一个线性变换的矩阵；t表示转置；softmax表示激活函数；xm表示第m个文档dm的隐变量表示，并式(2)得到；

12、xm＝rm+∈·σm (2)

13、式(3)中，∈表随机变量，且∈服从标准化正态分布n(0，i2)，i表示单位矩阵；xm∈x；

14、步骤2.3、所述神经网络ggsm利用式(3)得到第m个文档dm的真实后验分布q(θm|dm)，从而得到文档集合d的真实后验分布q(x|d)；

15、

16、步骤2.4、令wm,n服从高斯混合分布n(μk，∑k)，其中，μk∈rh是高斯混合分布的均值，∑k∈rh×h是高斯混合分布的协方差，h是单词嵌入空间的维数；

17、所述话题词分布优化模块利用式(5)计算wm,n在第k个话题的词概率βk，m，n，从而得到第m个文档dm中所有不重复的单词在第k个话题的词分布βk，m：

18、

19、式(5)中，vm,n∈rh表示单词wm,n的嵌入表示；

20、步骤2.5、所述话题词分布优化模块利用式(5)计算文档集合d中所有不重复的单词在第k个话题的词分布βk，从而得到文档集合d在k个话题的词分布β＝{β1，β2，…，βk，…，βk}∈rk×v；

21、

22、步骤2.6、所述因果干预模块利用式(7)对第m个文档dm的话题分布θm进行干预，得到θm对第m个文档dm的因果关系p(dm|do(θm))：

23、

24、式(7)中，βm，n表示第m个文档dm的第n个单词wm,n在k个话题的词分布；do表示因果干预；

25、步骤3、建立损失函数：

26、步骤3.1、根据式(8)构建变分证据下界损失ld：

27、

28、式(9)中，dkl表示kl散度；

29、步骤3.2、根据式(9)计算在词汇表在第k个话题的对数似然值logl(μk，∑k)：

30、

31、式(9)中，wv表示词汇表中的第v个唯一单词，表示wv对应的高斯混合分布；

32、步骤3.3、根据式(10)计算语料库中的k个话题的总对数似然值lmle：

33、

34、步骤3.4、根据式(10)构建总损失函数l：

35、l＝-ld-γlmle (10)

36、式(10)中，γ是一个正的超参数；

37、步骤3.5、通过adam优化器对融合因果推理的神经话题模型进行训练，并计算所述总损失函数l，以调整模型参数，直到总损失函数l收敛为止，从而训练好的神经话题模型，用于实现对任一文本的长尾话题识别。

38、本专利技术一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述文本长尾话题识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

39、本专利技术一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述文本长尾话题识别方法的步骤。

40、与现有技术相比，本专利技术的有益效果在于：

41、1.本专利技术利用基于高斯分布的神经变分推断，并结合因果推理框架，在训练中采用因果干预，消除了长尾偏差带来的影响，并优化话题词分布，提高了话题质量，并更好地发现尾部隐藏的话题。

42、2.本专利技术不同于现有神经主题方法，其更多关注文档主题的优化，而本专利技术提出的方法通过优化主题词分布，识别更好的话题，通过多元高斯分布建模话题词分布。多元高斯分布存在协方差矩阵，可以刻画词之间的关联性，从而提高了对营销文案的话题识别的质量，同一话题词的相关性。

43、3.本专利技术对文档数据要求较低，可以直接应用于自然收集的语料库，因为本方法不需要额外的辅助信息，显然更加适应现实情况。同时具有很强的扩展性，可以更换使用其他的神经主题模型及函数。

44、4.本专利技术引入因果推理框架，利用后门调整使变量满足后门标准，并使用逆概率加权，并采用基于倾向评分的方法去近似它，最终去除混杂因素，即热门话题及话题词的影响，从而快速有效地识别出尾部隐藏的话题。

45、5.本专利技术通过对神经变分推断和因果推理的研究，有助于提升话题识别质量，对提升信息检索服务质量与用户体验、发现用户潜在需求及监测舆情变化有一定的现实意义，同时能够帮助研究人员设计更加有效的相关推荐系本文档来自技高网...

【技术保护点】

1.一种融合因果推理的文本长尾话题识别方法，其特征在于，是按如下步骤进行：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述文本长尾话题识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

3.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1所述文本长尾话题识别方法的步骤。

【技术特征摘要】

1.一种融合因果推理的文本长尾话题识别方法，其特征在于，是按如下步骤进行：

2.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1所述文本长尾话题识别方法的程序，所...

【专利技术属性】
技术研发人员：姜元春，徐政祥，钱洋，袁昆，张永刚，孙见山，高静，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人