基于BERT-LDA模型的文本主题识别方法技术

技术编号：40078154 阅读：6 留言：0更新日期：2024-01-17 01:55

本发明专利技术提供了一种基于BERT‑LDA模型的文本主题识别方法，涉及主题识别领域。本发明专利技术提供的技术方案首先借助BERT模型，将BERT模型提取出的语义词向量与LDA模型提取出的主题词向量进行连接，并使用K‑means算法对连接后的词向量进行聚类处理。此方法不仅可以有效地分析组合词向量之间的相关性，还能充分挖掘词汇的语义及重要程度，从而达到主题精准识别的目的。本发明专利技术的核心优势在于通过连接后的词向量，能够充分结合上下文语义信息，弥补LDA主题模型的劣势，训练出更优的主题向量，得到具有更好细粒度和聚类精准度的关键主题识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本识别领域，具体涉及一种基于bert-lda模型的文本主题识别方法。

技术介绍

1、主题模型是一种统计语言模型，用于挖掘一篇或多篇文档中隐藏的抽象主题。简而言之，如果一篇文档中有一个或多个主题，那么就会有一组或多组语义相关性较强的词语频繁出现在该文档中。而且因为文档中每个主题所占的比例不同，各个主题相关的特征词出现的频次也会有所不同。以“双减”政策对教育培训行业的影响为例，可以预见“双减”、“教培”、“失业”、“退费”等词语的出现频率会较高。

2、进一步地来说，主题模型是一种基于概率生成的模型。在此模型中，文档由多个主题构成的，而每个主题则表示为词语的概率分布。简单来说，每个词语的生成都是遵循“文档以一定的概率选择主题，然后又从该主题中以一定的概率选择单词”这样的过程。当得到一系列文档并对其进行分词处理后，输入至主题模型，该模型能够自动对文档进行计算、分析并统计文档内每个词语出现的概率，然后根据统计结果推断文档中包含的主题以及其比重。目前，较为主流的主题模型有lsa、plsa和lda。

3、在概率主题模型的研究进程中，从概率潜在语义分析模型(probabilisticlatent semantic analysis，plsa)到隐含狄利克雷分配模型(latent dirichletallocation，lda)的应用，lda模型已逐渐成为主题研究常用的分析方法。但值得注意的是，传统lda主题模型在处理短文本时，因其语义特征的稀疏性和共现信息的缺乏，导致获取共现词组成本较高，从而难以产生高质量的主题。

4、因此，基于上述的局限性，亟需引入新的模型或方法，以提升lda模型对于短文本主题识别的准确度。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于bert-lda模型的文本主题识别方法，解决了现有lda模型在短文本主题识别准确度较低的问题。

3、(二)技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：

5、在本专利技术的第一方面，提供了一种基于bert-lda模型的文本主题识别方法，所述方法包括：

6、获取原始文件；

7、利用lda模型从所述原始文件中提取出主题词向量；

8、基于bert模型从所述原始文件中提取出各词汇的语义词向量，作为第一语义词向量；

9、对所述第一语义词向量进行降维处理，得到降维后的语义词向量，作为第二语义词向量；

10、将所述主题词向量与所述第二语义词向量进行连接，得到连接后的词向量，作为目标词向量；

11、利用k-means算法对所述目标词向量进行聚类，从而获得文本主题分类结果。

12、可选的，在获取原始文件之后，所述方法还包括：

13、删除所述原始文件中的背景介绍内容，并利用jieba工具包对剩余文本内容进行分词操作，得到待识别文本内容。

14、可选的，对所述第一语义词向量进行降维处理，得到降维后的语义词向量，作为第二语义词向量，包括：

15、利用自动编码器对所述第一语义词向量进行降维处理，得到降维后的语义词向量，作为第二语义词向量。

16、可选的，将所述主题词向量与所述第二语义词向量进行连接，得到连接后的词向量，作为目标词向量，包括：

17、利用向量相加的方法，将所述主题词向量与所述第二语义词向量进行连接，得到连接后的词向量，作为目标词向量。

18、(三)有益效果

19、本专利技术提供了一种基于bert-lda模型的文本主题识别方法。与现有技术相比，具备以下有益效果：

20、该方法包括：获取原始文件；利用lda模型从所述原始文件中提取出主题词向量；基于bert模型从所述原始文件中提取出各词汇的语义词向量，作为第一语义词向量；对所述第一语义词向量进行降维处理，得到降维后的语义词向量，作为第二语义词向量；将所述主题词向量与所述第二语义词向量进行连接，得到连接后的词向量，作为目标词向量；利用k-means算法对所述目标词向量进行聚类，从而获得文本主题分类结果。

21、基于上述处理，本专利技术提供的技术方案首先借助bert模型，将bert模型提取出的语义词向量与lda模型提取出的主题词向量进行连接，并使用k-means算法对连接后的词向量进行聚类处理。此方法不仅可以有效地分析组合词向量之间的相关性，还能充分挖掘词汇的语义及重要程度，从而达到主题精准识别的目的。本专利技术的核心优势在于通过连接后的词向量，能够充分结合上下文语义信息，弥补lda主题模型的劣势，训练出更优的主题向量，得到具有更好细粒度和聚类精准度的关键主题识别效果。

本文档来自技高网...

【技术保护点】

1.一种基于BERT-LDA模型的文本主题识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在获取原始文件之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，对所述第一语义词向量进行降维处理，得到降维后的语义词向量，作为第二语义词向量，包括：

4.根据权利要求1所述的方法，其特征在于，将所述主题词向量与所述第二语义词向量进行连接，得到连接后的词向量，作为目标词向量，包括：

【技术特征摘要】

1.一种基于bert-lda模型的文本主题识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在获取原始文件之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，对...

【专利技术属性】
技术研发人员：张彦，李姚矿，苗永明，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人