System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于BERT-LDA模型的文本主题识别方法技术_技高网

基于BERT-LDA模型的文本主题识别方法技术

技术编号:40078154 阅读:6 留言:0更新日期:2024-01-17 01:55
本发明专利技术提供了一种基于BERT‑LDA模型的文本主题识别方法,涉及主题识别领域。本发明专利技术提供的技术方案首先借助BERT模型,将BERT模型提取出的语义词向量与LDA模型提取出的主题词向量进行连接,并使用K‑means算法对连接后的词向量进行聚类处理。此方法不仅可以有效地分析组合词向量之间的相关性,还能充分挖掘词汇的语义及重要程度,从而达到主题精准识别的目的。本发明专利技术的核心优势在于通过连接后的词向量,能够充分结合上下文语义信息,弥补LDA主题模型的劣势,训练出更优的主题向量,得到具有更好细粒度和聚类精准度的关键主题识别效果。

【技术实现步骤摘要】

本专利技术涉及文本识别领域,具体涉及一种基于bert-lda模型的文本主题识别方法。


技术介绍

1、主题模型是一种统计语言模型,用于挖掘一篇或多篇文档中隐藏的抽象主题。简而言之,如果一篇文档中有一个或多个主题,那么就会有一组或多组语义相关性较强的词语频繁出现在该文档中。而且因为文档中每个主题所占的比例不同,各个主题相关的特征词出现的频次也会有所不同。以“双减”政策对教育培训行业的影响为例,可以预见“双减”、“教培”、“失业”、“退费”等词语的出现频率会较高。

2、进一步地来说,主题模型是一种基于概率生成的模型。在此模型中,文档由多个主题构成的,而每个主题则表示为词语的概率分布。简单来说,每个词语的生成都是遵循“文档以一定的概率选择主题,然后又从该主题中以一定的概率选择单词”这样的过程。当得到一系列文档并对其进行分词处理后,输入至主题模型,该模型能够自动对文档进行计算、分析并统计文档内每个词语出现的概率,然后根据统计结果推断文档中包含的主题以及其比重。目前,较为主流的主题模型有lsa、plsa和lda。

3、在概率主题模型的研究进程中,从概率潜在语义分析模型(probabilisticlatent semantic analysis,plsa)到隐含狄利克雷分配模型(latent dirichletallocation,lda)的应用,lda模型已逐渐成为主题研究常用的分析方法。但值得注意的是,传统lda主题模型在处理短文本时,因其语义特征的稀疏性和共现信息的缺乏,导致获取共现词组成本较高,从而难以产生高质量的主题。

4、因此,基于上述的局限性,亟需引入新的模型或方法,以提升lda模型对于短文本主题识别的准确度。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于bert-lda模型的文本主题识别方法,解决了现有lda模型在短文本主题识别准确度较低的问题。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现:

5、在本专利技术的第一方面,提供了一种基于bert-lda模型的文本主题识别方法,所述方法包括:

6、获取原始文件;

7、利用lda模型从所述原始文件中提取出主题词向量;

8、基于bert模型从所述原始文件中提取出各词汇的语义词向量,作为第一语义词向量;

9、对所述第一语义词向量进行降维处理,得到降维后的语义词向量,作为第二语义词向量;

10、将所述主题词向量与所述第二语义词向量进行连接,得到连接后的词向量,作为目标词向量;

11、利用k-means算法对所述目标词向量进行聚类,从而获得文本主题分类结果。

12、可选的,在获取原始文件之后,所述方法还包括:

13、删除所述原始文件中的背景介绍内容,并利用jieba工具包对剩余文本内容进行分词操作,得到待识别文本内容。

14、可选的,对所述第一语义词向量进行降维处理,得到降维后的语义词向量,作为第二语义词向量,包括:

15、利用自动编码器对所述第一语义词向量进行降维处理,得到降维后的语义词向量,作为第二语义词向量。

16、可选的,将所述主题词向量与所述第二语义词向量进行连接,得到连接后的词向量,作为目标词向量,包括:

17、利用向量相加的方法,将所述主题词向量与所述第二语义词向量进行连接,得到连接后的词向量,作为目标词向量。

18、(三)有益效果

19、本专利技术提供了一种基于bert-lda模型的文本主题识别方法。与现有技术相比,具备以下有益效果:

20、该方法包括:获取原始文件;利用lda模型从所述原始文件中提取出主题词向量;基于bert模型从所述原始文件中提取出各词汇的语义词向量,作为第一语义词向量;对所述第一语义词向量进行降维处理,得到降维后的语义词向量,作为第二语义词向量;将所述主题词向量与所述第二语义词向量进行连接,得到连接后的词向量,作为目标词向量;利用k-means算法对所述目标词向量进行聚类,从而获得文本主题分类结果。

21、基于上述处理,本专利技术提供的技术方案首先借助bert模型,将bert模型提取出的语义词向量与lda模型提取出的主题词向量进行连接,并使用k-means算法对连接后的词向量进行聚类处理。此方法不仅可以有效地分析组合词向量之间的相关性,还能充分挖掘词汇的语义及重要程度,从而达到主题精准识别的目的。本专利技术的核心优势在于通过连接后的词向量,能够充分结合上下文语义信息,弥补lda主题模型的劣势,训练出更优的主题向量,得到具有更好细粒度和聚类精准度的关键主题识别效果。

本文档来自技高网...

【技术保护点】

1.一种基于BERT-LDA模型的文本主题识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在获取原始文件之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,对所述第一语义词向量进行降维处理,得到降维后的语义词向量,作为第二语义词向量,包括:

4.根据权利要求1所述的方法,其特征在于,将所述主题词向量与所述第二语义词向量进行连接,得到连接后的词向量,作为目标词向量,包括:

【技术特征摘要】

1.一种基于bert-lda模型的文本主题识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在获取原始文件之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,对...

【专利技术属性】
技术研发人员:张彦李姚矿苗永明
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1