System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于LDA模型和LSTM算法的公共文本分析方法及系统技术方案_技高网

基于LDA模型和LSTM算法的公共文本分析方法及系统技术方案

技术编号:44825086 阅读:4 留言:0更新日期:2025-03-28 20:15
本发明专利技术提供一种基于LDA模型和LSTM算法的公共文本分析方法及系统。该方法包括:获取科技项目的目标文本数据;提取目标文本数据中的特征词,依据特征词构建特征词向量矩阵;基于特征词向量矩阵,构建困惑度曲线,并基于困惑度曲线构建主题模型;基于主题模型,确定目标主题的主题关注度,并基于主题关注度确定关注度趋势特征,关注度趋势特征用于指示所述目标主题在时间维度、空间维度以及主题维度上的变化趋势;利用预先建立的情感分析模型对目标文本数据进行分析,得到情感分析结果;基于目标主题、关注度趋势特征和情感分析结果,生成科技项目的文本分析结果。本申请实现了公共文本的智能化分析,提高了文本解读的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及文本分析,尤其涉及一种基于lda模型和lstm算法的公共文本分析方法及系统。


技术介绍

1、随着公共管理的不断发展,公共文本数量呈现爆发式增长,如何从海量文本中快速准确地提取有价值的信息,已成为各部门和企业面临的重要挑战。

2、目前,常见的公共文本分析方法主要包括人工阅读分析和关键词匹配等传统方法。这些方法往往依赖人工经验,分析效率低下,且难以应对大规模文本数据的处理需求。

3、近年来,随着机器学习技术的发展,一些研究开始尝试将主题模型应用于公共文本分析。这类方法通过计算文本特征,实现文本主题的自动识别和分类。但是,这些方法在处理公共文本时仍存在一些局限性,如主题数量难以确定、关注度分析维度单一等问题。

4、因此,现有技术存在以下技术问题:一是缺乏有效的主题优化方法,导致主题划分不够精准;二是缺乏多维度的关注度分析框架,难以全面把握公共文本的演变趋势;三是情感分析过于简单,无法准确识别文本的具体导向。所以,现有技术的文本分析准确度较低。


技术实现思路

1、鉴于此,本申请提供一种基于lda模型和lstm算法的公共文本分析方法及系统,解决了现有技术中主题划分不够精准、关注度分析维度单一以及情感分析过于简单的问题。

2、本申请实施例提供了一种基于lda模型和lstm算法的公共文本分析方法,包括:

3、获取科技项目的目标文本数据;

4、提取所述目标文本数据中的特征词,以依据所述特征词构建特征词向量矩阵,所述目标文本数据包括词频数据和逆文档频率数据;

5、基于所述特征词向量矩阵,构建困惑度曲线,并基于所述困惑度曲线构建主题模型,所述困惑度曲线用于指示所述目标文本数据中的主题数与困惑度之间的关系,所述主题模型用于指示对所述目标文本数据进行主题聚类后获得多个目标主题;

6、基于所述主题模型,确定所述目标主题的主题关注度,并基于所述主题关注度确定关注度趋势特征,所述主题关注度用于指示在指定时间段内各目标主题的分布,所述关注度趋势特征用于指示所述目标主题在时间维度、空间维度以及主题维度上的变化趋势;

7、利用预先建立的情感分析模型对所述目标文本数据进行分析,得到情感分析结果;

8、基于所述目标主题、所述关注度趋势特征和所述情感分析结果,生成所述科技项目的文本分析结果。

9、可选地,通过如下步骤以构建情感分析模型,包括:

10、对样本文本数据进行句子级分割,得到多个文本语句;

11、标识所述文本语句中的鼓励型句子为第一情感标识值,标识所述文本语句中的限制型句子为第二情感标识值,以及标识所述文本语句中的普通型句子为第三情感标识值;

12、将标识后的文本语句按预设比例划分为训练集和测试集;

13、基于所述训练集,确定预设的lstm模型中的训练参数,其中,所述训练参数包括批处理大小 、丢弃率参数、训练轮数、序列长度、词表长度以及输出类别数;

14、基于所述训练参数,利用所述训练集训练所述lstm模型;

15、利用所述测试集对训练后的lstm模型进行测试,得到性能评估指标,并结合所述性能评估指标,得到所述情感分析模型,其中,所述性能评估指标包括准确率、精确率、召回率和f1值。

16、可选地,所述基于所述主题模型,确定所述目标主题的主题关注度,并基于所述主题关注度确定关注度趋势特征,包括:

17、基于所述主题模型和所述目标文本数据,确定所述目标文本数据中每个记录文档的文档主题关注度,所述文档主题关注度用于指示在任一时间段内所述记录文档中各所述目标主题的概率分布;

18、基于所述文档主题关注度以及任一时间段内的主题总数,确定在所述时间段内所述目标主题的主题关注度;

19、基于所述主题关注度进行时间维度分析,得到时间分布特征,所述时间分布特征包括年度趋势分析结果、季节性分析结果以及阶段分析结果,所述年度趋势分析结果用于指示所述目标主题的关注度趋势与变化特征,所述季节性分析结果用于指示所述目标主题的发布时间特征及周期性规律,所述阶段分析结果用于指示不同的项目发展阶段下所述目标主题的演变特征和重点转移路径;

20、基于所述主题关注度进行空间维度分析,得到空间分布特征,所述空间分布特征包括区域分布特征、省份分布特征以及空间聚类分布特征,所述区域分布特征用于指示各区域的主题关注度分布以及区域间的项目差异,所述省份分布特征用于指示各省份的主题关注度情况以及指定省份的项目特征,所述空间聚类分布特征用于指示以所述科技项目为导向的地理分布特征以及区域协同发展趋势;

21、基于所述主题关注度进行主题维度分析,得到主题分布特征,所述主题分布特征用于指示各目标主题之间的重要性排序、主题相关性以及主题演化趋势;

22、基于所述时间分布特征、所述空间分布特征以及所述主题分布特征进行多维度交叉分析,得到关注度趋势特征。

23、可选地,所述基于所述特征词向量矩阵,构建困惑度曲线,并基于所述困惑度曲线构建主题模型,包括:

24、使用所述特征词向量矩阵,初始化预设的初始主题模型的模型参数,所述模型参数包括主题数、超参数、迭代次数;

25、基于所述模型参数和所述特征词向量矩阵,对所述初始主题模型进行迭代训练,并记录每个主题数对应的困惑度,以构建困惑度曲线;

26、检测所述困惑度曲线的变化率,并获取在所述变化率低于预设的变化率阈值时对应的主题数,基于获取到的主题数构建主题模型。

27、可选地,所述提取所述目标文本数据中的特征词,以依据所述特征词构建特征词向量矩阵,包括:

28、基于所述目标文本数据,计算所述目标文本数据中每个词语的词频数据,所述词频数据用于指示所述词语在记录文档中的出现频率;

29、基于所述词频数据,计算所述词语的逆文档频率数据,所述逆文档频率数据用于指示所述词语的重要程度;

30、基于所述词频数据和所述逆文档频率数据,确定所述词语的词语特征数据;

31、基于所述词语特征数据,筛选特征词。

32、可选地,所述基于所述训练参数,利用所述训练集训练所述lstm模型,包括:

33、构建特征增强模型,其中,所述特征增强模型包括编码器和解码器,所述编码器包括用于提取序列特征的mamba块以及由unet结构构成的跳跃连接结构,所述跳跃连接结构用于指示融合不同的尺度特征,所述解码器包括用于指示处理时序依赖关系的lstm层;

34、将所述训练集映射为词向量序列;

35、构建具有句子级特征和文档级特征的输入结构,并由所述输入结构形成增强训练样本集;

36、基于所述增强训练样本集,对所述特征增强模型进行自监督预训练;

37、引入标注数据,基于所述增强训练样本集对预训练后的特征增强模型进行微调,生成特征处理模型;...

【技术保护点】

1.一种基于LDA模型和LSTM算法的公共文本分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过如下步骤以构建情感分析模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述主题模型,确定所述目标主题的主题关注度,并基于所述主题关注度确定关注度趋势特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述特征词向量矩阵,构建困惑度曲线,并基于所述困惑度曲线构建主题模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述提取所述目标文本数据中的特征词,以依据所述特征词构建特征词向量矩阵,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述训练参数,利用所述训练集训练所述LSTM模型,包括:

7.根据权利要求6所述的方法,其特征在于,所述提取所述目标文本数据中的特征词,以依据所述特征词构建特征词向量矩阵,还包括:

8.根据权利要求7所述的方法,其特征在于,所述获取科技项目的目标文本数据,包括:

9.根据权利要求8所述的方法,其特征在于,所述方法还包括:

10.一种基于LDA模型和LSTM算法的公共文本分析系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于lda模型和lstm算法的公共文本分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,通过如下步骤以构建情感分析模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述主题模型,确定所述目标主题的主题关注度,并基于所述主题关注度确定关注度趋势特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述特征词向量矩阵,构建困惑度曲线,并基于所述困惑度曲线构建主题模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述提取所述目标文本数据中的特征词,...

【专利技术属性】
技术研发人员:邓明森喻曦石尚蒋合领陈军义
申请(专利权)人:贵州财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1