基于SAO结构的科技文本主题识别与聚类筛选方法及系统技术方案

技术编号：41717352 阅读：3 留言：0更新日期：2024-06-19 12:44

本发明专利技术公开了基于SAO结构的科技文本主题识别与聚类筛选方法及系统，涉及文本主题识别技术领域，包括：对数据库中的文本进行收集，基于机器学习分类模型初步筛选科技文本，进行数据预处理；对科技文本利用依存句法分析技术提取SAO结构，优化SAO提取的规则和方法；将提取的SAO结构转化为特征向量，将特征向量输入到LDA模型中，训练模型识别文本的潜在主题，根据训练结果调整模型参数；从LDA模型中提取文本的主题分布作为特征，将文本的主题分布特征输入到K‑means聚类算法中，进行文本聚类。本发明专利技术提供的基于SAO结构的科技文本主题识别与聚类筛选方法更准确地识别和聚类文本主题，具有更好的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本主题识别，具体为基于sao结构的科技文本主题识别与聚类筛选方法及系统。

技术介绍

1、在科技文本主题识别与聚类筛选的领域中，传统方法多依赖于基本的文本处理技术，如关键词匹配和基础统计方法。这些方法虽然在处理简单任务时有效，但面对大规模、高维度和多样性的数据时常常显得力不从心。

2、传统方法的主要缺点包括：准确性不足，无法深入理解文本的语义结构，导致主题识别和分类的准确性不足。适应性差，对新领域或多样化的文本数据适应性差，难以应对快速变化的科技文本特点。效率低下，处理大规模数据时，效率低下，难以满足实时或大规模的数据处理需求。

3、因此亟需一种基于sao结构的科技文本主题识别与聚类筛选方法。深入挖掘文本的语义关系，提高主题识别和聚类的准确性。

技术实现思路

1、鉴于上述存在的问题，提出了本专利技术。

2、因此，本专利技术解决的技术问题是：现有的传统文本处理和主题识别方法存在准确性不足、适应性差、效率低下，以及如何深入理解文本语义并有效处理大规模数据的优化问题。

3、为解决上述技术问题，本专利技术提供如下技术方案：基于sao结构的科技文本主题识别与聚类筛选方法，包括：

4、对数据库中的文本进行收集，基于机器学习分类模型初步筛选科技文本，进行数据预处理；对科技文本利用依存句法分析技术提取sao结构，优化sao提取的规则和方法；将提取的sao结构转化为特征向量，将特征向量输入到lda模型中，训练模型识别文本的潜在

5、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述初步筛选科技文本包括对文本进行tf-idf计算，选择tf-idf值大于预设阈值的词作为特征，使用所选特征构建文档的特征向量，训练朴素贝叶斯分类模型识别科技文本和非科技文本。

6、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述tf-idf计算表示为，

7、

8、

9、tfidf(t,d,d)＝tf(t,d)×idf(t,d)

10、其中，t表示词项，d表示文档，d表示文档集合，ft,d表示词项t在文档d中的出现次数，∑t′∈dft′,d表示文档d中所有词项的出现次数之和，|d|表示文档集合中文档的总数，|d∈d:t∈d|表示包含词项t的文档数，tf(t,d)表示词项t在文档d中的相对频率，idf(t,d)表示衡量词项t在文档集合d中的普遍重要性，tfidf(t,d,d)表示词项t在文档d中的tf-idf值。

11、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述提取sao结构表示为，

12、x＝[x1,x2,…,xn]t

13、

14、

15、

16、其中，x表示所有文档的特征向量构成的特征矩阵，xi表示第i篇文档的特征向量，n表示文档的总数，h(l+1)表示第l+1层的节点特征矩阵，代表依存句法分析中每个词语的特征表示，表示规范化度矩阵，表示邻接矩阵，h(l)表示第l层的节点特征矩阵，初始为x，w(l)表示第l层的权重矩阵，σ表示非线性激活函数，sij表示文档i中第j个sao结构的评分，k表示考虑的sao结构总数，表示指示函数，表示从依存句法分析获得的最终特征表示，y表示输出的标注序列，s表示输入的特征，z(x)表示规范化因子，λk表示特征函数fk的权重，fk表示特征函数。

17、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述提取sao结构包括从已筛选的科技文本中构建特征矩阵x，采用依存句法分析技术对每个句子进行分析，得到句子中各词语的依存关系，使用深度学习方法优化依存句法分析技术，表示为h(l+1)；根据依存关系标签和词性标签从依存句法树中识别和提取sao结构，利用算法对每个句子的依存句法树进行遍历，识别出所有主体-动作-客体组合，采用统计方法对提取出的sao组合进行频率分析，表示为sij，若sij大于预设阈值，确定高频组合为正确的结构；对提取的sao结构应用语义角色标注技术，采用srl分析主体、动作和客体的语义一致性；对于每个文档，通过crf模型p(y∣s)，为sao结构分配语义角色；使用自然语言处理技术分析提取的sao结构与文档整体的语义一致性，识别文档中的关键概念和上下文信息，利用一致性评分评估语义角色标注的结果与文档主题的匹配度。

18、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述将提取的sao结构转化为特征向量包括使用预训练的词嵌入模型，将sao结构文本表示转换为词嵌入，获取每个词的向量表示，结合词向量表示整个sao结构，对每个文档，聚合所有sao结构的表示来形成文档的特征向量，将sao结构的频率作为特征向量的加权因子，将每个文档的特征向量作为lda模型的输入，设置lda模型的参数，通过交叉验证优化模型参数，使用所有文档的特征向量训练lda模型，迭代更新模型参数，并监控模型的收敛情况，使用困惑度模型评估指标评估模型质量，并根据指标调整模型参数。

19、作为本专利技术所述的基于sao结构的科技文本主题识别与聚类筛选方法的优选方案，其中：所述进行文本聚类包括分析文档的词汇使用情况，映射到一组主题上，对从lda模型得到的主题分布进行预处理，使用预处理后的主题分布作为特征，对文档进行k-means聚类，相似的文档根据主题分布被分配到相同的类别中，聚类过程中，动态计算和更新每个类别的中心，直至收敛，评估聚类结果的质量，使用轮廓系数评价每个聚类的凝聚度和分离度，根据评估结果，调整聚类算法的参数。

20、本专利技术的另外一个目的是提供基于sao结构的科技文本主题识别与聚类筛选系统，其能通过深度语义分析和优化聚类算法，解决了科技文本主题识别的准确性和聚类效率问题。

21、为解决上述技术问题，本专利技术提供如下技术方案：基于sao结构的科技文本主题识别与聚类筛选系统，包括：数据收集模块、结构提取模块、模型训练模块以及聚类分析模块；所述数据收集模块用于对数据库中的文本进行收集，基于机器学习分类模型初步筛选科技文本，进行数据预处理；所述结构提取模块用于对科技文本利用依存句法分析技术提取sao结构，优化sao提取的规则和方法；所述模型训练模块用于将提取的sao结构转化为特征向量，将特征向量输入到lda模型中，训练模型识别文本的潜在主题，根据训练结果调整模型参数；所述聚类分析模块用于从lda模型中提取文本的主题分布作为特征，将文本的主题分布特征输入到k-means聚类算法中，进行文本聚类。

22、计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计本文档来自技高网...

【技术保护点】

1.基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于，包括：

2.如权利要求1所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述初步筛选科技文本包括对文本进行TF-IDF计算，选择TF-IDF值大于预设阈值的词作为特征，使用所选特征构建文档的特征向量，训练朴素贝叶斯分类模型识别科技文本和非科技文本。

3.如权利要求2所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述TF-IDF计算表示为，

4.如权利要求3所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述提取SAO结构表示为，

5.如权利要求4所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述提取SAO结构包括从已筛选的科技文本中构建特征矩阵X，采用依存句法分析技术对每个句子进行分析，得到句子中各词语的依存关系，使用深度学习方法优化依存句法分析技术，表示为H(l+1)；根据依存关系标签和词性标签从依存句法树中识别和提取SAO结构，利用算法对每个句子的依存句法树进行遍历，识别出所有主体-动作-客

6.如权利要求5所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述将提取的SAO结构转化为特征向量包括使用预训练的词嵌入模型，将SAO结构文本表示转换为词嵌入，获取每个词的向量表示，结合词向量表示整个SAO结构，对每个文档，聚合所有SAO结构的表示来形成文档的特征向量，将SAO结构的频率作为特征向量的加权因子，将每个文档的特征向量作为LDA模型的输入，设置LDA模型的参数，通过交叉验证优化模型参数，使用所有文档的特征向量训练LDA模型，迭代更新模型参数，并监控模型的收敛情况，使用困惑度模型评估指标评估模型质量，并根据指标调整模型参数。

7.如权利要求6所述的基于SAO结构的科技文本主题识别与聚类筛选方法，其特征在于：所述进行文本聚类包括分析文档的词汇使用情况，映射到一组主题上，对从LDA模型得到的主题分布进行预处理，使用预处理后的主题分布作为特征，对文档进行K-means聚类，相似的文档根据主题分布被分配到相同的类别中，聚类过程中，动态计算和更新每个类别的中心，直至收敛，评估聚类结果的质量，使用轮廓系数评价每个聚类的凝聚度和分离度，根据评估结果，调整聚类算法的参数。

8.采用如权利要求1～7任一所述的基于SAO结构的科技文本主题识别与聚类筛选方法的系统，其特征在于，包括：数据收集模块、结构提取模块、模型训练模块以及聚类分析模块；

9.计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于SAO结构的科技文本主题识别与聚类筛选方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于SAO结构的科技文本主题识别与聚类筛选方法的步骤。

...

【技术特征摘要】

1.基于sao结构的科技文本主题识别与聚类筛选方法，其特征在于，包括：

2.如权利要求1所述的基于sao结构的科技文本主题识别与聚类筛选方法，其特征在于：所述初步筛选科技文本包括对文本进行tf-idf计算，选择tf-idf值大于预设阈值的词作为特征，使用所选特征构建文档的特征向量，训练朴素贝叶斯分类模型识别科技文本和非科技文本。

3.如权利要求2所述的基于sao结构的科技文本主题识别与聚类筛选方法，其特征在于：所述tf-idf计算表示为，

4.如权利要求3所述的基于sao结构的科技文本主题识别与聚类筛选方法，其特征在于：所述提取sao结构表示为，

5.如权利要求4所述的基于sao结构的科技文本主题识别与聚类筛选方法，其特征在于：所述提取sao结构包括从已筛选的科技文本中构建特征矩阵x，采用依存句法分析技术对每个句子进行分析，得到句子中各词语的依存关系，使用深度学习方法优化依存句法分析技术，表示为h(l+1)；根据依存关系标签和词性标签从依存句法树中识别和提取sao结构，利用算法对每个句子的依存句法树进行遍历，识别出所有主体-动作-客体组合，采用统计方法对提取出的sao组合进行频率分析，表示为sij，若sij大于预设阈值，确定高频组合为正确的结构；对提取的sao结构应用语义角色标注技术，采用srl分析主体、动作和客体的语义一致性；对于每个文档，通过crf模型p(y∣s)，为sao结构分配语义角色；使用自然语言处理技术分析提取的sao结构与文档整体的语义一致性，识别文档中的关键概念和上下文信息，利用一致性评分评估语义角色标注的结果与文档主题的匹配度。

6.如权利要求5所述的基于sao结构的科技文本主题识别与聚类筛选方法，其特征在...

【专利技术属性】
技术研发人员：林正平，杨宇亮，石嘉豪，周育忠，胡玉峰，
申请(专利权)人：南方电网科学研究院有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人