一种非结构化文本数据分类分级方法技术

技术编号：41116347 阅读：20 留言：0更新日期：2024-04-25 14:06

本发明专利技术公开一种非结构化文本数据分类分级方法，预处理非结构化文本数据并使用Transformer生成模型转换得到词与词之间的共现关系数据并关键信息特征；使用TransformerClassifier进行分类和分级；将Transformer生成模型反向复刻得到的解码模型与Transformer生成模型拼接得到自编码器模型；利用未人工标记的数据通过反向传播拟合得到自编码器模型的特征提取能力后将解码模型移除；将激活函数的结果输出到文本分类和分级的结果中；根据TransformerClassifier和激活函数的分类和分级结果得到文本中的关键信息进行分类得到最终的文本数据分类分级。本发明专利技术更加准确地识别文本中的关键信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能数据处理领域，尤其涉及一种非结构化文本数据分类分级方法。

技术介绍

1、随着互联网和信息技术的发展，人们在日常生活和工作中产生了大量的非结构化文本数据。这些数据包括社交媒体帖子、新闻文章、网页、邮件等。这些数据具有信息含量高、多样化和复杂性等特点，但是人工处理这些数据的难度较大，效率低下，而且容易出现偏差和误差。因此，对非结构化文本数据进行分类分级处理，可以帮助人们更好地理解和分析这些数据，从而提高决策的准确性和效率。目前，非结构化文本数据分类分级的技术现状：

2、(1)文本分类技术：文本分类技术是非结构化文本数据分类分级的核心技术之一。目前，有许多不同的文本分类算法和模型被用于非结构化文本数据分类分级。其中，最常用的算法包括朴素贝叶斯算法、支持向量机算法、神经网络算法等。这些算法可以根据文本内容自动判断其属于哪个类别，从而实现对文本数据的分类和分级。

3、(2)文本聚类技术：文本聚类技术是将相似的文本归为一组的技术。它可以帮助人们更好地理解和分析非结构化文本数据中的主题和概念。目前，有许多不同的文本聚类算法和模型被用于非结构化文本数据聚类。其中，最常用的算法包括k-means算法、层次聚类算法、基于密度的聚类算法等。这些算法可以将相似的文本归为一组，从而实现对文本数据的聚类和分级。

4、(3)关键词提取技术：关键词提取技术是从非结构化文本数据中提取重要信息的技术。它可以帮助人们更好地理解和分析文本数据中的主题和概念。目前，有许多不同的关键词提取算法和模型被用于非结构化文

5、非结构化文本数据分类分级的背景和技术现状存在以下一些缺点：1.无法处理大量数据：对于非结构化文本数据的分类分级，如果需要处理的数据量非常大。传统的人工处理方法的效率低下，容易出现误差和偏差。2.多义性和歧义性：非结构化文本数据中的词汇、短语和句子可能具有多义性和歧义性，这使得分类分级处理变得更加困难。3.噪声和异常值：非结构化文本数据中可能存在噪声和异常值，这使得分类分级处理变得更加复杂。因此，需要采用一些技术手段来识别和剔除这些数据，如异常检测、自适应算法等。4.高维度和复杂性：非结构化文本数据通常包含多个维度和多个方面的信息，这使得分类分级处理变得更加复杂。因此，需要采用一些技术手段来降低维度，如主成分分析、因子分析、信息压缩等。

6、总之，非结构化文本数据分类分级的背景和技术现状存在一些挑战和难点，需要采用一些新技术和工具来解决这些问题，以提高分类分级的效率和准确性。。

技术实现思路

1、本专利技术的目的在于提供一种非结构化文本数据分类分级方法，可以更加准确地识别文本中的关键信息，从而提高文本分类和分级的效率和准确性。

2、本专利技术采用的技术方案是：

3、一种非结构化文本数据分类分级方法，其包括以下步骤：

4、步骤1：对输入的非结构化文本数据进行数据预处理，数据预处理包括文本清洗、分词、词性标注和命名实体识别操作，以提高数据的质量和分类分级的准确性。

5、步骤2：使用transformer生成模型将预处理后的文本转换得到词与词之间的共现关系数据，并将输出的共现关系数据作为输入到transformerclassifier的自注意力学习机制中分析提取关键信息特征；

6、具体地，transformerclassifier是一种基于注意力机制的神经网络模型，可以自动地将输入的文本转换为高质量的数据，并且可以自动地对数据进行分类和分级。

7、步骤3：使用transformerclassifier对输入的数据进行分类和分级，并将分类和分级结果输入到激活函数中，以将文本的不同特征映射到相同的类别或分级；

8、步骤4：将transformer生成模型进行反向复刻得到一个解码模型(即升维模型结构)，并与transformer生成模型进行拼接得到自编码器模型(autoencoder结构)；将未人工标记的数据输入自编码器模型中，通过反向传播拟合得到自编码器模型的特征提取能力后将解码模型移除；

9、步骤5：将激活函数的输出结果输出到文本分类和分级的结果中，用于提高分类和分级的准确性和稳定性；

10、具体地，在文本分类和分级中softmax函数将文本或图像的不同特征映射到相同的类别或分级，从而提高分类和分级的准确性和稳定性。

11、步骤6：根据transformerclassifier和激活函数的分类和分级结果，得到文本中的关键信息并用于文本分类和分级的应用中，得到最终的文本数据分类分级。

12、具体地，通过使用transformerclassifier和softmax的分类和分级结果，可以更加准确地识别文本中的关键信息，并将其用于文本分类和分级的应用中，从而提高文本分类和分级的效率和准确性。

13、进一步地，步骤2中transformer生成模型执行如下步骤：

14、步骤2-1，将分好的词按照顺序输入到词嵌入层中建立词与词之间的共现关系，

15、进一步地，词嵌入层通过使用skip-gram模型训练得到；skip-gram模型用于建立词与词之间的共现关系，即p(wt|wt+j)，其中j∈{±1，…，±k}；skip-gram的表现形式是：

16、

17、其中，p(c|wt)代表通过wt预测上下文除了wt的联合概率；wt代表第t个词的独热编码，代表的是向量v′c以及v′w′向隐藏层投射的矩阵；v′c代表除wt自身的上下文的词向量；v′w′代表所有的词向量；c代表除wt自身以外的所有词集合，c∈{wt-2，wt-1，wt+1，wt+2}。

18、步骤2-2，经过词嵌入层编码后的向量作为transformer块的输入，利用self-attention的自注意力机制自动分析提取关键信息特征。

19、进一步地，self-attention为自注意力层，self-attention的数学表示包括三个部分：查询(q)，键(k)和值(v)；通过如下公式进行计算：

20、

21、其中，a表示注意力权重，q、k和v分别表示查询、键和值的矩阵，dk表示键向量维数。以上这部分定义为编码模型。

22、进一步地，步骤3的激活函数采用softmax函数。

23、具体的，softmax函数是一种常用的激活函数，可以将输出的多个指标(如文字或图像权重)转化为单个值，并将其映射到某个轴上。在文本分类和分级中，softmax函数可以将文本或图像的不同特征映射到相同的类别或分级，从而提高分类和分级的准确性和稳定性。

24、进一步地，步骤4自编码器模型采用关于输入x与预测输出x′的损失函本文档来自技高网...

【技术保护点】

1.一种非结构化文本数据分类分级方法，其特征在于：其包括以下步骤：

2.根据权利要求1所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2中Transformer生成模型执行如下步骤：

3.根据权利要求2所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2-1中词嵌入层通过使用Skip-gram模型训练得到；Skip-gram模型用于建立词与词之间的共现关系，即P(wt|wt+j)，其中j∈{±1,…,±k}；Skip-gram的表现形式是：

4.根据权利要求2所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2-2中Self-Attention为自注意力层，通过如下公式进行计算：

5.根据权利要求1所述的一种非结构化文本数据分类分级方法，其特征在于：步骤3的激活函数采用Softmax函数。

6.根据权利要求1所述的一种非结构化文本数据分类分级方法，其特征在于：步骤4自编码器模型采用关于输入X与预测输出X′的损失函数，并利用梯度下降法最小化损失函数：

7.根据权利要求1所述的一种非结构化文本

8.根据权利要求7所述的一种非结构化文本数据分类分级方法，其特征在于：步骤4-1中采用批量训练数据时，对批量数据集计算平均损失函数，则损失函数的表示形式为：

9.根据权利要求1所述的一种非结构化文本数据分类分级方法，其特征在于：步骤5的具体步骤如下：

...

【技术特征摘要】

1.一种非结构化文本数据分类分级方法，其特征在于：其包括以下步骤：

2.根据权利要求1所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2中transformer生成模型执行如下步骤：

3.根据权利要求2所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2-1中词嵌入层通过使用skip-gram模型训练得到；skip-gram模型用于建立词与词之间的共现关系，即p(wt|wt+j)，其中j∈{±1,…,±k}；skip-gram的表现形式是：

4.根据权利要求2所述的一种非结构化文本数据分类分级方法，其特征在于：步骤2-2中self-attention为自注意力层，通过如下公式进行计算：

5.根据权利要求1所述的一种非结构化文...

【专利技术属性】
技术研发人员：郑炎，吴宝花，
申请(专利权)人：中电福富信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人