基于主题增强词表示的短文本分类方法和系统技术方案

技术编号：40261240 阅读：7 留言：0更新日期：2024-02-02 22:51

本发明专利技术提供一种基于主题增强词表示的短文本分类方法和系统，涉及文本分类技术领域。本发明专利技术基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；基于预先构建的TextCNN网络对所述主题增强的词向量进行处理，得到文本分类结果；其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的Skip‑gram模型得到，所述改进的Skip‑gram模型是在Skip‑gram模型上增加预测中心词主题得分的任务。本发明专利技术通过待分类文本所属领域的训练文本对改进的Skip‑gram模型进行训练，得到的词向量增强模型可以获得词语的丰富语义信息，减少短文本信息量少、特征稀疏对分类任务的影响，有效提升短文本分类的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本分类，具体涉及一种基于主题增强词表示的短文本分类方法和系统。

技术介绍

1、随着移动互联网技术的发展，以知乎、微博等为代表的一系列社交平台应运而生。在这些社交平台中，用户们围绕感兴趣的内容进行自由交流，产生了许多包含用户观点的有用评论短文本。因此，构建短文本分类方法有助于识别出包含关键信息的短文本，为后续的用户观点挖掘提供支持。

2、短文本由于词汇量有限、上下文不完整和缺乏复杂的句法结构等原因，通常表现出信息量少和特征稀疏的特点。传统的短文本分类通常将n-gram、tf-idf文本特征输入到机器学习模型进行分类，通过增加特征工程的方式来提升短文本分类的效果。但是机器学习的特征工程构建通常需要依赖人工的经验和领域知识，难以进行大规模数据处理。

3、或者，现有的深度学习技术往往利用word2vec、bert等模型训练的词嵌入来向量化短文本，并通过cnn、rnn、transformer等模型来进行文本分类任务。但由于用户的评论内容往往属于同一个领域，基于通用知识库训练的词向量可能会稀释短文本所在领域中词汇的语义，且分类模型仅依赖文本语义表示难以判断分类所需的关键信息特征，使得短分类精度不高。

4、因此，亟需一种短文本分类方法，用以提升短文本分类的分类精度。

技术实现思路

1、（一）解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于主题增强词表示的短文本分类方法和系统，解决了现有短文本分类的分类精度较低的问题。

3、（二）技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：

5、第一方面，本专利技术提供一种基于主题增强词表示的短文本分类方法，包括：

6、s1、获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；

7、s2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；

8、s3、基于预先构建的textcnn网络对所述主题增强的词向量进行处理，得到文本分类结果；

9、其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的skip-gram模型得到，所述改进的skip-gram模型是在skip-gram模型上增加预测中心词主题得分的任务。

10、优选的，所述预先构建词向量增强模型的构建过程包括：

11、a、获取目标领域的多条短文本，并进行清洗和分词处理，得到目标领域语料库，并对目标领域语料库中的词进行初始化词向量；

12、b、将目标领域语料库中的每个词依次作为中心词，并基于中心词对目标领域语料库进行窗口滑动操作，获取所述中心词的上下文词，将中心词的上下文词的初始词向量作为上下文矩阵真实值；

13、c、基于预设的主题词典获取所述中心词对应的主题得分，作为主题得分真实值；

14、d、将中心词的初始词向量输入至改进的skip-gram模型的隐藏层，预测中心词主题得分；

15、e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数，计算损失值，并进行误差反向传播用于更新输出层和隐藏层之间的权重；设置一个最大的训练轮数b，如果词向量增强模型损失值在b轮次中没有降低，则提前结束训练，得到词向量增强模型，其中b<b。

16、优选的，所述预设的主题词典的构建过程包括：

17、从目标领域语料库中随机选取条随机样本，从与目标领域无关的领域选取条随机样本；

18、并对条随机样本进行数据清洗和分词处理，以得到单词集合；

19、根据出现频率从多至少的顺序选取所述单词集合中个单词，作为常用词；

20、计算所述常用词在目标领域的出现频率和在无关领域的出现频率，并对所述出现频率进行归一化处理；

21、通过归一化处理后的出现频率提取所述常用词中的通用常用词和领域特异性词汇；

22、从所述目标领域语料库中删除通用常用词，并留领域特异性词汇，得到处理后的目标领域语料库；

23、基于预设的lda模型对处理后的目标领域语料库进行主题提取，得到主题词典。

24、优选的，所述预设的词向量增强模型损失函数包括：

25、

26、其中，表示词向量增强模型损失函数，表示预测窗口内上下文词任务的损失函数，表示预测主题词得分任务的函数，为权重。

27、优选的，所述预先构建的textcnn网络包括卷积层、chunk-maxpooling网络层、全连接网络层和最大池化层，其中，最大池化层为chunk-maxpooling网络层。

28、优选的，所述对预处理后的待分类文本中的词进行初始向量化，包括：基于one-hot对预处理后的待分类文本中的词进行初始向量化。

29、第二方面，本专利技术提供一种基于主题增强词表示的短文本分类系统，包括：

30、数据获取模块，用于获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；

31、词向量增强模块，用于基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；

32、分类模块，用于基于预先构建的textcnn网络对所述主题增强的词向量进行处理，得到文本分类结果；

33、其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的skip-gram模型得到，所述改进的skip-gram模型是在skip-gram模型上增加预测中心词主题得分的任务。

34、优选的，所述预先构建词向量增强模型的构建过程包括：

35、a、获取目标领域的多条短文本，并进行清洗和分词处理，得到目标领域语料库，并对目标领域语料库中的词进行初始化词向量；

36、b、将目标领域语料库中的每个词依次作为中心词，并基于中心词对目标领域语料库进行窗口滑动操作，获取所述中心词的上下文词，将中心词的上下文词的初始词向量作为上下文矩阵真实值；

37、c、基于预设的主题词典获取所述中心词对应的主题得分，作为主题得分真实值；

38、d、将中心词的初始词向量输入至改进的skip-gram模型的隐藏层，预测中心词主题得分；

39、e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数，计算损失值，并进行误差反向传播用于更新输出层和隐藏层之间的权重，设置一个最大的训练轮数b，如果词向量增强模型损失值在b轮次中没有降低，则提前结束训练，得到词向量增强模型，其中b<b。

40、第三方面，本专利技术提供一种计算机可读存储介质，其存储用于基于主题增强词表示的短文本分类的计算机程序，其本文档来自技高网...

【技术保护点】

1.一种基于主题增强词表示的短文本分类方法，其特征在于，包括：

2.如权利要求1所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预先构建词向量增强模型的构建过程包括：

3.如权利要求2所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预设的主题词典的构建过程包括：

4.如权利要求2所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预设的词向量增强模型损失函数包括：

5.如权利要求1~4任一所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预先构建的TextCNN网络包括卷积层、Chunk-MaxPooling网络层、全连接网络层和最大池化层，其中，最大池化层为Chunk-MaxPooling网络层。

6.如权利要求1~4任一所述的基于主题增强词表示的短文本分类方法，其特征在于，所述对预处理后的待分类文本中的词进行初始向量化，包括：基于one-hot对预处理后的待分类文本中的词进行初始向量化。

7.一种基于主题增强词表示的短文本分类系统，其特征在于，包括：

8.如权

9.一种计算机可读存储介质，其特征在于，其存储用于基于主题增强词表示的短文本分类的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1~6任一所述的基于主题增强词表示的短文本分类方法。

10.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种基于主题增强词表示的短文本分类方法，其特征在于，包括：

2.如权利要求1所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预先构建词向量增强模型的构建过程包括：

3.如权利要求2所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预设的主题词典的构建过程包括：

4.如权利要求2所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预设的词向量增强模型损失函数包括：

5.如权利要求1~4任一所述的基于主题增强词表示的短文本分类方法，其特征在于，所述预先构建的textcnn网络包括卷积层、chunk-maxpooling网络层、全连接网络层和最大池化层，其中，最大池化层为chunk-maxpoolin...

【专利技术属性】
技术研发人员：王芹，顾王逸青，朱凯旋，赵树平，杨雪洁，戈戋，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人