一种引入注意力机制的卷积神经网络与支持向量机分类器结合的文本分类方法技术

技术编号：34549430 阅读：63 留言：0更新日期：2022-08-17 12:33

本发明专利技术涉及一种引入注意力机制的卷积神经网络与支持向量机分类器结合的文本分类方法。通过使用注意力层，可以将更高的权重值赋予在对于文本分类上更具有决定性因素的特征词语上，同时将与文本分类无关的词语降低其权重值。在全连接层中，使用基于支持向量机的分类器替代卷积神经网络模型中的softmax层实现分类，提升模型的泛化能力与分类的准确性。提升模型的泛化能力与分类的准确性。提升模型的泛化能力与分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种引入注意力机制的卷积神经网络与支持向量机分类器结合的文本分类方法

[0001]本专利技术涉及文本分类，主要涉及基于卷积神经网络与支持向量机分类器的文本分类方法。

技术介绍

[0002]在需要与客户沟通的行业，处理大量的用户在线文本是非常耗时的。因此，在接收到用户在线留言时，首先可对该在线文本进行文本分类，标识出该在线文本所涉及的问题类别，以便于快速地转发到相应的部门或人员或后续进程进行处理(例如，自动回复或人工回复)。此外，用户存储在平台中的文本记录也是相当有用的。对这些存储的文本记录进行文本分类可以对用户的行为和意图进行统计分析，以例如预测用户今后的需求趋势。
[0003]目前，文本分类技术中较为主流的两个方向是基于传统机器学习的文本分类技术和基于深度学习的文本分类技术。
[0004]基于传统机器学习的文本分类技术属于浅层模型。在该技术中，首先对文本数据集进行预处理，去除其中对分类无用的语气词；其次，将有效词语与空间向量进行映射及降维，从而完成词语的特征工程，提取出特征词语；最后，将文本数据集与机器学习模型算法进行结合，使用测试集进行验证。基于机器学习的文本分类技术，通常需要进行复杂的特征工程以便提取出对文本分类影响因素更大的特征词语。
[0005]目前，基于卷积神经网络模型的文本分类技术相比于基于传统机器学习的文本分类技术而言，不需要进行复杂的特征工程以及适应性强且易于在不同文本领域进行转换。在卷积神经网络模型中，只需要将数据集导入网络模型中，就可以实现良好的性能，不需要进行繁琐而庞大...

【技术保护点】

【技术特征摘要】
1.一种用于文本分类的方法，包括：构建词向量；将构建的词向量作为源数据输入卷积神经网络模型中，所述卷积神经网络模型包括注意力机制并采用支持向量机分类器进行文本分类；在所述卷积神经网络模型中：将构建的词向量与卷积核进行卷积运算；使用池化算法，将词向量进行进一步的降维；使用所述注意力机制对经降维的词向量进行特征词语的选取，其中对于文本分类能力更强的词语被赋予较高的权重，对于文本分类能力较弱的词语被赋予较低的权重；以及使用支持向量机分类器对已经完成特征词语选取的词向量进行文本分类。2.如权利要求1所述的方法，其特征在于，所述词向量是基于用户文本数据集构建的，所述用户文本数据集包括用户在线文本和/或用户留言文本。3.如权利要求2所述的方法，其特征在于，构建词向量进一步包括：对所述用户文本数据集中的文本进行语料清洗；以及使用word2vec中的连续词袋模型，对经语料清洗的词语进行词向量的构建。4.如权利要求3所述的方法，其特征在于，对所述用户文本数据集中的文本进行语料清洗进一步包括：将所述用户文本数据集按照其所属的分类进行归类；对所述用户文本数据集中的文本进行分词；将所述文本中的语气助词、标点符号及停顿词进行去除。5.如权利要求1所述的方法，其特征在于，所述池化算法为平均池化算法。6.一种用于文本分类的系统，包括：文本预处理模块，所述文本预处理模块被配置为构建...

【专利技术属性】
技术研发人员：何铠，陆涛，徐忠胜，王哲奥，邵羽丰，
申请(专利权)人：天翼数字生活科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人