一种预测问题回复质量并给与反馈的方法技术

技术编号:38617821 阅读:15 留言:0更新日期:2023-08-26 23:45
本发明专利技术涉及人工智能自然语言处理领域,提供了一种预测问题回复质量并给与反馈的方法。主旨在于解决现有方法虽然分析了文本内容,但是却忽略了文本以外的信息,最终文本分类准确性差的问题。主要方案包括获取待分类的文本数据集;对文本训练集进行向量化,得到原始文本的单词向量和标签的单词向量;基于得到的原始文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;通过和交互,得到文本特定标签表示,结合过滤的文本特征,得到最终文本向量表示,训练多标签文本分类模型;利用训练好的模型对待分类文本数据集进行多标签文本分类。本分类。本分类。

【技术实现步骤摘要】
一种预测问题回复质量并给与反馈的方法


[0001]本技术涉及人工智能自然语言处理领域,尤其涉及一种预测问题回复质量并给与反馈的方法。

技术介绍

[0002]调查问卷的问题设置对调查结果有巨大影响,好的问卷设计可用高效高质量地帮助使用者获取所需信息,反之,则会给问题调查工作带来巨大障碍,影响工作的正常进行。因此预测问题回复质量并给予反馈的技术至关重要,可以将其看作一个多标签文本分类任务进行研究。
[0003]多标签文本分类是自然语言处理中的一项关键任务。它广泛应用于情感识别、问题解答和网页标记等领域。它的目标是学习一种可以为未知文本分配适当多个标签的模型。与单标签分类相比,多标签分类方法可以更好地应用于现实生活,符合客观对象的特征和规律。然而,面对实际文本,标签的类别数量相当大,一些标签涉及的内容非常少,导致标签不平衡的问题很大,标签的输出空间会随着标签的数量呈指数增长。对于所有多标签文本分类问题,当需要更细粒度的标签分类时,还需要研究标签数量增加和标签不平衡的问题。现有的方法常常忽略标签之间的相关性,只考虑不同标签对同一文本的影响,因此它们没有很好地挖掘文本中涉及的多个标签之间的关系。因此,本文提出了一种基于隐藏空间数据和标签关联的多标签文本分类方法。多标签分类算法为一个样本分配多个标签,广泛应用于推荐系统、舆论分析、情感分类等领域。样本的不同标签之间通常存在相关性。如何在建模过程中学习标签之间的相关性是一个巨大的挑战。在新闻文本分类中,标签之间的关系是分层的。同时,每个标签与新闻文本的不同部分之间的关联程度并不相同,标签和文本特征的集成需要有针对性地建模。
[0004]传统的多标签文本分类通常采用学习文本语义增强表示的方法,如极端多标签分类的深度学习方法,结合改进的卷积神经网络和动态最大池技术,提取高级特征,以学习紧凑的文档表示;基于标签树的注意感知深度模型,使用递归神经网络对文本进行编码;基于Transformer的模型捕获一个序列中单词的相关性,以提供上下文的表示。虽然上述方法充分分析了文本内容,但是却忽略了文本以外的信息(文档信息),导致最终文本分类准确性较差。

技术实现思路

[0005]本专利技术的目的在于解决现有方法虽然分析了文本内容,但是却忽略了文本以外的信息(文档信息),导致最终文本分类准确性较差的问题。
[0006]本专利技术提供了一种预测问题回复质量并给与反馈的方法,包括以下步骤:步骤1、获取待分类的文本数据集, 文本数据集包含多标签的文本训练集;步骤2、 对文本训练集中的文本和文本训练集所对应标签集合中的标签分别进行向量化,得到文本的单词向量和标签的单词向量;
步骤3、 基于得到的文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;步骤4、 通过过滤的文本特征向量和过滤的标签特征向量交互,得到文本特定标签表示,基于文本特定标签表示训练多标签文本分类模型;步骤5、 利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。
[0007]上述技术方案中,步骤1中,对获取的待分类的文本数据集和包含标签的文本训练集进行数据预处理,具体包括构建正则表达式进行文本过滤清理非文本数据,同时使用停用词表对数据集中包含这些词的句子进行过滤,得到待分类的文本数据集。
[0008]上述技术方案中,步骤2中:文本训练集中的原始训练文本为S,根据嵌入过程得到向量,再使用BERT编码器对向量进行编码,得到原始训练文本为S编码之后的文本的单词向量;文本训练集中的标签为T,根据嵌入过程得到向量,再使用BERT编码器对向量进行编码,得到标签编码后的标签的单词向量;上述过程由公式表示为:
[0009]。
[0010]上述技术方案中,步骤3中:转换过程使用一个多层残差融合Attention机制实现,具体公式如下:
[0011][0012][0013]其中代表第k个残差层的输出,由k

1阶段的原始文本生成的第k阶段的原始文本的单词向量,代表第k个残差层的输出,由k

1阶段的标签生成的第k阶段的标签的单词向量,n∈k,SofSelfAttention()的是软注意力机制计算公式,HardSelfAttention()是硬注意力机制计算公式,为原始文本,()为非线性调节公式,和为设置参数;对于第k层的向量,使用前一层的结果进行计算,每一层的值都需要添加原始层(最开始没有进行计算的词向量)的单词向量和单词向量,从而实现残差融合过程,然后使用一个非线性调节器对原始特征进行提取,这里()为非线性调节公式,首先使用和对原始文本进行线性变换,然后使用进行激活,得到的特征与原始特征叠加,从而实现特征提取,得到文本特征向量和过滤的标签特征向量。
[0014]上述技术方案中,步骤4中,
通过过滤的文本特征和过滤的标签特征交互,得到文本特定标签表示,根据文本特定标签表示和文本的真实标签之间的差异,多次训练多标签文本分类模型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:
[0015][0016]上述公式中、、、分别为不同神经网络的线性映射参数、CrossAttention()表示一个交互式注意力机制,为用于进行判断的向量,为多类别映射函数,为偏移量,为最终类别结果,以一个向量进行表示,允许有类别的索引激活值为1,其余位置激活值为0。
[0017]因为本专利技术采用上述技术手段,因此具备以下有益效果:一、本申请技术方案整合文本及其以外的信息进行多标签文本分类。一方面,考虑到多标签文本分类中,由于标签共享相同的文档子集,文档和标签之间存在语义联系,故标签之间存在依赖关系,因此,本申请通过学习标签结构、标签内容含义和标签共享模式来解决多标签文本分类问题。
[0018]二、本专利技术实质是在文本多分类上进行了改进,所以相较于多标签文本分类,在模型训练时间上会更快速;三、因为在训练前对具有尾部标签的样本进行了数据增强,一定程度上解决了多标签文本分类长尾分布问题,同时也提升了模型预测的准确率。
附图说明
[0019]图1为技术路线图。
具体实施方式
[0020]以下将对本专利技术的实施例给出详细的说明。尽管本专利技术将结合一些具体实施方式进行阐述和说明,但需要注意的是本专利技术并不仅仅只局限于这些实施方式。相反,对本专利技术进行的修改或者等同替换,均应涵盖在本专利技术的权利要求范围当中。
[0021]另外,为了更好的说明本专利技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本专利技术同样可以实施。
[0022]本专利技术提供了一种预测问题回复质量并给与反馈的技术,包括以下步骤:步骤1、获取待分类的文本数据集, 文本数据集包含多标签的文本训练集;步骤1中,对获取的待分类的文本数据集和包含标签的文本训练集进行数据预处理,具体包括构建正则表达式进行文本过滤清理非文本数据,同时使用停用词表对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测问题回复质量并给与反馈的方法,其特征在于,包括以下步骤:步骤1、获取待分类的文本数据集,文本数据集包含多标签的文本训练集;步骤2、对文本训练集中的原始文本和文本训练集所对应标签集合中的标签分别进行向量化,得到原始文本的单词向量和标签的单词向量;步骤3、基于得到的原始文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;步骤4、通过过滤的文本特征向量和过滤的标签特征向量交互,得到文本特定标签表示,根据文本特定标签表示和文本的真实标签之间的差异,多次训练多标签文本分类模型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:、、、分别为不同神经网络的线性映射参数,CrossAttention()表示一个交互式注意力机制,为用于进行判断的向量,为多类别映射函数,为偏移量,为最终类别结果,以一个向量进行表示,允许有类别的索引激活值为1,其余位置激活值为0;步骤5、利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。2.根据权利要求1所述的一种预测问题回复质量并给与反馈的方法,其特征在于,步骤1中,对获取的待分类的文本数据集...

【专利技术属性】
技术研发人员:付立军刘雨江李旭徐知非侯卫国
申请(专利权)人:中科智禾数字科技山东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1