本发明专利技术提供一种意图识别故障的方法、装置、电子设备及介质,所述方法包括:获取目标故障数据,将所述目标故障数据对应的目标文本数据输入到预先训练的意图识别模型,获取多个意图识别结果;根据所述多个意图识别结果与所述目标故障数据的关键信息,确定出多个故障解决方案,其中,所述意图识别模型是基于Borderline smote算法获取的合成样本数据集以及所述合成样本数据集所对应的标签数据进行训练得到的。本发明专利技术提供的意图识别故障的方法能够减少训练数据的数量,提高模型的准确率,减少人力和时间成本,返回多种故障解决方案,提升用户体验。提升用户体验。提升用户体验。
【技术实现步骤摘要】
一种意图识别故障的方法、装置、电子设备及存储介质
[0001]本专利技术涉及智能运维
,尤其涉及一种意图识别故障的方法、装置、电子设备及存储介质。
技术介绍
[0002]随着信息技术的不断发展,信息的运行和维护已经成为信息服务最重要的组成部分之一。
[0003]目前,传统的人工操作维护模式存在工作量大、效率低、人员要求高、出错率高、异常情况下难以快速恢复等缺点,而且单靠手工作业不能满足技术、经济和管理的要求。因此,自动化运维管理技术越来越受到人们的重视。尤其在人机对话领域,用户意图识别扮演着重要的角色。
[0004]现有技术中,意图分类方法,一种是基于传统的规则方法。另一种是基于深度学习,前者过于依赖人类经验进行文本特征提取,后者则需要标注大量的训练数据进行训练。在意图识别中,一种基于RNN和CNN结构的意图分类模型,由于特征提取不完全导致用户意图识别效果较差,遇到紧急情况还需要手动去输入命令处理,比较耗时,无法实现故障处理的智能化。
技术实现思路
[0005]本专利技术提供一种意图识别故障的方法、装置、电子设备及存储介质用以解决现有技术中故障处理不智能、用户意图识别效果差、人工成本较高的技术问题,本专利技术以实现通过返回多种故障解决方案,提高意图识别的准确性,降低人工成本,提升用户体验的目的。
[0006]第一方面,本专利技术提供一种意图识别故障的方法,包括:
[0007]获取目标故障数据;
[0008]将所述目标故障数据对应的目标文本数据输入到预先训练的意图识别模型,获取多个意图识别结果;
[0009]根据所述多个意图识别结果与所述目标故障数据的关键信息,确定出多个故障解决方案;
[0010]其中,所述意图识别模型是基于Borderline smote算法获取的合成样本数据集以及所述合成样本数据集所对应的标签数据进行训练得到的。
[0011]进一步,根据本专利技术提供的意图识别故障的方法,在所述将所述目标故障数据对应的文本数据输入到预先训练的意图识别模型之前,包括:
[0012]对所述目标故障数据进行停止字和异常符号的过滤,得到过滤之后的文本数据;
[0013]对过滤之后的文本数据进行多类型的筛选、标点、分类和提取处理,得到所述目标故障数据对应的目标文本数据。
[0014]进一步,根据本专利技术提供的意图识别故障的方法,在所述获取目标故障数据之前,包括:
[0015]获取多类故障场景下的样本故障数据集和预训练模型;
[0016]基于Borderline smote算法与预设的采样倍率对所述样本故障数据集进行处理,获取合成样本数据集;
[0017]基于所述合成样本数据集以及所述合成样本数据集所对应的标签数据对预训练模型进行训练,得到意图识别模型。
[0018]进一步,根据本专利技术提供的意图识别故障的方法,所述基于Borderline smote算法与预设的采样倍率对所述样本故障数据集进行处理,获取合成样本数据集,包括:
[0019]搜索少数类样本:T为整个样本故障数据集,P为少数类样本集,N为多数类样本集,对P中的每一个样本P
i
在整个样本故障数据集T中搜索得到P
i
的最近邻样本数为m,其中,属于最近邻样本数m中的大多数例子为m
’
;
[0020]分类少数类样本:若m
’
=m,则P
i
为噪声样本;若m/2≤m
’
<m,则确认Pi为危险样本;若0≤m
’
<m/2,则确定P
i
为安全样本;
[0021]根据所述危险样本以及预设的采样倍率生成合成样本数据集。
[0022]进一步,根据本专利技术提供的意图识别故障的方法,所述根据所述危险样本以及预设的采样倍率生成合成样本数据集,包括:
[0023]根据所述危险样本中的边界数据,计算出每个危险样本数据的K最近邻;
[0024]根据预设的采样倍率U从所述K最近邻中随机选取S个最近邻数据,将每个危险样本数据P
‘
i
与S个最近邻数据进行线性插值,生成少数合成样本数据集;
[0025]将所述少数合成样本数据集和整个样本故障数据集确认为合成样本数据集。
[0026]进一步,根据本专利技术提供的意图识别故障的方法,所述基于所述合成样本数据集以及所述合成样本数据集所对应的标签数据对预训练模型进行训练,得到意图识别模型,包括:
[0027]确定合成样本数据的样本文本数据以及所述合成样本数据的标注信息;
[0028]对所述样本文本数据进行分词以及编码,得到所述样本文本数据的每个词的编码数据;
[0029]基于所述样本文本数据的编码数据、样本文本数据的标注信息训练预训练模型,得到所述意图识别模型。
[0030]进一步,根据本专利技术提供的意图识别故障的方法,所述基于所述样本文本数据的编码数据、样本文本数据的标注信息训练预训练模型,得到所述意图识别模型,包括:
[0031]步骤S1、利用待训练的预训练模型对样本文本数据的编码数据进行字向量、位置向量以及段落向量的信息提取;
[0032]步骤S2、基于信息提取结果,得到样本文本数据的意图识别结果;
[0033]步骤S3、根据所述样本文本数据的意图识别结果与所述样本文本数据的标注信息,判断是否满足模型训练终止条件,当不满足模型训练终止条件时,调整所述预训练模型,利用经过调整的预训练模型重新执行步骤S1;当满足模型训练终止条件时,得到经过训练的意图识别模型。
[0034]第二方面,本专利技术还提供一种意图识别故障的装置,包括:
[0035]获取模块,用于获取目标故障数据;
[0036]输入模块,用于将所述目标故障数据对应的目标文本数据输入到预先训练的意图
识别模型,获取多个意图识别结果;
[0037]确定模块,用于根据所述多个意图识别结果与所述目标故障数据的关键信息,确定出多个故障解决方案;
[0038]其中,所述意图识别模型是基于Borderline smote算法获取的合成样本数据集以及所述合成样本数据集所对应的标签数据进行训练得到的。
[0039]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述意图识别故障的方法的步骤。
[0040]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述意图识别故障的方法的步骤。
[0041]本专利技术提供一种意图识别故障的方法、装置、电子设备及介质,所述方法包括:获取目标故障数据,将所述目标故障数据对应的目标文本数据输入到预先训练的意图识别模型,获取多个意图识别结果;根据所述多个意图识别结果与所述目标故障本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种意图识别故障的方法,其特征在于,包括:获取目标故障数据;将所述目标故障数据对应的目标文本数据输入到预先训练的意图识别模型,获取多个意图识别结果;根据所述多个意图识别结果与所述目标故障数据的关键信息,确定出多个故障解决方案;其中,所述意图识别模型是基于Borderline smote算法获取的合成样本数据集以及所述合成样本数据集所对应的标签数据进行训练得到的。2.根据权利要求1所述的意图识别故障的方法,其特征在于,在所述将所述目标故障数据对应的文本数据输入到预先训练的意图识别模型之前,包括:对所述目标故障数据进行停止字和异常符号的过滤,得到过滤之后的文本数据;对过滤之后的文本数据进行多类型的筛选、标点、分类和提取处理,得到所述目标故障数据对应的目标文本数据。3.根据权利要求1所述的意图识别故障的方法,其特征在于,在所述获取目标故障数据之前,包括:获取多类故障场景下的样本故障数据集和预训练模型;基于Borderline smote算法与预设的采样倍率对所述样本故障数据集进行处理,获取合成样本数据集;基于所述合成样本数据集以及所述合成样本数据集所对应的标签数据对预训练模型进行训练,得到意图识别模型。4.根据权利要求3所述的意图识别故障的方法,其特征在于,所述基于Borderline smote算法与预设的采样倍率对所述样本故障数据集进行处理,获取合成样本数据集,包括:搜索少数类样本:T为整个样本故障数据集,P为少数类样本集,N为多数类样本集,对P中的每一个样本P
i
在整个样本故障数据集T中搜索得到P
i
的最近邻样本数为m,其中,属于最近邻样本数m中的大多数例子为m
’
;分类少数类样本:若m
’
=m,则P
i
为噪声样本;若m/2≤m
’
<m,则确认Pi为危险样本;若0≤m
’
<m/2,则确定P
i
为安全样本;根据所述危险样本以及预设的采样倍率生成合成样本数据集。5.根据权利要求4所述的意图识别故障的方法,其特征在于,所述根据所述危险样本以及预设的采样倍率生成合成样本数据集,包括:根据所述危险样本中的边界数据,计算出每个危险样本数据的K最近邻;根据预设的采样倍率U从所述K最近...
【专利技术属性】
技术研发人员:易存道,
申请(专利权)人:北京宝兰德软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。