【技术实现步骤摘要】
一种基于标签语义推测的意图分类方法
[0001]本专利技术涉及分类识别的
,更具体的,涉及一种基于标签语义推测的意图分类方法。
技术介绍
[0002]客服工作人员需要根据客户对话识别客户意图,为客户带来优质的服务。然而客服的语料数据重复性高,对话产生的文本数据是口语化的,存在表达短语多、语言形式灵活、意图模糊的情况,处理决策多达几十种,导致意图识别任务难以完成。
[0003]传统的客服机器人通过建立语料库,采用关键词匹配与语义相似度匹配的方法实现意图分类,然而随着业务量的增加,这种方法已难以满足客户的需求。
[0004]近几年,人工智能被引入用于客户服务,基于人工智能的文本分类方法可以将语料数据分入到对应的意图类别。但是客服的语料数据集大多是小样本,如金融客服语料数据集,样本数量的不足导致模型难以学习到数据特征,而且高程度的口语化使数据存在文本冗余的情况,服务产生的语料长度短,以目前的文本分类方法难以准确分类客户的意图。
技术实现思路
[0005]本专利技术为克服目前的文本分类方法难以准确分类客户的意图的技术缺陷,提供一种基于标签语义推测的意图分类方法。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]一种基于标签语义推测的意图分类方法,包括以下步骤:
[0008]S1:构建带标签的语料数据集,利用回译法对语料数据集进行数据扩充,得到扩充语料数据集;
[0009]S2:对扩充的语料数据进行分类预测,得到扩充的语料数据的标签, ...
【技术保护点】
【技术特征摘要】
1.一种基于标签语义推测的意图分类方法,其特征在于,包括以下步骤:S1:构建带标签的语料数据集,利用回译法对语料数据集进行数据扩充,得到扩充语料数据集;S2:对扩充的语料数据进行分类预测,得到扩充的语料数据的标签,根据标签进行数据清洗,得到增强语料数据集;S3:根据增强语料数据集中语料数据之间的相似度进行标签语义推测,得到各标签对应的标签语义;S4:利用增强语料数据集和各标签对应的标签语义训练预构建的文本分类模型,得到训练好的文本分类模型;S5:利用训练好的文本分类模型从待分类的文本中分别提取语料数据和标签语义的浅层特征和深层特征,并进行特征融合,得到意图分类结果。2.根据权利要求1所述的一种基于标签语义推测的意图分类方法,其特征在于,利用回译法对语料数据集进行数据扩充具体为:分别采用日文、韩文和英语的回译法扩充语料数据集的数据量。3.根据权利要求1所述的一种基于标签语义推测的意图分类方法,其特征在于,步骤S2具体为:使用BERT分类器对由语料数据X
i
扩充得到的语料数据X
′
i
进行分类预测,得到X
′
i
的标签Y
′
i
,将Y
′
i
与X
i
的标签Y
i
比对,保留标签相同的X
′
i
,实现数据清洗,并将语料数据集和保留的X
′
i
合并得到增强语料数据集。4.根据权利要求1所述的一种基于标签语义推测的意图分类方法,其特征在于,在标签语义推测中,将求解标签推测语义问题转化为寻找语料数据与标签中心距离L最小的问题,即:其中,n表示增强语料数据集中标签总数,D
j
表示增强语料数据集中标签C
i
下所有的语料数据,Z
i
表示C
i
的标签中心;通过优化求解当前标签类别下的语料数据特征与当前类别总特征之间最小的距离,最后将距离最小的语料数据设置为当前类别的标签语义。5.根据权利要求1所述的一种基于标签语义推测的意图分类方法,其特征在于,在标签语义推测中:通过以下步骤得到每条语料数据到每个类别中心的距离:S3.1:对增强语料数据集中的语料数据进行分词并统计词频获得高频词;S3.2:根据高频词为每一条语料数据建立特征矩阵,并经过PCA降维处理;S3.3:使用K<...
【专利技术属性】
技术研发人员:蔡念,田寅峰,赵铭恒,钟明好,唐家智,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。