【技术实现步骤摘要】
层级意图体系的建立方法及装置
本说明书实施例涉及自然语言处理领域,具体地,涉及一种层级意图体系的建立方法及装置。
技术介绍
目前,客服机器人中的一个重要模块就是“意图识别”,客服机器人需要识别出用户的会话所包含的意图,再根据识别出的意图对用户会话进行相应的回复,因此,“意图识别”的精准度直接影响了客服机器人下游组件的效果,在整个机器人中的位置十分重要。目前,“意图识别”中用到的用户意图数据,通常是由业务专家基于业务进行整理而得到,这无疑耗费了大量的人力。因此,需要一种合理的方案,可以精准、快速、全面地确定出大量的用户意图数据。
技术实现思路
本说明书描述了一种层级意图体系的建立方法,通过对获取到的用户意图语料进行文本聚类处理,挖掘出不同粒度下的用户意图数据,用于构建层级意图体系。根据第一方面,提供一种层级意图体系的建立方法,该方法包括:获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;确定与各个文本语句对应的各个句向量;对多个句向量进行聚类处理,以得到多个类簇;确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。在一种可能的实施方式中,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。在一种可能的实施方式中,所述用户意图语料包括多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:对所述多个历史用户会话进行预处理;根据预处理后的历史用 ...
【技术保护点】
1.一种层级意图体系的建立方法,其特征在于,包括:/n获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;/n确定与各个文本语句对应的各个句向量;/n对多个句向量进行聚类处理,以得到多个类簇;/n确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。/n
【技术特征摘要】
1.一种层级意图体系的建立方法,其特征在于,包括:
获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;
确定与各个文本语句对应的各个句向量;
对多个句向量进行聚类处理,以得到多个类簇;
确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。
2.根据权利要求1所述的方法,其特征在于,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。
3.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括与多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:
对所述多个历史用户会话进行预处理;
根据预处理后的历史用户会话,确定所述多个文本语句。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个历史用户会话进行预处理,包括:
对所述多个历史用户会话中预定类别的数据进行删除处理,所述预定类别的数据包括特殊符号、表情、网址和超过预定字符数的历史用户会话中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括多个业务类别;所述确定与所述用户意图语料对应的多个文本语句,包括:
将所述多个业务类别中的各业务类别作为对应的文本语句。
6.根据权利要求1所述的方法,其特征在于,所述确定与各个文本语句对应的各个句向量,包括:
对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;
基于训练的词向量模型,确定所述分词集合中各分词的词向量;
基于所述各分词的词向量,确定所述各个句向量。
7.根据权利要求6所述的方法,其特征在于,所述词向量模型包括分词与词向量的映射关系;所述确定与各类簇对应的各文本语句集,包括:
基于所述映射关系,根据各类簇中的各句向量所对应的各词向量集合,确定与所述各词向量集合对应的各分词集合;
确定与所述各分词集合对应的各文本语句,并将所述各类簇所对应的多个文本语句作为所述各文本语句集。
8.根据权利要求6所述的方法,其特征在于,所述确定所述各个句向量,包括:
计算所述分词集合对应的多个词向量的和向量/平均向量,并将所述和向量/平均向量作为对应的各个句向量。
9.根据权利要求1所述的方法,其特征在于,所述对多个句向量进行聚类处理,包括:
基于聚类算法,对所述多个句向量进行聚类处理,所述聚类算法包括划分聚类算法,层次聚类算法和密度聚类算法中的至少一种。
10.根据权利要求1所述的方法,其特征在于,还包括:
将所述各文本语句集提供给本领域人员,以使所述本领域人员确定与所述各文本语句集对应的各用户意图,以及根据确定出的多个用户意图建立层级意图体系。
11.一种层级意图体系的建立装置,其特征在于,包括:
获取单元,用于获取用户意图语料;
第一确定单元,用于确定与所述用户意图语料对应的多个文本语句;
第二确定单元,用于确定与各个文本语句对应的各个句向量;
聚类单元...
【专利技术属性】
技术研发人员:李玲,石志伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。