层级意图体系的建立方法及装置制造方法及图纸

技术编号:23085111 阅读:15 留言:0更新日期:2020-01-11 01:10
本说明书实施例提供一种层级意图体系的建立方法,该方法包括:首先,获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;接着,确定与各个文本语句对应的各个句向量;然后,对多个句向量进行聚类处理,以得到多个类簇;再确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。

【技术实现步骤摘要】
层级意图体系的建立方法及装置
本说明书实施例涉及自然语言处理领域,具体地,涉及一种层级意图体系的建立方法及装置。
技术介绍
目前,客服机器人中的一个重要模块就是“意图识别”,客服机器人需要识别出用户的会话所包含的意图,再根据识别出的意图对用户会话进行相应的回复,因此,“意图识别”的精准度直接影响了客服机器人下游组件的效果,在整个机器人中的位置十分重要。目前,“意图识别”中用到的用户意图数据,通常是由业务专家基于业务进行整理而得到,这无疑耗费了大量的人力。因此,需要一种合理的方案,可以精准、快速、全面地确定出大量的用户意图数据。
技术实现思路
本说明书描述了一种层级意图体系的建立方法,通过对获取到的用户意图语料进行文本聚类处理,挖掘出不同粒度下的用户意图数据,用于构建层级意图体系。根据第一方面,提供一种层级意图体系的建立方法,该方法包括:获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;确定与各个文本语句对应的各个句向量;对多个句向量进行聚类处理,以得到多个类簇;确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。在一种可能的实施方式中,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。在一种可能的实施方式中,所述用户意图语料包括多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:对所述多个历史用户会话进行预处理;根据预处理后的历史用户会话,确定出所述多个文本语句。在一种可能的实施方式中,所述用户意图语料包括由业务方提供的多个业务类别;所述确定与所述用户意图语料对应的多个文本语句,包括:将所述多个业务类别中的各业务类别作为对应的文本语句。在一种可能的实施方式中,所述确定与各个文本语句对应的各个句向量,包括:对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;基于预先训练的词向量模型,确定所述分词集合中各分词的词向量;根据第二方面,提供一种层级意图体系的建立装置,该装置包括:获取单元,用于获取用户意图语料;第一确定单元,用于确定与所述用户意图语料对应的多个文本语句;第二确定单元,用于确定与各个文本语句对应的各个句向量;聚类单元,用于对多个句向量进行聚类处理,以得到多个类簇;第三确定单元,用于确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。在本说明书实施例披露的层级意图体系的建立方法中,首先,获取用户意图语料,并确定与用户意图语料对应的多个文本语句;接着,确定出与各个文本语句对应的各个句向量;然后,对多个句向量进行聚类处理,以得到多个类簇;再确定与各类簇对应的各文本语句集,从而使本领域人员可以根据各文本语句集,确定出对应的各用户意图,并根据确定出的多个用户意图建立层级意图体系。附图说明为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本说明书披露的一个实施例的实施流程框图;图2示出根据一个实施例的层级意图体系的建立方法流程图;图3示出根据一个例子的层级意图示意图;图4示出根据另一个例子的层级意图示意图;图5示出根据一个例子的基于图3和图4的层级意图体系示意图;图6示出根据一个实施例的层级意图体系的建立装置框图。具体实施方式下面结合附图,对本说明书披露的多个实施例进行描述。图1为本说明书披露的一个实施例的实施流程框图。如图1所示,首先,基于历史用户会话数据集训练出用于将词语表示为向量的词向量模型,其中历史用户会话数据集由多次历史客服服务中对应的多个历史用户会话组成。具体地,在一个实施例中,可以先对多个历史用户会话进行数据清洗,例如,去除历史用户会话中的非文本数据,如网址等;接着对数据清洗后的历史用户会话进行分词处理,得到多个分词,例如,可以通过分词器进行分词处理;再根据得到的多个分词以及词表征算法,采用无监督训练的方式得到词向量模型,例如,词表征算法可以为word2vec算法,相应可以得到基于word2vec算法的词向量模型。然后,至少根据预先训练的词向量模型,确定与用户意图语料对应的多个用户意图。其中,用户意图语料可以包括从上述历史用户会话数据集中抽取的部分会话数据。具体地,在一个实施例中,可以先对用户意图语料进行数据清洗,并确定与用户意图语料对应的多个文本语句,例如,“请帮忙取消订单”、“纸尿裤什么时候有优惠活动”;接着对多个文本语句进行分词处理,并得到与各文本语句对应的各分词集合;再利用预先训练的词向量模型,确定出各分词集合中各分词所对应的词向量;接着,利用各分词集合对应的词向量,确定出对应文本语句的句向量,例如,可以对各分词集合中的多个词向量进行平均求和;再对确定出的多个句向量进行聚类处理,并根据聚类处理得到的多个类簇,确定与各类簇对应的各文本语句集。由此,本领域人员可以根据聚类得到的各文本语句集,确定出对应的各用户意图,从而根据确定出的多个用户意图构建层级意图体系。下面,描述以上过程的具体实施步骤。图2示出根据一个实施例的层级意图体系的建立方法流程图,所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置。如图2所示,该方法流程包括以下步骤:步骤S210,获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;步骤S220,确定与各个文本语句对应的各个句向量;步骤S230,对多个句向量进行聚类处理,以得到多个类簇;步骤S240,确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。首先,在步骤S210,获取用户意图语料,并确定与用户意图语料对应的多个文本语句。在一个实施例中,获取的用户意图语料可以包括多次历史客服服务中的多个历史用户会话,例如,可以包括前述历史用户会话数据集中的部分会话数据。在一个例子中,多个历史用户会话可以包括:“卖家怎么还不退款?”、“没有收到货”、“可以取消订单吗?”等。在另一个实施例中,获取的用户意图语料可以包括由业务方提供的业务类别数据集。在一个例子中,其中的业务类别可以包括表示较大业务范围的大类和相对表示较小业务范围的小类,例如,大类可以包括母婴类,小类可以相应的包括奶粉、纸尿裤、奶瓶等。在一个实施例中,用户意图语料可以包括多个历史用户会话,相应地,确定与本文档来自技高网...

【技术保护点】
1.一种层级意图体系的建立方法,其特征在于,包括:/n获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;/n确定与各个文本语句对应的各个句向量;/n对多个句向量进行聚类处理,以得到多个类簇;/n确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。/n

【技术特征摘要】
1.一种层级意图体系的建立方法,其特征在于,包括:
获取用户意图语料,并确定与所述用户意图语料对应的多个文本语句;
确定与各个文本语句对应的各个句向量;
对多个句向量进行聚类处理,以得到多个类簇;
确定与各类簇对应的各文本语句集,所述各文本语句集分别对应于各用户意图,用于建立层级意图体系。


2.根据权利要求1所述的方法,其特征在于,所述层级意图体系中包括多个父节点用户意图,以及与各个父节点用户意图对应的多个子节点用户意图。


3.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括与多次历史客服服务所对应的多个历史用户会话;所述确定与所述用户意图语料对应的多个文本语句,包括:
对所述多个历史用户会话进行预处理;
根据预处理后的历史用户会话,确定所述多个文本语句。


4.根据权利要求3所述的方法,其特征在于,所述对所述多个历史用户会话进行预处理,包括:
对所述多个历史用户会话中预定类别的数据进行删除处理,所述预定类别的数据包括特殊符号、表情、网址和超过预定字符数的历史用户会话中的至少一种。


5.根据权利要求1所述的方法,其特征在于,所述用户意图语料包括多个业务类别;所述确定与所述用户意图语料对应的多个文本语句,包括:
将所述多个业务类别中的各业务类别作为对应的文本语句。


6.根据权利要求1所述的方法,其特征在于,所述确定与各个文本语句对应的各个句向量,包括:
对所述各个文本语句进行分词处理,得到所述各个文本语句所对应的分词集合;
基于训练的词向量模型,确定所述分词集合中各分词的词向量;
基于所述各分词的词向量,确定所述各个句向量。


7.根据权利要求6所述的方法,其特征在于,所述词向量模型包括分词与词向量的映射关系;所述确定与各类簇对应的各文本语句集,包括:
基于所述映射关系,根据各类簇中的各句向量所对应的各词向量集合,确定与所述各词向量集合对应的各分词集合;
确定与所述各分词集合对应的各文本语句,并将所述各类簇所对应的多个文本语句作为所述各文本语句集。


8.根据权利要求6所述的方法,其特征在于,所述确定所述各个句向量,包括:
计算所述分词集合对应的多个词向量的和向量/平均向量,并将所述和向量/平均向量作为对应的各个句向量。


9.根据权利要求1所述的方法,其特征在于,所述对多个句向量进行聚类处理,包括:
基于聚类算法,对所述多个句向量进行聚类处理,所述聚类算法包括划分聚类算法,层次聚类算法和密度聚类算法中的至少一种。


10.根据权利要求1所述的方法,其特征在于,还包括:
将所述各文本语句集提供给本领域人员,以使所述本领域人员确定与所述各文本语句集对应的各用户意图,以及根据确定出的多个用户意图建立层级意图体系。


11.一种层级意图体系的建立装置,其特征在于,包括:
获取单元,用于获取用户意图语料;
第一确定单元,用于确定与所述用户意图语料对应的多个文本语句;
第二确定单元,用于确定与各个文本语句对应的各个句向量;
聚类单元...

【专利技术属性】
技术研发人员:李玲石志伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1