一种用于对话交互系统的数据处理方法及装置制造方法及图纸

技术编号:15639525 阅读:274 留言:0更新日期:2017-06-16 00:06
一种用于对话交互系统的数据处理方法及装置,其中,该方法包括:获取用户输入的对话交互数据并解析,生成对话交互数据对应的候选答案集合;计算对话交互数据与预设问题答案集合中各个问题的相似度,并根据各个问题的相似度确定最相似问题,预设问题答案集合中问题与其对应答案的相关度满足设定的高相关度标准;获取预设问题答案集合中最相似问题的答案,并计算最相似问题的答案与候选答案集合中各个答案的相似度,根据候选答案集合中各个答案的相似度从候选答案集合中确定出相似度最高的答案并输出。本方法通过借用高相关度的问题答案集合,保证了对话交互中,对交互信息输出与其相关度最高的回复,保证了对话交互质量,提升了对话交互过程中的用户体验。

【技术实现步骤摘要】
一种用于对话交互系统的数据处理方法及装置
本专利技术涉及机器人
,具体地说,涉及一种用于对话交互系统的数据处理方法及装置。
技术介绍
随着科学技术的不断发展,信息技术、计算机技术以及人工智能技术的引入,机器人的研究已经逐步走出工业领域,逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人,人机交互也就成为决定智能机器人发展的重要因素。机器人通常采用对话交互系统来实现与用户之间的人机对话,对话交互系统的实现架构大体可以分为检索式模型和生成式模型两种。其中,检索式模型是从已经存在的语料中查找与问题最为匹配的答案,其准确率较高但适应性较差。与之相反,生成式模型则是通过大量的语料和机器学习算法训练得到的,其具有很好的系统适应性,但是目前无法保证较高的准确率。由于检索式模型合乎语法并且相对可靠可控,因此目前行业内仍然以采用检索式模型为主。然而,对于检索式模型来说,其语料库中问题与答案的质量的好坏将直接影响其用户体验。如果语料库质量不佳的话,很可能会造成对话交互系统与用户之间的交互出现前言不搭后语或是输出不提供任何信息的应付性答案等问题,这都对对话系统的用户体验有着致命影响。
技术实现思路
为解决上述问题,本专利技术提供了一种用于对话交互系统的数据处理方法,其包括:对话交互数据获取步骤,获取用户输入的对话交互数据并解析,生成所述对话交互数据对应的候选答案集合;最相似问题确定步骤,计算所述对话交互数据与预设问题答案集合中各个问题的相似度,并根据各个问题的相似度确定最相似问题,所述预设问题答案集合中问题与其对应答案的相关度满足设定的高相关度标准。答案生成步骤,获取所述预设问题答案集合中所述最相似问题的答案,并计算所述最相似问题的答案与所述候选答案集合中各个答案的相似度,根据所述候选答案集合中各个答案的相似度从所述候选答案集合中确定出相似度最高的答案并输出。根据本专利技术的一个实施例,在所述最相关问题确定步骤中,计算所述对话交互数据与预设问题答案集合中各个问题的相似度的步骤包括:对所述对话交互数据进行分词处理,获取所述对话交互数据中各个分词的词向量;根据所述对话交互数据中各个分词的词向量及其权重,计算所述对话交互数据的句向量;获取所述预设问题答案集合中各个问题的句向量,计算所述对话交互数据的句向量与预设问题答案集合中各个问题的句向量的相似度,得到所述对话交互数据与预设问题答案集合中各个问题的相似度。根据本专利技术的一个实施例,根据tf-idf算法计算所述对话交互数据中各个分词的权重。根据本专利技术的一个实施例,在所述答案生成步骤中,如果所述最相似问题的答案与所述候选答案集合中各个答案的相似度均小于预设相似度阈值,则对所述候选答案集合进行聚类迭代,确定所述候选答案集合中与所述对话交互数据最相关的答案并输出。本专利技术还提供了一种用于对话交互系统的数据处理装置,其包括:对话交互数据获取模块,其用于获取用户输入的对话交互数据并解析,生成所述对话交互数据对应的候选答案集合;最相似问题确定模块,其用于计算所述对话交互数据与预设问题答案集合中各个问题的相似度,并根据各个问题的相似度确定最相似问题,所述预设问题答案集合中问题与其对应答案的相关度,满足设定的高相关度标准。答案生成模块,其用于获取所述预设问题答案集合中所述最相似问题的答案,并计算所述最相似问题的答案与所述候选答案集合中各个答案的相似度,根据所述候选答案集合中各个答案的相似度从所述候选答案集合中确定出相似度最高的答案并输出。根据本专利技术的一个实施例,所述最相关问题确定模块配置为根据如下步骤计算所述对话交互数据与预设问题答案集合中各个问题的相似度:对所述对话交互数据进行分词处理,获取所述对话交互数据中各个分词的词向量;根据所述对话交互数据中各个分词的词向量及其权重,计算所述对话交互数据的句向量;获取所述预设问题答案集合中各个问题的句向量,计算所述对话交互数据的句向量与预设问题答案集合中各个问题的句向量的相似度,得到所述对话交互数据与预设问题答案集合中各个问题的相似度。根据本专利技术的一个实施例,所述最相关问题确定模块配置为根据tf-idf算法计算所述对话交互数据中各个分词的权重。根据本专利技术的一个实施例,如果所述最相似问题的答案与所述候选答案集合中各个答案的相似度均小于预设相似度阈值,所述答案生成模块则配置为对所述候选答案集合进行聚类迭代,确定所述候选答案集合中与所述对话交互数据最相关的答案并输出。相较于现有方法,本专利技术所提供的用于对话交互系统的数据处理方法,通过借用高相关度的问题答案集合,保证了对话交互中,对交互信息输出与其相关度最高的回复,从而保证了对话交互质量,提升了对话交互过程中的用户体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:图1是根据本专利技术一个实施例的用于对话交互系统的数据处理方法的实现流程示意图;图2是根据本专利技术一个实施例的计算对话交互数据与预设问题答案集合中各个问题的相似度的流程示意图;图3是根据本专利技术另一个实施例的用于对话交互系统的数据处理方法的实现流程示意图;图4是根据本专利技术一个实施例的用于对话交互系统的数据处理装置的结构示意图。具体实施方式以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本专利技术实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本专利技术可以不用这里的具体细节或者所描述的特定方式来实施。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。针对现有技术中所存在的问题,本专利技术提供了一种新的用于对话交互系统的数据处理方法,该方法通过借用高相关度的问题答案集合,保证了对话交互中,对交互信息输出与其相关度最高的回复。为了更加清楚地表明本专利技术所提供的用于对话交互系统的数据处理方法的实现原理、实现过程以及优点,以下分别结合不同的实施例来对该数据处理方法作进一步的说明。实施例一:图1示出了本实施例所提供的用于对话交互系统的数据处理方法的实现流程示意图。如图1所示,本实施例所提供的数据处理方法首先在步骤S101中获取用户输入的对话交互数据并对该对话交互数据进行解析,从而得到该对话交互数据所对应的候选答案集合。需要指出的是,在本专利技术的不同实施例中,该方法在步骤S101中所获取到的用户输入的对话交互数据既可以是文本数据,也可以是语音数据,本专利技术不限于此。在得到上述对话交互数据所对应的候选答案本文档来自技高网...
一种用于对话交互系统的数据处理方法及装置

【技术保护点】
一种用于对话交互系统的数据处理方法,其特征在于,包括:对话交互数据获取步骤,获取用户输入的对话交互数据并解析,生成所述对话交互数据对应的候选答案集合;最相似问题确定步骤,计算所述对话交互数据与预设问题答案集合中各个问题的相似度,并根据各个问题的相似度确定最相似问题,所述预设问题答案集合中问题与其对应答案的相关度满足设定的高相关度标准;答案生成步骤,获取所述预设问题答案集合中所述最相似问题的答案,并计算所述最相似问题的答案与所述候选答案集合中各个答案的相似度,根据所述候选答案集合中各个答案的相似度从所述候选答案集合中确定出相似度最高的答案并输出。

【技术特征摘要】
1.一种用于对话交互系统的数据处理方法,其特征在于,包括:对话交互数据获取步骤,获取用户输入的对话交互数据并解析,生成所述对话交互数据对应的候选答案集合;最相似问题确定步骤,计算所述对话交互数据与预设问题答案集合中各个问题的相似度,并根据各个问题的相似度确定最相似问题,所述预设问题答案集合中问题与其对应答案的相关度满足设定的高相关度标准;答案生成步骤,获取所述预设问题答案集合中所述最相似问题的答案,并计算所述最相似问题的答案与所述候选答案集合中各个答案的相似度,根据所述候选答案集合中各个答案的相似度从所述候选答案集合中确定出相似度最高的答案并输出。2.如权利要求1所述的方法,其特征在于,在所述最相关问题确定步骤中,计算所述对话交互数据与预设问题答案集合中各个问题的相似度的步骤包括:对所述对话交互数据进行分词处理,获取所述对话交互数据中各个分词的词向量;根据所述对话交互数据中各个分词的词向量及其权重,计算所述对话交互数据的句向量;获取所述预设问题答案集合中各个问题的句向量,计算所述对话交互数据的句向量与预设问题答案集合中各个问题的句向量的相似度,得到所述对话交互数据与预设问题答案集合中各个问题的相似度。3.如权利要求2所述的方法,其特征在于,根据tf-idf算法计算所述对话交互数据中各个分词的权重。4.如权利要求1~3中任一项所述的方法,其特征在于,在所述答案生成步骤中,如果所述最相似问题的答案与所述候选答案集合中各个答案的相似度均小于预设相似度阈值,则对所述候选答案集合进行聚类迭代,确定所述候选答案集合中与所述对话交互数据最相关的答案并输出。5.一种用于对话交互系统...

【专利技术属性】
技术研发人员:包强
申请(专利权)人:北京光年无限科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1