一种对话系统回答生成方法及系统技术方案

技术编号：21629639 阅读：19 留言：0更新日期：2019-07-17 11:19

本发明专利技术涉及一种对话系统回答生成方法及系统，包括以下步骤：步骤S1)将多轮对话数据按照每一轮进行切割，每一轮对话表示为(U,Y)；步骤S2)对U中的每个词进行词性标注和命名实体识别，找到词序列中的关键词序列；步骤S3)使用数据库查询或者神经网络自动生成的方法，得到目标关键词序列。然后对每个目标关键词，查找得到该关键词的词向量；步骤S4)模型训练，对训练集中所有轮次的对话，使用seq2seq模型获得预测的词序列Y’；步骤S5)训练完成后，对测试样本中的任意一个用户输入样本，进行步骤S4)的操作，获得预测的词序列Y’。本发明专利技术不仅可有效控制生成的回答的内容，还提高了回答的质量。

A Method and System of Answer Generation in Dialogue System

全部详细技术资料下载

【技术实现步骤摘要】
一种对话系统回答生成方法及系统
本专利技术涉及计算机网络领域，尤其涉及一种对话系统回答生成方法及系统。
技术介绍
随着科学技术的发展以及人工智能产业的兴起，以自然语言进行交互的口语对话系统在社会的方方面面有着极大需求。个人助理如苹果公司的Siri、微软的小娜、亚马逊的Echo等应运而生，给人们的日常生活带来便利；智能客服也应用在各大服务行业的龙头企业，减少人工客服的数量，并提升服务质量；在健康医疗领域，医疗对话系统和辅助诊断吸引着众多创业公司，百度医生等简化的医疗对话系统也逐步成型，为常见疾病导诊并提供初步诊断方案。目前市面上的这些对话系统多基于检索，即从多个候选回答中选取最佳答案，或者从互联网上检索相关答案，无法生成新的回答。为了能依据不同的问题，可以得到候选答案集合中没有的句子，基于生成的对话系统成为当前的挑战难题。给定一个用户输入文本和对话历史文本，如何生成合理、正确的回答是生成式对话系统的主要研究内容。由于深度学习和神经网络的兴起，目前的文本生成主要使用基于循环神经网络(RecurrentNeuralNetwork，以下简称RNN)的序列到序列(Sequencetosequence，以下简称Seq2seq模型)的生成方式。已有的方法是直接对输入文本的词序列和输出文本的词序列，使用循环神经网络建模。然而这些方法生成的词序列，没有考虑外部知识，完全由数据驱动，自由度过大，质量欠佳，而且过程不可控。
技术实现思路
本专利技术针对现有技术存在的不足，提出了一种对话系统回答生成方法，不仅可有效控制生成的回答的内容，还提高了回答的质量。本专利技术的一种对话系统回答...

【技术保护点】
1.一种对话系统回答生成方法，其特征在于，包括以下步骤：步骤S1)将多轮对话数据切割成单轮对话，每一轮对话表示为(U,Y)，U＝{u1,u2,…,uT‑1,uT}为该轮用户输入的词序列，Y＝{y1,y2,…,yn‑1,yn}为该轮中回答的词序列；T表示用户输入的词序列的长度，n表示实际回答的词序列的长度；步骤S2)对U中的每个词进行词性标注和命名实体识别，找到词序列中的关键词序列G＝{g1,…,gL‑1,gL}，L为关键词序列的长度；步骤S3)使用数据库查询或者神经网络自动生成的方法,从关键词序列G得到目标关键词序列C＝{c1,…,ct‑1,gt}，然后对每个目标关键词，查找得到目标关键词的词向量序列X＝{x1,…,xt‑1,xt}，t为目标关键词序列的长度；步骤S4)模型训练，对训练集中所有轮次的对话，将每一轮的关键词词向量序列X输入Seq2seq模型，获得预测的词序列Y’；步骤S5)训练完成后，对测试样本中的任意一个用户输入样本，进行步骤S4)的操作，获得预测的词序列Y’。

【技术特征摘要】
1.一种对话系统回答生成方法，其特征在于，包括以下步骤：步骤S1)将多轮对话数据切割成单轮对话，每一轮对话表示为(U,Y)，U＝{u1,u2,…,uT-1,uT}为该轮用户输入的词序列，Y＝{y1,y2,…,yn-1,yn}为该轮中回答的词序列；T表示用户输入的词序列的长度，n表示实际回答的词序列的长度；步骤S2)对U中的每个词进行词性标注和命名实体识别，找到词序列中的关键词序列G＝{g1,…,gL-1,gL}，L为关键词序列的长度；步骤S3)使用数据库查询或者神经网络自动生成的方法,从关键词序列G得到目标关键词序列C＝{c1,…,ct-1,gt}，然后对每个目标关键词，查找得到目标关键词的词向量序列X＝{x1,…,xt-1,xt}，t为目标关键词序列的长度；步骤S4)模型训练，对训练集中所有轮次的对话，将每一轮的关键词词向量序列X输入Se...

【专利技术属性】
技术研发人员：何峻青，赵学敏，颜永红，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人