【技术实现步骤摘要】
一种基于语义感知的一对多对话生成方法及装置
[0001]本专利技术涉及对话系统领域,特别涉及一种基于语义感知的一对多对话生成方法及装置。
技术介绍
[0002]对话系统主要分为以任务为导向的对话系统和开放式的对话系统。随着近年来神经网络的快速发展,对话系统从早期的统计语言模型的模型逐渐转向了基于深度序列模型的生成模型。
[0003]虽然生成模型提高了开放型对话系统的性能,但这样的黑盒模型仍存在预测结果可信度低、可解释性差的问题。针对上述问题,现有技术利用无监督模型生成更具解释性和可控性的对话,进而提出了基于潜在空间能量耦合了密集向量与符号向量的先验模型,而后通过引入指数混合分布捕获混合成分和数据之间的隐藏语义关系,得到一个更具有可解释性的隐空间。然而上述的对话模型仍然无法有效捕捉不同情绪的隐特征对解码器不同的生成逻辑,无法很好的解决解码器回复单一性的问题,因此在进行人机对话时,生成的高频无意义的回复,导致用户体验不佳。
技术实现思路
[0004]为解决传统开放领域对话生成模型中将不同的情感动作混合在一起,倾向生成高频无意义回复的问题。本专利技术提供了一种基于语义感知的一对多对话生成方法,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;
[0005]对话生成模型的训练过程包括预训练和训练两个过程 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义感知的一对多对话生成方法,其特征在于,获取实时输入问题,将实时输入问题送入训练好的对话生成模型,对话生成模型根据输入问题得到多样性的回复,对话生成模型包括输入编码器、输出编码器、识别网络、先验网络、分类器、no emotion解码器、positive解码器、negative解码器;对话生成模型的训练过程包括预训练和训练两个过程,具体表示为:101、获取多组对话样本对输入编码器、输出编码器、识别网络、先验网络、分类器、预训练解码器进行预训练,预训练过程包括:S11.对多组对话样本进行预处理,每组对话样本包括问题、回复和问题的情感标签;S12.从多组预处理后的对话样本中抽取一组对话样本,将对话样本中预处理后的问题和回复分别送入输入编码器和输出编码器进行编码,得到问题向量表示和回复向量表示;S13.将问题向量表示送入先验网络得到先验分布的参数,将回复向量表示送入识别网络得到近似后验分布的参数,计算先验分布和近似后验分布的KL散度并计算KL散度损失;S14.根据近似后验分布的参数得到隐变量,将隐变量输入分类器计算当前对话样本属于各类别的归一化概率,取最大的归一化概率的类别作为分类结果,并计算分类损失;S15.将隐变量作为预训练解码器的初始状态,将回复输入预训练解码器得到输出结果,并根据输出结果计算重构期望损失;S16.将KL散度损失、分类损失和重构期望损失相加,通过梯度反向传播更新对话生成模型的参数,参数更新后返回步骤S12进行迭代,直到参数收敛完成对话生成模型的预训练;102、完成预训练后,固定输入编码器、输出编码器、识别网络、先验网络和分类器的参数,将对话样本按照无情感、积极情感和消极情感分为三种类型的对话数据,分别用于no emotion解码器、positive解码器、negative解码器,采用重构损失函数依次训练三种解码器,直到三种解码器的参数收敛完成对话生成模型的训练。2.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,对多组对话样本采用Word2vec进行预处理包括,得到问题词嵌入序列{e(C1),e(C2),...,e(C
n
)}和回复词嵌入序列{e(X1),e(X2),...,(X
n
)},e(
·
)表示对对话样本中的单词做词嵌入,{C1,C2,...,C
n
}为对话样本中的问题,{X1,X2,...,X
n
}为对话样本中的回复。3.根据权利要求1所述的一种基于语义感知的一对多对话生成方法,其特征在于,计算KL散度的公式为:其中,μ、...
【专利技术属性】
技术研发人员:王烨,廖靖波,于洪,冷佳旭,刘立,林安琪,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。