一种不完整对话改写方法、装置及存储介质制造方法及图纸

技术编号:36881539 阅读:17 留言:0更新日期:2023-03-15 21:12
本发明专利技术公开了一种不完整对话改写方法、装置及存储介质,所述方法包括:获取历史对话,并对所述历史对话和不完整对话进行预处理;将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;基于插入操作矩阵抽取插入操作信息;基于替换操作矩阵抽取替换操作信息;基于插入操作信息和替换操作信息对原始不完整对话进行最终的改写。本发明专利技术能实现不完整对话与信息完整的对话间的高度重合,生成与历史对话信息语义相符的对话,且能对同时存在一个或多个指代和省略项的不完整对话进行改写,从而达到补充完整对话中的信息,提升对话理解的效果。提升对话理解的效果。提升对话理解的效果。

【技术实现步骤摘要】
一种不完整对话改写方法、装置及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种不完整对话改写方法、装置及存储介质。

技术介绍

[0002]近年来,随着自然语言处理和大数据技术的快速发展,人机对话系统已逐渐成为了人工智能领域的一个重要研究领域,并已经开发出各种各样的智能客服和虚拟助手在电商、社交、以及手机等领域得到了广泛应用。根据人与对话系统交互的轮数,对话系统可分为:单轮对话系统和多轮对话系统。基于海量的历史数据和成熟的自然语言处理技术,单轮对话的回复生成方法已经很成熟,然而在实际对话中多轮对话是更广泛的存在。在多轮对话过程中,为了交流的简洁、流畅和高效性,用户常常会输入信息不完整的对话语句(指代或者省略)。例如:“成都的天气怎样?”,“阴天。”,“为什么总是这样”,最后一个对话信息补全完整后应为:“成都为什么总是阴天”,即同时存在指代和省略现象。多轮对话中普遍的存在对省略、指代等现象,对对话理解产生了极大的干扰,一种常用的解决方法是对不完整对话进行改写补全信息,然后采用单轮对话的方法进行对话理解。
[0003]目前不完整对话改写方案主要有以下三种方案:
[0004]方案一:基于生成的方法。该方法首先采用编码器对历史对话和不完整对话进行语义编码,然后采用解码器对语义编码进行解码直接生成信息完整的对话。生成方法从第一个单词开始生成信息完整的对话,没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话。
[0005]方案二:基于序列标注的方法。序列标注方法的其中一种解决方法为:首先标注出关键信息开始位置、关键信息结束位置、补全位置、指代开始位置和指代结束位置,然后在补全位置处插入关键信息开始位置和关键信息结束位置间的信息片段或者用关键信息开始位置和关键信息结束位置间的信息片段替换指代开始位置和指代结束位置间的片段,存在的问题是不能对同时存在指代和省略项的不完整对话进行改写。
[0006]方案三:基于生成和序列标注结合的方法。该方法首先对不完整对话进行序列标注,得到包含删除、保留和替换三种标签的一个标签序列。然后针对标签序列,删除删除标签对应的序列,保留保留标签对应的序列。最后采用生成方法生成替换标签对应的序列。该类方法存在于基于生成方法一样的问题:没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话。此外,序列标注的错误将级联传播到生成操作。
[0007]综上所述,现有的不完整对话改写方法存在没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话,或者不能对同时存在指代和省略项的不完整对话进行改写的问题。

技术实现思路

[0008]本专利技术提供了一种不完整对话改写方法、装置及存储介质,以解决现有技术中的不完整对话改写方法存在没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话,或者不能对同时存在指代和省略项的不完整对话进行改写的问题。
[0009]本专利技术采用的技术方案是:提供一种不完整对话改写方法,包括:
[0010]获取历史对话,并对所述历史对话和不完整对话进行预处理;
[0011]将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;
[0012]基于插入操作矩阵抽取插入操作信息;
[0013]基于替换操作矩阵抽取替换操作信息;
[0014]基于插入操作信息和替换操作信息对原始不完整对话进行最终的改写。
[0015]进一步的,所述获取历史对话,并对所述历史对话和不完整对话进行预处理的方法包括:
[0016]获取位于不完整对话前的一个或多个历史对话语句;
[0017]对历史对话以及不完整对话进行预处理操作,所述预处理操作包括去除特殊符号、半全角转换和简繁体转换。
[0018]进一步的,所述将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵的方法包括:
[0019]串接历史对话和不完整对话;
[0020]使用改写操作判断模型编码器对串接后的历史对话和不完整对话内容语义编码;
[0021]使用改写操作判断模型解码器对语义编码信息解码得到插入操作矩阵和替换操作矩阵。
[0022]进一步的,所述基于插入操作矩阵抽取插入操作信息的方法包括:
[0023]使用插入操作信息抽取算法抽取插入操作信息,包括:
[0024]遍历与不完整对话对应的插入操作矩阵每一行,若被遍历行中存在两列取值为1,且与历史对话对应,则抽取两列对应的历史对话片段,同时标记改行与不完整对话对应的所在位置为插入位置;
[0025]把历史对话片段和对应的插入位置作为一个二元组保存到插入操作信息中。
[0026]进一步的,所述基于替换操作矩阵抽取替换操作信息的方法包括:
[0027]使用替换操作信息抽取算法抽取替换操作信息,包括:
[0028]遍历与不完整对话对应的替换操作矩阵每一行,若被遍历行中存在1列取值为1,且与历史对话对应,分别记录行号和列号为h1和c1;
[0029]从h1下一行继续遍历替换操作矩阵每一行,若被遍历行中存在1列取值为1,且与历史对话对应,分别记录行号和列号为h2和c2;
[0030]抽取不完整对话中的h1到h2片段作为待替换片段,抽取历史对话中的c1到片段c2作为对应的替换片段;
[0031]把待替换片段和对应的替换片段作为一个二元组保存到替换操作信息中。
[0032]进一步的,所述基于插入操作信息和替换操作信息对原始不完整对话进行最终的
改写的方法包括:
[0033]遍历插入操作信息中的每一个二元组,把其中的历史对话片段插入到插入位置后;
[0034]遍历替换操作信息中的每一个二元组,用替换片段替换不完整对话中的待替换片段。
[0035]本专利技术还提供一种不完整对话改写装置,包括:
[0036]数据处理模块,用于获取历史对话,并对所述历史对话和不完整对话进行预处理;
[0037]改写操作矩阵获取模块,将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;
[0038]插入操作信息抽取模块,用于使用插入操作信息抽取算法抽取插入操作信息;
[0039]替换操作信息抽取模块,用于使用替换操作信息抽取算法抽取替换操作信息;
[0040]对话修改模块,用于基于插入操作信息和替换操作信息对原始不完整对话进行最终的改写。
[0041]本专利技术还提供一种存储介质,所述存储介质上存储有不完整对话改写程序,所述不完整对话改写程序被处理器执行时实现上述的不完整对话改写方法的步骤。
[0042]本专利技术的有益效果是:本专利技术能实现不完整对话与信息完整的对话间的高度重合,生成与历史对话信息语义相符的对话,且能对同时存在一个或多个指代和省略项的不完整对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不完整对话改写方法,其特征在于,包括:获取历史对话,并对所述历史对话和不完整对话进行预处理;将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;基于插入操作矩阵抽取插入操作信息;基于替换操作矩阵抽取替换操作信息;基于插入操作信息和替换操作信息对原始不完整对话进行最终的改写。2.根据权利要求1所述的不完整对话改写方法,其特征在于,所述获取历史对话,并对所述历史对话和不完整对话进行预处理的方法包括:获取位于不完整对话前的一个或多个历史对话语句;对历史对话以及不完整对话进行预处理操作,所述预处理操作包括去除特殊符号、半全角转换和简繁体转换。3.根据权利要求1所述的不完整对话改写方法,其特征在于,所述将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵的方法包括:串接历史对话和不完整对话;使用改写操作判断模型编码器对串接后的历史对话和不完整对话内容语义编码;使用改写操作判断模型解码器对语义编码信息解码得到插入操作矩阵和替换操作矩阵。4.根据权利要求1所述的不完整对话改写方法,其特征在于,所述基于插入操作矩阵抽取插入操作信息的方法包括:使用插入操作信息抽取算法抽取插入操作信息,包括:遍历与不完整对话对应的插入操作矩阵每一行,若被遍历行中存在两列取值为1,且与历史对话对应,则抽取两列对应的历史对话片段,同时标记改行与不完整对话对应的所在位置为插入位置;把历史对话片段和对应的插入位置作为一个二元组保存到插入操作信息中。5.根据权利要求4所述的不完整对话改写方法,其特征在于,所述基于替换操作矩阵抽取替换操作...

【专利技术属性】
技术研发人员:周兴发杨兰谭斌饶璐孙锐展华益
申请(专利权)人:四川长虹电子控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1