基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备及存储介质制造方法及图纸

技术编号:39249789 阅读:13 留言:0更新日期:2023-10-30 12:01
本发明专利技术涉及基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备以及存储介质,该方法获取多领域对话状态追踪数据集,对数据集进行处理,构建对话状态追踪数据集;提取对话上下文和槽位的语义信息,将其编码为高维特征词向量;通过新的融合机制融合对话上下文和槽位词向量,得到融合槽语义的对话上下文词向量和句子向量;根据槽位在上一轮是否被系统提和槽位的槽值在上一轮是否进行填充,构建两个辅助特征,并将其作为先验融合到融合槽语义的对话上下文句子向量,得到增强的对话上下文句子向量;将融合槽语义的对话上下文词向量和增强句子向量输入到槽值提取层提取槽值,进行对话状态更新。本发明专利技术通过设计一种新的融合机制,可以有效适应对话状态追踪任务,不仅提高了对话状态追踪的准确率,而且槽位共享的设计提高模型的扩展能力。提高模型的扩展能力。提高模型的扩展能力。

【技术实现步骤摘要】
基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备及存储介质


[0001]本专利技术涉及信息
中的自然语言处理领域,尤其涉及多领域对话状态追踪等
具体地,提供基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备以及存储介质。

技术介绍

[0002]对话状态追踪任务的目标是在每轮对话回合中根据所有给定的对话上下文预测出当前轮次对话状态。作为中间模块,对话状态追踪模型性能好坏直接影响后续的对话策略选择。对话状态是由领域本体指定的一组键值对组成的,键指的是“领域

槽位”本文称之为槽位,值指的是对话上下文中需要提取的槽值,本文称之为槽值。研究初期,对话状态追踪任务主要关注单领域,单领域状态追踪模型需要预测的槽位数量较少,本体规模也较小。这类方法对对话上下文进行编码之后,通过分类器从本体中的候选槽值中预测出槽值。
[0003]目前,通用的多领域对话状态追踪模型主要分为两类:生成式方法和基于跨度预测的方法。生成式方法通常采用GRU、T5和GPT

2等生成式模型生成对应的槽值。虽然生成式方法不依赖于预先定义的本体,是无法控制生成式模型生成的文本,存在生成错误槽值的潜在风险。对话时需要提取的槽值会显式或者隐式地出现在对话上下文中,所以槽值可以从对话上下文中直接提取。基于跨度预测的方法利用这一特点,在对话文本当中预测槽值所在的起始位置。
[0004]在现有的基于跨度预测的多领域对话状态追踪方法相对于生成式方法更加稳健可靠,但是需要为每个槽位单独设计槽值提取模块。这种槽独立的设计,不仅影响模型扩展性,而且阻止槽之间的信息共享。
[0005]为解决上述传统方法中存在的问题,本专利技术提供了一种细粒度槽语义

对话上下文动态融合机制,并在该机制基础上设计一种槽共享的跨度预测方法来提取槽值,以实现槽之间的信息共享,同时缓解模型可扩展问题。具体地,槽语义表示时,除了槽名称之外,本文还将槽描述和槽的分类属性等信息引入到槽语义表示当中;槽语义和对话上下文融合阶段,从槽语义中动态选择对当前每个对话上下文词而言最重要的槽词向量,作为槽语义表示融合到对话上下文中;在槽值提取阶段,设计所有预定义槽共享的槽值提取模块。槽值提取模块是所有预定义槽共享的,槽共享的设计能实现槽之间的信息共享。此外,当槽数量增加时,不需要模型结构,只需在预定义集合中将新增槽的槽语义信息添加即可,不需要额外地为新增的槽引入单独的槽值提取模块。

技术实现思路

[0006]本专利技术目的在于,提供一种基于槽位共享跨度预测的多领域对话状态追踪方法、装置、设备以及存储介质。该方法获取多领域对话状态追踪数据集,对数据集进行处理,构建跨度预测的多领域对话状态数据集;提取句对话上下文的语义信息,提取槽位的语义信
息,并将其编码为高维词向量;通过计算当前槽位词向量和对话上下文词向量之间的相似度分数,选择相似度最高的槽位词的词向量并扩展至对话上下文词向量大小,与其进行内积计算,然后进行拼接获取槽位信息融合的对话上下文词向量;将这两个辅助特征作为先验,拼接到槽位信息融合对话上下文语义向量,获取增强的对话上下文语义向量;在增强的对话上下文语义向量中提取当前轮次的对话状态信息。本专利技术通过设计有效的融合模块和槽位共享的方法特有效促进不同槽位之间的信息交互,提高多领域对话状态追踪的准确率的同时提高模型的扩展能力。
[0007]本专利技术一种基于槽位共享跨度预测的多领域对话状态追踪方法,按下列步骤进行:
[0008]a、获取多领域对话状态追踪数据集,对数据集进行处理,构建适合跨度预测方法的对话状态追踪数据集;
[0009]b、将用户与系统之间首轮至上一轮的对话内容作为对话历史,与当前用户语句进行拼接,[SEP]作为标识;之后在开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],并将其作为对话上下文输入到BERT语言模型进行编码,将整个输出作为上下文词向量;
[0010]c、利用槽位名称、槽位描述和槽位属性作为细粒度语义信息,在开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],并用冻结参数BERT语言模型进行编码,把整个输出作为槽语义上下文表示,获取所有槽位的槽语义上下文词向量;
[0011]d、在融合当前槽位语义和对话上下文时,从步骤c中槽语义上下文词向量表示中动态选择对当前每个对话上下文词而言最重要的槽位词向量,融合到对话上下文中,获取槽位信息融合的对话上下文词向量,并通过池化层获取槽位信息融合的对话上下文语义向量;
[0012]e、构建两个辅助特征,第一,一个槽位的槽值在上一轮被系统提及,则为1,否则为0;第二,一个槽位的槽值在上一轮已经进行填充,则为1,否则为0;依据此信息,分别构建两个one

hot向量并编码为高维向量,再将高维向量拼接到步骤d中槽位信息融合对话上下文语义向量,获取增强的对话上下文语义向量;
[0013]f、槽值提取类型分为span、inform、refer、true、false、dontcare和none七种类型,将步骤e中获取的增强的对话上下文语义向量输入到一个分7类的提取类型分类器,确定当前槽位的槽值提取类型;
[0014]g、根据步骤f中的提取类型,当一个槽位的槽值提取类型为inform、true、false、dontcare或none,直接确定其槽值;当槽位的槽值提取类型为span,将槽位信息融合的槽位信息融合的对话上下文词向量输入到跨度预测分类器,获取槽值;当槽位的槽值提取类型为refer,将槽位信息融合的对话上下文语义向量指代预测分类器,确定指向的槽位,从而获取槽值;
[0015]h、将确定完当前轮次中所有槽位的槽值之后,当前轮次中某一个槽位的槽值为非none,则覆盖上一轮该槽位的槽值,以此类推,更新所有槽位的槽值。
[0016]步骤d中的融合方法通过计算当前槽位词向量和对话上下文词向量之间的相似度分数,选择相似度最高的槽位词的词向量并扩展至对话上下文词向量大小,并与其进行内积计算,然后进行拼接获取槽位信息融合的对话上下文词向量;
[0017]步骤f和步骤g中的所述的分类器的训练参数为所有槽位共享。
[0018]一种基于槽位共享跨度预测的多领域对话状态追踪装置,该装置是由权利要求1所述方法涉及的装置,是由多领域对话状态追踪数据构建模块,对话上下文和槽语义编码器模块,对话上下文和槽语义融合模块,槽值提取模块和对话状态更新模块组成,其中:
[0019]多领域对话状态追踪数据构建模块:获取多领域对话状态追踪数据集,对数据集进行处理,构建基于跨度预测的多领域对话状态追踪数据集,具体包括数据集标注单元,用于在数据集中标注槽值起始与结束位置,每个槽位在当前对话内容中槽值提取类型;对话上下文构建单元,将用户与系统之间首轮至上一轮的对话内容作为对话历史,与当前用户语句进行拼接,[SEP]作为标识;之后在开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于槽位共享跨度预测的多领域对话状态追踪方法,其特征在于按下列步骤进行:a、获取多领域对话状态追踪数据集,对数据集进行处理,构建适合跨度预测方法的对话状态追踪数据集;b、将用户与系统之间首轮至上一轮的对话内容作为对话历史,与当前用户语句进行拼接, [SEP]作为标识;之后在开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],并将其作为对话上下文输入到BERT语言模型进行编码,将整个输出作为上下文词向量;c、利用槽位名称、槽位描述和槽位属性作为细粒度语义信息,在开始位置添加特殊标记[CLS],结束位置添加特殊标记[SEP],并用冻结参数BERT语言模型进行编码,把整个输出作为槽语义上下文表示,获取所有槽位的槽语义上下文词向量;d、在融合当前槽位语义和对话上下文时,从步骤c中槽语义上下文词向量表示中动态选择对当前每个对话上下文词而言最重要的槽位词向量,融合到对话上下文中,获取槽位信息融合的对话上下文词向量,并通过池化层获取槽位信息融合的对话上下文语义向量;e、构建两个辅助特征,第一,一个槽位的槽值在上一轮被系统提及,则为1,否则为0;第二,一个槽位的槽值在上一轮已经进行填充,则为1,否则为0;依据此信息,分别构建两个one

hot向量并编码为高维向量,再将高维向量拼接到步骤d中槽位信息融合对话上下文语义向量,获取增强的对话上下文语义向量;f、槽值提取类型分为span、inform、refer、true、false、dontcare和none七种类型,将步骤e中获取的增强的对话上下文语义向量输入到一个分7类的提取类型分类器,确定当前槽位的槽值提取类型;g、根据步骤f中的提取类型,当一个槽位的槽值提取类型为inform、true、false、dontcare或none,直接确定其槽值;当槽位的槽值提取类型为span,将槽位信息融合的槽位信息融合的对话上下文词向量输入到跨度预测分类器,获取槽值;当槽位的槽值提取类型为refer,将槽位信息融合的对话上下文语义向量指代预测分类器,确定指向的槽位,从而获取槽值;h、将确定完当前轮次中所有槽位的槽值之后,当前轮次中某一个槽位的槽值为非none,则覆盖上一轮该槽位的槽值,以此类推,更新所有槽位的槽值。2.根据权利要求1所述的一种基于槽位共享跨度预测的多领域对话状态追踪方法,其特征在于,步骤d中的融合方法通过计算当前槽位词向量和对话上下文词向量之间的相似度分数,选择相似度最高的槽位词的词向量并扩展至对话上下文词向量大小,并与其进行内积计算,然后进行拼接获取槽位信息融合的对话上下文词向量。3.根据权利要求1所述的一种基于槽位共享跨度预测的多领域对话状态追踪方法,其特征在于,步骤f和步骤g中的所述的分类器的训练参数为所有槽位共享。4.一种基于槽位共享跨度预测的多领域对话状态追踪装置,其特征在于该装置是由权利要求1所述方法涉及的装置,是由多领域对话状态追踪数据构建模块,对话上下文和槽语义编码器...

【专利技术属性】
技术研发人员:周喜艾比布拉
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1