一种基于提示的高效率小样本对话语义理解方法技术

技术编号:37308987 阅读:16 留言:0更新日期:2023-04-21 22:52
本发明专利技术提供了一种基于提示的高效率小样本对话语义理解方法,包括:收集槽位标签的中文名称及描述语句,得到预训练数据集,构造提示模板,搭建小样本微调语言模型,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,输入需要预测的语句,进行小样本对话语义理解预测。本发明专利技术提供的基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。大大提高了模型的效率。大大提高了模型的效率。

【技术实现步骤摘要】
一种基于提示的高效率小样本对话语义理解方法


[0001]本专利技术涉及语义识别
,特别是涉及一种基于提示的高效率小样本对话语义理解方法。

技术介绍

[0002]基于模板(template)或者提示(prompting)的方法最近在对话系统的小样本语义理解任务(Natural language understanding, NLU)中取得了进展,这对工业界的对话系统快速扩充业务面有重大意义。这些方法使用模板来修改输入样本,并解码标签tokens以将输入中的某个span映射到相应的槽标签。然而,如图4所示,这样的基于提示的方法对于NLU中槽标记任务来说是非常低效的,因为一个句子中有多个n

gram,模型必须对这些n

gram都进行标签解码,才能得到一个句子的完整槽填充结果,这大大减慢了预测速度。但是对话系统对模型效率有着严格的要求。所以目前基于提示的方法在工业界的应用受到了很大限制。因此,设计一种基于提示的高效率小样本对话语义理解方法是十分有必要的。

技术实现思路

[0003]本专利技术的目的是提供一种基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
[0004]为实现上述目的,本专利技术提供了如下方案:一种基于提示的高效率小样本对话语义理解方法,包括如下步骤:步骤1:收集槽位标签的中文名称及描述语句,得到预训练数据集;步骤2:构造提示模板;步骤3:搭建小样本微调语言模型;步骤4:将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练;步骤5:输入需要预测的语句,进行小样本对话语义理解预测。
[0005]可选的,步骤1中,收集槽位标签的中文名称及描述语句,得到预训练数据集,具体为:收集槽位标签的中文名称,根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式,得到槽位标签的描述语句,将槽位标签的中文名称及描述语句作为预训练数据集。
[0006]可选的,步骤2中,构造提示模板,具体为:构建面向槽填充的提示模板及面向意图识别的提示模板,其中,面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句,输出为预定义的槽位标签的描述语句;面向意图识别的提示模板包括输入句子,输出为识别的意图。
[0007]可选的,面向槽填充的提示模板为:<s>sentence [slot

prompt] [slot

desc] s
i,decs [/slot

desc]其中,s
i
为预定义的槽位标签,包括槽位标签的中文名称s
i,name
以及槽位标签的描述语句s
i,decs ,sentence为输入句子。
[0008]可选的,面向意图识别的提示模板为:<s>sentence [intent

prompt]其中,sentence为输入句子,输出为识别的意图。
[0009]可选的,步骤4中,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,具体为:将面向槽填充的提示模板、面向意图识别的提示模板以及预训练数据输入小样本微调语言模型,小样本微调语言模型在输入的基础上进行解码,在解码的每一步均计算词汇表的概率分布,并与金标准词进行对比,计算交叉熵损失函数值,进行小样本微调言语模型的训练。
[0010]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供的基于提示的高效率小样本对话语义理解方法,该方法包括收集槽位标签的中文名称及描述语句,得到预训练数据集,构造提示模板,搭建小样本微调语言模型,将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练,输入需要预测的语句,进行小样本对话语义理解预测;将槽位标签的描述语句放入提示,让小样本微调语言模型来预测槽位标签类型下的槽值,减少了解码和预测所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。
附图说明
[0011]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本专利技术实施例基于提示的高效率小样本对话语义理解方法流程示意图;图2为面向槽填充的提示模板构造示意图;图3为基于部分槽位答案的prompt构造示意图;图4为现有的小样本对话语义理解流程示意图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0014]本专利技术的目的是提供一种基于提示的高效率小样本对话语义理解方法,通过在提示中陈述槽类型来预测槽值,减少了解码和预测的所需要的模型前向传播次数,在不损失模型表现的同时,大大提高了模型的效率。

<s>预定明天早上从北京到纽约的航班。[slot

prompt] [slot

desc] 价格:航班耗费的钱的数额 [/slot

desc] 本句的 价格 信息是 ____”“<s>预定明天早上从北京到纽约的航班。[slot

prompt] [slot

desc] 起点:从什么地方出发 [/slot

desc] 本句的 起点 信息是 ____”“<s>预定明天早上从北京到纽约的航班。[slot

prompt] [slot

desc] 出发时间:动身的时间 [/slot

desc] 本句的 出发时间 信息是 ____”另外,本专利技术引入了控制字符来完成槽填充任务的提示功能。为了识别槽类型没有对应实体的情况,本专利技术引入<NONE> 字符来填充输出。为了支持一个槽类型有多个槽值的情况,本专利技术引入 [sep

slot] 字符来间隔不同的槽值;本专利技术引入“</s>
”ꢀ
作为句子结束 标记来表达单个生成任务的结束, 也就是说如果解码器生成“</s>”符号,那么当前生成任务结束;本专利技术还可以通过对话历史和以前的对话状态加入到模型输入中,帮助当前用户输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于提示的高效率小样本对话语义理解方法,其特征在于,包括如下步骤:步骤1:收集槽位标签的中文名称及描述语句,得到预训练数据集;步骤2:构造提示模板;步骤3:搭建小样本微调语言模型;步骤4:将提示模板及预训练数据集输入小样本微调语言模型,对小样本微调语言模型进行训练;步骤5:输入需要预测的语句,进行小样本对话语义理解预测。2.根据权利要求1所述的基于提示的高效率小样本对话语义理解方法,其特征在于,步骤1中,收集槽位标签的中文名称及描述语句,得到预训练数据集,具体为:收集槽位标签的中文名称,根据槽位标签的中文名称将其转换为小样本微调语言模型容易理解的单词或短语形式,得到槽位标签的描述语句,将槽位标签的中文名称及描述语句作为预训练数据集。3.根据权利要求2所述的基于提示的高效率小样本对话语义理解方法,其特征在于,步骤2中,构造提示模板,具体为:构建面向槽填充的提示模板及面向意图识别的提示模板,其中,面向槽填充的提示模板包括输入句子及预定义的槽位标签的描述语句,输出为预定义的槽位标签的描述语句;面向意图识别的提示模板包括输入句子,输出为识别的意图。4.根据权利要求3所述的基于提示的高效率小样本对话语义理解方法,其特征在于,面向槽填充的提示模板为:<s> s...

【专利技术属性】
技术研发人员:游世学王丙栋郭锐张晓东乔亚飞
申请(专利权)人:北京中科汇联科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1