语言模型训练及自然语言任务处理方法、装置及相关设备制造方法及图纸

技术编号:35217345 阅读:19 留言:0更新日期:2022-10-15 10:32
本申请公开了一种语言模型训练及自然语言任务处理方法、装置及相关设备,区别于传统的以掩码字符对应的编码特征来预测目标字符的方式,本案改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义。同时,本申请也可以通过第一占位符提取到训练文本整体的语义,使得提取到的最终特征同时包含了全局和局部语义特征,特征更加丰富、准确。应用于下游任务时,能够更好的区分相似语义的文本。能够更好的区分相似语义的文本。能够更好的区分相似语义的文本。

【技术实现步骤摘要】
语言模型训练及自然语言任务处理方法、装置及相关设备


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种语言模型训练及自然语言任务处理方法、装置及相关设备。

技术介绍

[0002]自然语言处理是人工智能领域的重要研究方向,其核心目的是教机器“读懂”人类日常使用的自然语言,如输入两句话,让机器判断这两句话是否语义相关,等。传统深度学习采用监督学习的训练方式,依赖大量精确标注数据,然而精确标注数据在实际应用中数据量较少,且存在标注规范不统一、标注时间长、标注精度差等问题。因此,无监督语言模型开始兴起,其先利用大量无标注语料学习通用的语义理解能力,再利用少量精标注数据进行微调,使得深度学习模型在众多任务上都表现出与人类相当甚至超越人类的性能。
[0003]目前使用最多的语言模型以Transformer为例,其在输入文本的开头添加[CLS]占位符,并其基于自注意力机制建模上下文语义信息,通过预训练可以使得[CLS]占位符编码了输入文本的全局信息,基于此,后续利用[CLS]占位符对应的编码信息,来进行下游任务的处理,如做分类任务等。但是,本案专利技术人研究发现,这种训练方式虽然能够通过[CLS]占位符编码输入文本的全局信息,但是并未考虑输入文本局部的差异对上下文语义的影响,导致模型对相似文本无法很好的进行区分,示例如对于两条文本“高温低压”和“高压低温”,这两条文本的语义是完全相反的,但是按照现有语言模型训练方式,其认为两条文本整体上包含的字符都有且形式上十分相似,进而输出的该两条文本的全局编码特征比较接近,在经过下游的比对模型处理后,给出两条文本语义相似的结果,可知,该结果明显是错误的。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种语言模型训练及自然语言任务处理方法、装置及相关设备,以解决现有语言模型仅能够提取输入文本的全局特征而忽略了局部特征,导致提取的特征不够准确,进而影响下游任务处理结果的问题。
[0005]第一方面,提供了一种语言模型训练方法,包括:
[0006]对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
[0007]确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
[0008]利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
[0009]基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
[0010]第二方面,提供了一种自然语言任务处理方法,包括:
[0011]获取待处理的任务文本;
[0012]利用上述训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
[0013]将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
[0014]利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
[0015]第三方面,提供了一种语言模型训练装置,包括:
[0016]训练文本编辑单元,用于对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;
[0017]编码特征确定单元,用于确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;
[0018]编码特征处理单元,用于利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;
[0019]预测单元,用于基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。
[0020]第四方面,提供了一种自然语言任务处理装置,包括:
[0021]任务文本获取单元,用于获取待处理的任务文本;
[0022]任务文本处理单元,用于利用上述训练得到的语言模型处理所述任务文本,得到所述语言模型输出的第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;
[0023]特征融合单元,用于将所述全局语义特征及局部语义特征进行融合,得到融合语义特征;
[0024]任务处理单元,用于利用预配置的任务处理模块,基于所述融合语义特征进行指定任务处理,得到任务处理结果。
[0025]第五方面,提供了一种电子设备,包括:存储器和处理器;
[0026]所述存储器,用于存储程序;
[0027]所述处理器,用于执行所述程序,实现如上所述的语言模型训练方法,或实现如上所述的自然语言任务处理方法的各个步骤。
[0028]第六方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语言模型训练方法,或实现如上所述的自然语言任务处理方法的各个步骤。
[0029]借由上述技术方案,本申请区别于传统的以掩码字符对应的编码特征来预测目标
字符的方式,改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符,从而将训练文本中局部信息编码进第二占位符中,使得第二占位符对应的编码特征能够表示训练文本中局部的语义,本申请中也将第二占位符对应的编码特征定义为局部语义特征。与此同时,本申请也可以通过第一占位符提取到训练文本整体的语义,即全局语义特征,综上,按照本申请的方法所训练得到的语言模型,能够通过第一占位符提取输入文本的全局语义特征,通过第二占位符提取输入文本的局部语义特征,相比于现有技术仅能够提取全局语义特征,本申请额外提取了局部语义特征,使得提取到的最终特征同时包含了全局和局部语义特征,特征更加丰富、准确。
[0030]在此基础上,下游的任务处理模块可以基于全局语义特征和局部语义特征融合后的融合语义特征,进行指定任务的处理,由于融合语义特征包含的信息更加丰富、更加准确,因此得到的下游任务处理结果也更加准确,尤其是对相似语义文本的识别判断,基于该融合语义特征,能够更好的区分相似语义的文本。
附图说明
[0031]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法,其特征在于,包括:对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代,且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符,在每条训练文本的末尾添加有第二占位符;确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征;利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征;所述全局语义特征用于表示所述训练文本整体的语义,所述局部语义特征用于表示所述训练文本中局部的语义;基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征,预测所述掩码字符对应的目标字符,直至达到设定训练结束条件,得到训练后的语言模型。2.根据权利要求1所述的方法,其特征在于,所述对训练文本进行占位符添加及随机字符掩码处理,得到编辑后训练文本,包括:在首条训练文本的起始字符前添加第一占位符,在每条训练文本的末尾添加第二占位符,得到包含占位符的训练文本;将所述包含占位符的训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到编辑后训练文本;或,将每条训练文本按照字符进行拆分,并随机选取目标字符用设定掩码字符替代,得到掩码后训练文本;在首条掩码后训练文本的起始字符前添加第一占位符,在每条掩码后训练文本的末尾添加第二占位符,得到编辑后训练文本。3.根据权利要求1所述的方法,其特征在于,确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符的编码特征,包括:对于编辑后训练文本中包括第一、第二占位符及掩码字符在内的,每个字符:分别确定字符的字符编码特征、片段编码特征和位置编码特征,其中,所述字符编码特征表示字符本身的含义,所述片段编码特征表示字符所在训练文本的排序顺序,所述位置编码特征表示字符在编辑后训练文本中的位置;将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合,得到每个字符融合后的编码特征。4.根据权利要求3所述的方法,其特征在于,确定字符的位置编码特征的过程,包括:确定所述编辑后训练文本中的分词及各分词的排序顺序;对于编辑后训练文本中每个字符,按照字符所在分词的排序顺序,确定字符的位置编码特征。5.根据权利要求1所述的方法,其特征在于,所述利用语言模型处理各字符的编码特征,得到与所述第一占位符对应的全局语义特征,以及与所述第二占位符对应的局部语义特征,包括:利用语言模型将所述编辑后训练文本中的每个字符,分别与其余各字符进行注意力
attention处理,得到每个字符融合其余字符含义后的特征表示,其中,由第一占位符对应的字符融合其余字符含义后的特征表示,作为全局语义特征,由第二占位符对应的字符融合其余字符含义后的特征表示,作为局部语义特征。6.根据权利要求1

5任一项所述的方法,其特征在于,还包括:利用训练后的语言模型处理添加了第一、第二占位符后的训练文本,得到第一占位符对应的全局语义特征和第二占位符对应的局部语义特征;将所述全局语义特征和所述局部语义特征进行融合,得到融合后语义特征;将所述融合后语义特征输入下游的任务处理模块,得到任务处理模块预测的任务处理结果,以所述预测的任务处理结果趋近于所述训练文本对应的...

【专利技术属性】
技术研发人员:许光辉杜倩云梅林海
申请(专利权)人:科大讯飞华南人工智能研究院广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1