语言模型的预训练方法、装置及电子设备制造方法及图纸

技术编号:37842679 阅读:12 留言:0更新日期:2023-06-14 09:47
本公开提供了语言模型的预训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索技术领域。具体实现方案为:获取至少一个掩码样本文本、掩码样本文本中掩码位置的参考词语以及掩码样本文本中分词词语的参考类别;将掩码样本文本输入语言模型中的特征提取网络,获取掩码位置的特征向量以及分词词语的特征向量;进而输入语言模型中的预测网络,获取掩码位置的预测词语以及分词词语的预测类别;根据掩码位置的预测词语和参考词语、分词词语的预测类别和参考类别,构建语言模型的损失函数,对语言模型进行预训练处理,从而使得语言模型能够学习到词语类别能力,提高语言模型的准确度。提高语言模型的准确度。提高语言模型的准确度。

【技术实现步骤摘要】
语言模型的预训练方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理、智能搜索
,尤其涉及一种语言模型的预训练方法、装置及电子设备。

技术介绍

[0002]目前,常见的语言模型的预训练方法主要为,对样本文本中的部分词语进行掩码处理,然后基于上下文对掩码位置进行词语预测处理,得到预测词语,结合预测词语以及掩码位置的原始词语,构建损失函数,对语言模型进行训练,从而使得语言模型能够学习到文本理解能力。
[0003]然而,基于上述预训练方法训练得到的语言模型,在实际应用中,若输入的文本中存在新词,即语言模型训练过程中未接触过的词语,会严重干扰语言模型的最终输出结果,降低输出结果的准确度,导致语言模型的准确度差。

技术实现思路

[0004]本公开提供了一种语言模型的预训练方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种语言模型的预训练方法,所述方法包括:获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别;将所述掩码样本文本输入语言模型中的特征提取网络,获取所述掩码位置的特征向量以及所述分词词语的特征向量;将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络,获取所述掩码位置的预测词语以及所述分词词语的预测类别;根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别,构建所述语言模型的损失函数,对所述语言模型进行预训练处理。
[0006]根据本公开的另一方面,提供了一种语言模型的预训练装置,所述装置包括:第一获取模块,用于获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别;第二获取模块,用于将所述掩码样本文本输入语言模型中的特征提取网络,获取所述掩码位置的特征向量以及所述分词词语的特征向量;第三获取模块,用于将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络,获取所述掩码位置的预测词语以及所述分词词语的预测类别;训练模块,用于根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别,构建所述语言模型的损失函数,对所述语言模型进行预训练处理。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述提出的语言模型的预训练方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开上述提出的语言模型的预训练方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述提出的语言模型的预训练方法的步骤。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是根据本公开第三实施例的示意图;
[0015]图4是语言模型的预训练示意图;
[0016]图5是根据本公开第四实施例的示意图;
[0017]图6是用来实现本公开实施例的语言模型的预训练方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]目前,常见的语言模型的预训练方法主要为,对样本文本中的部分词语进行掩码处理,然后基于上下文对掩码位置进行词语预测处理,得到预测词语,结合预测词语以及掩码位置的原始词语,构建损失函数,对语言模型进行训练,从而使得语言模型能够学习到文本理解能力。
[0020]然而,基于上述预训练方法训练得到的语言模型,在实际应用中,若输入的文本中存在新词,即语言模型训练过程中未接触过的词语,会严重干扰语言模型的最终输出结果,降低输出结果的准确度,导致语言模型的准确度差。
[0021]针对上述问题,本公开提出一种语言模型的预训练方法、装置及电子设备。
[0022]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的语言模型的预训练方法可应用于语言模型的预训练装置,该装置可被配置于电子设备中,以使该电子设备可以执行语言模型的预训练功能。以下实施例中以执行主体为电子设备为例进行说明。
[0023]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0024]如图1所示,该语言模型的预训练方法可以包括如下步骤:
[0025]步骤101,获取至少一个掩码样本文本、掩码样本文本中掩码位置的参考词语以及掩码样本文本中分词词语的参考类别。
[0026]在本公开实施例中,掩码样本文本,可以为对样本文本中部分词语进行掩码得到的。其中,针对样本文本中部分词语中的每个词语,对该词语的掩码处理的方式可以有两
种,一种是采用一个掩码字符对该词语进行替换处理;另一种是对该词语中的每个字符,分别采用一个掩码字符进行替换处理。
[0027]其中,掩码位置,为掩码样本文本中被掩码词语所在的位置。其中,词语中可以包括一个字符或者多个字符。
[0028]例如,样本文本可以为“香菇可以炒芹菜吗”,其中的词语分别可以为“香菇”、“可以”、“炒”、“芹菜”、“吗”。可以对该样本文本中的“香菇”进行掩码处理,对该样本文本中“芹菜”中的每个字符进行掩码处理,得到的掩码样本文本例如可以为“mask可以炒mask mask吗”。其中,每个“mask”表示一个掩码字符。
[0029]在本公开实施例中,分词词语的参考类别,可以为分词词语的上位概念,或者,可以为没有实际意义的编号等,可以根据实际需要进行设定。
[0030]步骤102,将掩码样本文本输入语言模型中的特征提取网络,获取掩码位置的特征向量以及分词词语的特征向量。
[0031]步骤103,将掩码位置的特征向量以及分词词语的特征向量输入语言模型中的预测网络,获取掩码位置的预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的预训练方法,包括:获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别;将所述掩码样本文本输入语言模型中的特征提取网络,获取所述掩码位置的特征向量以及所述分词词语的特征向量;将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络,获取所述掩码位置的预测词语以及所述分词词语的预测类别;根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别,构建所述语言模型的损失函数,对所述语言模型进行预训练处理。2.根据权利要求1所述的方法,其中,所述获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别,包括:获取至少一个样本文本;针对每个样本文本,对所述样本文本中的部分词语进行掩码处理,得到所述样本文本对应的掩码样本文本;根据所述样本文本,确定所述掩码样本文本中的掩码位置以及所述掩码位置的参考词语;根据所述掩码样本文本中的分词词语查询类别词表,获取所述分词词语的参考类别。3.根据权利要求2所述的方法,其中,所述针对每个样本文本,对所述样本文本中的部分词语进行掩码处理,得到所述样本文本对应的掩码样本文本,包括:针对每个样本文本,对所述样本文本进行分词处理,获取所述样本文本中的多个分词词语;从多个所述分词词语中选择第一分词词语;对所述样本文本中所述第一分词词语的所在位置进行掩码处理,得到所述样本文本对应的掩码样本文本。4.根据权利要求2所述的方法,其中,所述针对每个样本文本,对所述样本文本中的部分词语进行掩码处理,得到所述样本文本对应的掩码样本文本,包括:针对每个样本文本,对所述样本文本进行分词处理,获取所述样本文本中的多个分词词语;从多个所述分词词语中选择第一分词词语和第二分词词语;对所述第二分词词语进行拆分处理,获取所述第二分词词语中的第二字符;对所述样本文本中所述第一分词词语的所在位置以及所述第二字符的所在位置进行掩码处理,得到所述样本文本对应的掩码样本文本。5.根据权利要求2所述的方法,其中,所述根据所述样本文本,确定所述掩码样本文本中的掩码位置以及所述掩码位置的参考词语,包括:确定所述掩码样本文本中的掩码位置;将所述样本文本中所述掩码位置上的词语,作为所述掩码位置的参考词语。6.根据权利要求2所述的方法,其中,在根据所述掩码样本文本中的分词词语查询类别词表,获取所述分词词语的参考类别之前,所述方法还包括:获取预设词表,所述预设词表中包括大于预设数量的词语;
确定各个所述词语的编码向量;根据各个所述词语的编码向量,对各个所述词语进行聚类处理,得到至少一个聚类结果;根据至少一个所述聚类结果的类别,确定各个所述词语的参考类别;根据各个所述词语以及各个所述词语的参考类别,生成所述类别词表。7.根据权利要求1所述的方法,其中,所述预测网络包括:词语预测网络和类别预测网络,所述将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络,获取所述掩码位置的预测词语以及所述分词词语的预测类别,包括:将所述掩码位置的特征向量以及所述分词词语的特征向量,输入所述词语预测网络中,获取所述词语预测网络输出的所述掩码位置的预测词语;将所述分词词语的特征向量输入所述类别预测网络中,获取所述类别预测网络输出的所述分词词语的预测类别。8.根据权利要求1所述的方法,其中,所述根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别,构建所述语言模型的损失函数,对所述语言模型进行预训练处理,包括:根据所述掩码位置的预测词语和参考词语,构建词语预测损失函数;根据所述分词词语的预测类别和参考类别,构建类别预测损失函数;根据所述词语预测损失函数和所述类别预测损失函数,构建所述损失函数;根据所述损失函数的数值,对所述语言模型进行系数调整,实现对所述语言模型的预训练处理。9.根据权利要求8所述的方法,其中,所述掩码位置的参考词语,为所述掩码样本文本对应的样本文本中的分词词语,所述根据所述掩码位置的预测词语和参考词语,构建词语预测损失函数,包括:针对每个掩码位置,确定所述掩码位置的预测词语的特征向量;确定所述掩码位置的参考词语的特征向量;根据所述掩码位置的预测词语的特征向量以及参考词语的特征向量,构建一个词语预测损失项;根据各个所述掩码位置的词语预测损失项,构建所述词语预测损失函数。10.根据权利要求8所述的方法,其中,至少一个所述掩码位置的参考词语,为所述掩码样本文本对应的样本文本中分词词语拆分得到的,所述根据所述掩码位置的预测词语和参考词语,构建词语预测损失函数,包括:确定至少一个所述掩码位置与所述样本文本中分词词语的所在位置之间的对应关系,其中,在所述对应关系中,至少一个所述掩码位置的参考词语,由对应的所在位置的分词词语拆分处理得到;针对所述样本文本中每个分词词语的所在位置,根据对应的至少一个所述掩码位置的参考词语的特征向量,以及所述分词词语的特征向量,构建一个词语预测损失项;根据各个所述词语预测损失项,构建所述词语预测损失函数。11.根据权利要求10所述的方法,其中,所述针对所述样本文本中每个分词词语的所在位置,根据对应的至少一个所述掩码位置的参考词语的特征向量,以及所述分词词语的特
征向量,构建一个词语预测损失项,包括:针对所述样本文本中每个分词词语的所在位置,对对应的至少一个所述掩码位置的参考词语的特征向量进行加和处理,得到所述所在位置的预测特征向量;根据所述预测特征向量以及所述分词词语的特征向量,构建一个词语预测损失项。12.一种语言模型...

【专利技术属性】
技术研发人员:徐钰坪朱志凡冯仕堃黄世维
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1