语言模型的预训练方法、装置及电子设备制造方法及图纸

技术编号：37842679 阅读：12 留言：0更新日期：2023-06-14 09:47

本公开提供了语言模型的预训练方法、装置及电子设备，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、智能搜索技术领域。具体实现方案为：获取至少一个掩码样本文本、掩码样本文本中掩码位置的参考词语以及掩码样本文本中分词词语的参考类别；将掩码样本文本输入语言模型中的特征提取网络，获取掩码位置的特征向量以及分词词语的特征向量；进而输入语言模型中的预测网络，获取掩码位置的预测词语以及分词词语的预测类别；根据掩码位置的预测词语和参考词语、分词词语的预测类别和参考类别，构建语言模型的损失函数，对语言模型进行预训练处理，从而使得语言模型能够学习到词语类别能力，提高语言模型的准确度。提高语言模型的准确度。提高语言模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的预训练方法、装置及电子设备

[0001]本公开涉及人工智能
，尤其涉及深度学习、自然语言处理、智能搜索
，尤其涉及一种语言模型的预训练方法、装置及电子设备。

技术介绍

[0002]目前，常见的语言模型的预训练方法主要为，对样本文本中的部分词语进行掩码处理，然后基于上下文对掩码位置进行词语预测处理，得到预测词语，结合预测词语以及掩码位置的原始词语，构建损失函数，对语言模型进行训练，从而使得语言模型能够学习到文本理解能力。
[0003]然而，基于上述预训练方法训练得到的语言模型，在实际应用中，若输入的文本中存在新词，即语言模型训练过程中未接触过的词语，会严重干扰语言模型的最终输出结果，降低输出结果的准确度，导致语言模型的准确度差。

技术实现思路

[0004]本公开提供了一种语言模型的预训练方法、装置及电子设备。
[0005]根据本公开的一方面，提供了一种语言模型的预训练方法，所述方法包括：获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别；将所述掩码样本文本输入语言模型中的特征提取网络，获取所述掩码位置的特征向量以及所述分词词语的特征向量；将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络，获取所述掩码位置的预测词语以及所述分词词语的预测类别；根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别，构建所述语言模型的损失函数，对所述语言模型进行预训练处理。
[000...

【技术保护点】

【技术特征摘要】
1.一种语言模型的预训练方法，包括：获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别；将所述掩码样本文本输入语言模型中的特征提取网络，获取所述掩码位置的特征向量以及所述分词词语的特征向量；将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络，获取所述掩码位置的预测词语以及所述分词词语的预测类别；根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别，构建所述语言模型的损失函数，对所述语言模型进行预训练处理。2.根据权利要求1所述的方法，其中，所述获取至少一个掩码样本文本、所述掩码样本文本中掩码位置的参考词语以及所述掩码样本文本中分词词语的参考类别，包括：获取至少一个样本文本；针对每个样本文本，对所述样本文本中的部分词语进行掩码处理，得到所述样本文本对应的掩码样本文本；根据所述样本文本，确定所述掩码样本文本中的掩码位置以及所述掩码位置的参考词语；根据所述掩码样本文本中的分词词语查询类别词表，获取所述分词词语的参考类别。3.根据权利要求2所述的方法，其中，所述针对每个样本文本，对所述样本文本中的部分词语进行掩码处理，得到所述样本文本对应的掩码样本文本，包括：针对每个样本文本，对所述样本文本进行分词处理，获取所述样本文本中的多个分词词语；从多个所述分词词语中选择第一分词词语；对所述样本文本中所述第一分词词语的所在位置进行掩码处理，得到所述样本文本对应的掩码样本文本。4.根据权利要求2所述的方法，其中，所述针对每个样本文本，对所述样本文本中的部分词语进行掩码处理，得到所述样本文本对应的掩码样本文本，包括：针对每个样本文本，对所述样本文本进行分词处理，获取所述样本文本中的多个分词词语；从多个所述分词词语中选择第一分词词语和第二分词词语；对所述第二分词词语进行拆分处理，获取所述第二分词词语中的第二字符；对所述样本文本中所述第一分词词语的所在位置以及所述第二字符的所在位置进行掩码处理，得到所述样本文本对应的掩码样本文本。5.根据权利要求2所述的方法，其中，所述根据所述样本文本，确定所述掩码样本文本中的掩码位置以及所述掩码位置的参考词语，包括：确定所述掩码样本文本中的掩码位置；将所述样本文本中所述掩码位置上的词语，作为所述掩码位置的参考词语。6.根据权利要求2所述的方法，其中，在根据所述掩码样本文本中的分词词语查询类别词表，获取所述分词词语的参考类别之前，所述方法还包括：获取预设词表，所述预设词表中包括大于预设数量的词语；
确定各个所述词语的编码向量；根据各个所述词语的编码向量，对各个所述词语进行聚类处理，得到至少一个聚类结果；根据至少一个所述聚类结果的类别，确定各个所述词语的参考类别；根据各个所述词语以及各个所述词语的参考类别，生成所述类别词表。7.根据权利要求1所述的方法，其中，所述预测网络包括：词语预测网络和类别预测网络，所述将所述掩码位置的特征向量以及所述分词词语的特征向量输入所述语言模型中的预测网络，获取所述掩码位置的预测词语以及所述分词词语的预测类别，包括：将所述掩码位置的特征向量以及所述分词词语的特征向量，输入所述词语预测网络中，获取所述词语预测网络输出的所述掩码位置的预测词语；将所述分词词语的特征向量输入所述类别预测网络中，获取所述类别预测网络输出的所述分词词语的预测类别。8.根据权利要求1所述的方法，其中，所述根据所述掩码位置的预测词语和参考词语、所述分词词语的预测类别和参考类别，构建所述语言模型的损失函数，对所述语言模型进行预训练处理，包括：根据所述掩码位置的预测词语和参考词语，构建词语预测损失函数；根据所述分词词语的预测类别和参考类别，构建类别预测损失函数；根据所述词语预测损失函数和所述类别预测损失函数，构建所述损失函数；根据所述损失函数的数值，对所述语言模型进行系数调整，实现对所述语言模型的预训练处理。9.根据权利要求8所述的方法，其中，所述掩码位置的参考词语，为所述掩码样本文本对应的样本文本中的分词词语，所述根据所述掩码位置的预测词语和参考词语，构建词语预测损失函数，包括：针对每个掩码位置，确定所述掩码位置的预测词语的特征向量；确定所述掩码位置的参考词语的特征向量；根据所述掩码位置的预测词语的特征向量以及参考词语的特征向量，构建一个词语预测损失项；根据各个所述掩码位置的词语预测损失项，构建所述词语预测损失函数。10.根据权利要求8所述的方法，其中，至少一个所述掩码位置的参考词语，为所述掩码样本文本对应的样本文本中分词词语拆分得到的，所述根据所述掩码位置的预测词语和参考词语，构建词语预测损失函数，包括：确定至少一个所述掩码位置与所述样本文本中分词词语的所在位置之间的对应关系，其中，在所述对应关系中，至少一个所述掩码位置的参考词语，由对应的所在位置的分词词语拆分处理得到；针对所述样本文本中每个分词词语的所在位置，根据对应的至少一个所述掩码位置的参考词语的特征向量，以及所述分词词语的特征向量，构建一个词语预测损失项；根据各个所述词语预测损失项，构建所述词语预测损失函数。11.根据权利要求10所述的方法，其中，所述针对所述样本文本中每个分词词语的所在位置，根据对应的至少一个所述掩码位置的参考词语的特征向量，以及所述分词词语的特
征向量，构建一个词语预测损失项，包括：针对所述样本文本中每个分词词语的所在位置，对对应的至少一个所述掩码位置的参考词语的特征向量进行加和处理，得到所述所在位置的预测特征向量；根据所述预测特征向量以及所述分词词语的特征向量，构建一个词语预测损失项。12.一种语言模型...

【专利技术属性】
技术研发人员：徐钰坪，朱志凡，冯仕堃，黄世维，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人