当前位置: 首页 > 专利查询>科大讯飞华南人工智能研究院广州有限公司专利>正文

语言模型训练及自然语言任务处理方法、装置及相关设备制造方法及图纸

技术编号：35217345 阅读：19 留言：0更新日期：2022-10-15 10:32

本申请公开了一种语言模型训练及自然语言任务处理方法、装置及相关设备，区别于传统的以掩码字符对应的编码特征来预测目标字符的方式，本案改为利用掩码字符所在训练文本末尾处的第二占位符对应的编码特征来预测目标字符，从而将训练文本中局部信息编码进第二占位符中，使得第二占位符对应的编码特征能够表示训练文本中局部的语义。同时，本申请也可以通过第一占位符提取到训练文本整体的语义，使得提取到的最终特征同时包含了全局和局部语义特征，特征更加丰富、准确。应用于下游任务时，能够更好的区分相似语义的文本。能够更好的区分相似语义的文本。能够更好的区分相似语义的文本。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练及自然语言任务处理方法、装置及相关设备

[0001]本申请涉及自然语言处理
，更具体的说，是涉及一种语言模型训练及自然语言任务处理方法、装置及相关设备。

技术介绍

[0002]自然语言处理是人工智能领域的重要研究方向，其核心目的是教机器“读懂”人类日常使用的自然语言，如输入两句话，让机器判断这两句话是否语义相关，等。传统深度学习采用监督学习的训练方式，依赖大量精确标注数据，然而精确标注数据在实际应用中数据量较少，且存在标注规范不统一、标注时间长、标注精度差等问题。因此，无监督语言模型开始兴起，其先利用大量无标注语料学习通用的语义理解能力，再利用少量精标注数据进行微调，使得深度学习模型在众多任务上都表现出与人类相当甚至超越人类的性能。
[0003]目前使用最多的语言模型以Transformer为例，其在输入文本的开头添加[CLS]占位符，并其基于自注意力机制建模上下文语义信息，通过预训练可以使得[CLS]占位符编码了输入文本的全局信息，基于此，后续利用[CLS]占位符对应的编码信息，来进行下游任务的处理，如做分类任务等。但是，本案专利技术人研究发现，这种训练方式虽然能够通过[CLS]占位符编码输入文本的全局信息，但是并未考虑输入文本局部的差异对上下文语义的影响，导致模型对相似文本无法很好的进行区分，示例如对于两条文本“高温低压”和“高压低温”，这两条文本的语义是完全相反的，但是按照现有语言模型训练方式，其认为两条文本整体上包含的字符都有且形式上十分相似，进而输出的该两条文本的全局编码特征比较接...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法，其特征在于，包括：对训练文本进行占位符添加及随机字符掩码处理，得到编辑后训练文本，所述训练文本中随机选取的目标字符在所述编辑后训练文本中用设定掩码字符替代，且所述编辑后训练文本中在首条训练文本的起始字符前添加有第一占位符，在每条训练文本的末尾添加有第二占位符；确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的，每个字符的编码特征；利用语言模型处理各字符的编码特征，得到与所述第一占位符对应的全局语义特征，以及与所述第二占位符对应的局部语义特征；所述全局语义特征用于表示所述训练文本整体的语义，所述局部语义特征用于表示所述训练文本中局部的语义；基于所述掩码字符所在训练文本的末尾处的第二占位符对应的局部语义特征，预测所述掩码字符对应的目标字符，直至达到设定训练结束条件，得到训练后的语言模型。2.根据权利要求1所述的方法，其特征在于，所述对训练文本进行占位符添加及随机字符掩码处理，得到编辑后训练文本，包括：在首条训练文本的起始字符前添加第一占位符，在每条训练文本的末尾添加第二占位符，得到包含占位符的训练文本；将所述包含占位符的训练文本按照字符进行拆分，并随机选取目标字符用设定掩码字符替代，得到编辑后训练文本；或，将每条训练文本按照字符进行拆分，并随机选取目标字符用设定掩码字符替代，得到掩码后训练文本；在首条掩码后训练文本的起始字符前添加第一占位符，在每条掩码后训练文本的末尾添加第二占位符，得到编辑后训练文本。3.根据权利要求1所述的方法，其特征在于，确定所述编辑后训练文本中包括第一、第二占位符及掩码字符在内的，每个字符的编码特征，包括：对于编辑后训练文本中包括第一、第二占位符及掩码字符在内的，每个字符：分别确定字符的字符编码特征、片段编码特征和位置编码特征，其中，所述字符编码特征表示字符本身的含义，所述片段编码特征表示字符所在训练文本的排序顺序，所述位置编码特征表示字符在编辑后训练文本中的位置；将每个字符的字符编码特征、片段编码特征和位置编码特征进行融合，得到每个字符融合后的编码特征。4.根据权利要求3所述的方法，其特征在于，确定字符的位置编码特征的过程，包括：确定所述编辑后训练文本中的分词及各分词的排序顺序；对于编辑后训练文本中每个字符，按照字符所在分词的排序顺序，确定字符的位置编码特征。5.根据权利要求1所述的方法，其特征在于，所述利用语言模型处理各字符的编码特征，得到与所述第一占位符对应的全局语义特征，以及与所述第二占位符对应的局部语义特征，包括：利用语言模型将所述编辑后训练文本中的每个字符，分别与其余各字符进行注意力
attention处理，得到每个字符融合其余字符含义后的特征表示，其中，由第一占位符对应的字符融合其余字符含义后的特征表示，作为全局语义特征，由第二占位符对应的字符融合其余字符含义后的特征表示，作为局部语义特征。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，还包括：利用训练后的语言模型处理添加了第一、第二占位符后的训练文本，得到第一占位符对应的全局语义特征和第二占位符对应的局部语义特征；将所述全局语义特征和所述局部语义特征进行融合，得到融合后语义特征；将所述融合后语义特征输入下游的任务处理模块，得到任务处理模块预测的任务处理结果，以所述预测的任务处理结果趋近于所述训练文本对应的...

【专利技术属性】
技术研发人员：许光辉，杜倩云，梅林海，
申请(专利权)人：科大讯飞华南人工智能研究院广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人